全部标签

大数据

最新随机最多浏览最多喜欢最多评论

分类：
开源软件大数据数据存储可视化

CDH- CDH大数据集群运维

CDH前端CM监控不正常（未解决） Request to the Service Monitor failed. This may cause slow page responses. View the status of the Service Monitor. Request to the Host Monitor failed. This may cause sl…
博客
- 0
- 0
- 239
牛肉丸没牛肉19年8月18日
Python- 贪婪与非贪婪

python运行匹配时，如果没有人为限定，默认是贪婪模式。 import re a = 'python 22222java34bigdata' r = re.findall('[a-z]{3}',a) # 打印三个字符 rr = re.findall('[a-z]{3,6}',a) # 匹配到的长度最小为3，最长不能超过 r…
Python
- 0
- 0
- 114
牛肉丸没牛肉19年8月18日
CDH- 集群时间同步ntp问题解决

在CDH集群中发现有两台机器获取不到心跳（），导致监控不了机器状态，出现告警可以使用ntpstat检查与ntp 服务器的时间偏差状态使用 ntpstat 发现没有同步到ntp时间服务器，运行 ntpdate ip 添加时间同步服务器出现报错 the NTP socket is in use, exiting 网上搜了一下，大部分的建议是…
博客
- 0
- 0
- 72
牛肉丸没牛肉19年8月18日
激活idea2018

首先下载安装完成后，打开hosts文件，新增一条路由： 0.0.0.0 account.jetbrains.com 打开软件输入序列码： EB101IWSWD-eyJsaWNlbnNlSWQiOiJFQjEwMUlXU1dEIiwibGljZW5zZWVOYW1lIjoibGFuIHl1IiwiYXNzaWduZWVOYW1lIjoiIiwiYXNzaWduZWVFbWFpbCI6I…
博客
- 0
- 0
- 116
牛肉丸没牛肉19年8月18日
Kafka- Spark消费Kafka

在高版本的API中 val brokers = properties.getProperty("kafka.host.list") val topics = Set(properties.getProperty("kafka.application.topic")) val kafkaParams = Map[String, String]( …
博客
- 0
- 0
- 96
牛肉丸没牛肉19年8月18日
Docker-

Docker是容器技术的一个代表。容器技术从本质上讲是将程序隔离打包这么个技术。Docker解决了软件包装问题，很好的理顺了开发和运维环境的差异，使得开发和运维可以全用同种语言进行沟通。它是一个云计算的技术。 Docker是通过内核虚拟化技术（namespace及cgroups等）来提供容器的资源隔离与安全保障。由于Docker通过操作系统层的虚拟化实现隔离，所以Docker容器在运…
博客
- 0
- 0
- 65
牛肉丸没牛肉19年8月18日
HIVE- 大数据运维之hive管理

我现在在一家公司负责大数据平台（CDH平台）的运维管理，最常遇见的问题我总结出来，并且继续在下面更新。希望方便自己以后trouble shooting以及方便各位同行解决问题与学习。关于做运维有几个重要的要点一定一定要遵守的：遇到问题冷静，冷静，冷静，就山崩都要冷静，心态关乎你是否能将问题解决同时不会给人留下不好的印象。凡是关于对集群更改与变动的操作，一定要在测试环境测试到没问…
博客
- 0
- 0
- 108
牛肉丸没牛肉19年8月18日
Linux- AWS之EC2大数据集群定时开关机

众所周知，云计算就是在计算你的钱，每当ec2开起来就要开始计费。当用户购买了一个庞大的与服务器做一个集群，尤其是用来做大数据集群，这些服务器的配置相当高，每台服务器所需要的费用不菲。其实在很多时候没能够完全利用起其全部的资源，尤其在空闲时间，在夜间没有作业的情况下，这些服务器完全处于空闲的状态，却时刻在计费，这是相当不划算的。于是有这样一个方案，我们是不是可以在机器处于空闲的状态时将…
博客
- 0
- 0
- 128
牛肉丸没牛肉19年8月18日
Openldap- 大集群身份验证服务

无论在哪个行业，数据安全永远都是摆在首要地位。尤其是在大数据行业上，谁掌握了数据，谁就有可能成为下个亿万富豪的环境中，数据安全更为重要。大数据的安全可以从哪些地方入手，首先可以在身份验证上面入手。在大数据的集群设备上做好身份验证，可以使用openldap来做。唯有通过openldap管理的账号才能对大数据系统进行访问，没有通过openldap创建的账号是不能login到Hadoop…
博客
- 0
- 0
- 77
牛肉丸没牛肉19年8月18日
HIVE- 新建UDF范例

首先pom文件导入依赖，Hadoop和hive的依赖导入自己机器的版本，hive记得导jdbc <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.6.1</v…
博客
- 0
- 0
- 77
牛肉丸没牛肉19年8月18日
Hadoop- 集群启动详解

NameNode启动过程详解第一次启动：HDFS格式化后，生成fsimage文件 hdf
博客
- 0
- 0
- 51
牛肉丸没牛肉19年8月18日
Hadoop- Hadoop运维小计

如果是新添加一个节点，需要执行以下步骤：首先，把新节点的 IP或主机名加入主节点（master）的 conf/slaves 文件。然后登录新的从节点，执行以下命令： $ cd Hadoop_path $ bin/hadoop-daemon.sh start datanode $ bin/hadoop-daemon.sh start tasktracker 然后就可…
博客
- 0
- 0
- 64
牛肉丸没牛肉19年8月18日
Spark- 流量日志分析

日志生成 package zx.Utils import java.io.{File, FileWriter} import java.util.Calendar import org.apache.commons.lang.time.{DateUtils, FastDateFormat} import scala.collection.mutable.ArrayBuffer imp…
博客
- 0
- 0
- 94
牛肉丸没牛肉19年8月18日
Spark- 计算每个学科最受欢迎的老师

日志类型测试数据 http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://java.myit.c…
博客
- 0
- 0
- 105
牛肉丸没牛肉19年8月18日
Spark- SparkStreaming可更新状态的实例

Producer package zx.zx.sparkkafka import java.util.Properties import kafka.producer.{KeyedMessage, Producer, ProducerConfig} import scala.util.Random /** * Created by 166 on 2017/9/6. */ object…
博客
- 0
- 0
- 111
牛肉丸没牛肉19年8月18日
Spark- RDD简介

Spark里面提供了一个比较重要的抽象——弹性分布式数据集（resilient distributed dataset），简称RDD。弹性：数据可大可小，可分布在内存或磁盘，当某台机器宕机时，能够按照RDD的liveage重新计算，从而恢复。 RDD有5个特性： 1.一个分区列表，用于并行计算，每个分区对应一个原子数据集，作为这个分区的数据输入 2.计算这个RDD某个分区数据（这个分…
博客
- 0
- 0
- 78
牛肉丸没牛肉19年8月18日
Kafka- Kafka架构功能

Kafka是一个高吞吐量的分布式消息系统，一个分布式的发布-订阅消息系统。Kafka是一种快速，可拓展的，设计内在就是分布式的，分区的可复制的提交日志服务。 Apache Kafka与传统消息系统相比，有以下不同：它设计为一个分布式系统，易于向外拓展；它同时为发布和订阅提供高吞吐量；它支持多订阅者，当失败时能自动平衡消费者；它将消息持久化到磁盘，因此可用于批量消费，例如ETL…
博客
- 0
- 0
- 55
牛肉丸没牛肉19年8月18日
Storm- Storm作业提交运行流程

用户编写Storm Topology 使用client提交Topology给Nimbus Nimbus指派Task给Supervisor Supervisor为Task启动Worker Worker执行Task
博客
- 0
- 0
- 82
牛肉丸没牛肉19年8月18日
Python- and & or 的短路原则

条件1 and 条件2 条件1 or 条件2 短路原则对于and 如果前面的第一个条件为假，那么这个and前后两个条件组成的表达式的计算结果就一定为假，第二个条件就不会被计算对于or 如果前面的第一个条件为真，那么这个or前后两个条件组成的表达式的计算结果就一定为真，第二个条件就不会被计算
Python
- 0
- 0
- 97
牛肉丸没牛肉19年8月18日
Hive- Hive 按时间定期插入分区表

写个shell脚本Hive 按时间定期插入分区表,由于今天统计的是昨天的数据所以日期减一。 #！/bin/bash DT=`date -d '-1 day' "+%Y-%m-%d"` #如果某天的数据有误需要重跑 if [ $1 ];then DT=$1 fi SQL=" insert overwrite table t…
博客
- 0
- 0
- 66
牛肉丸没牛肉19年8月18日
Hadoop- MR的shuffle过程

step1 input InputFormat读取数据，将数据转换成<key ,value>对,设置FileInputFormat，默认是文本格式（TextInputFormat） step2 map map<KEYIN, VALUEIN, KEYOUT, VALUEOUT> 默认情况下KEYIN:LongWritable,偏移量。VALUEIN:Text，K…
博客
- 0
- 0
- 64
牛肉丸没牛肉19年8月18日
HIVE- 数据倾斜

数据倾斜就是由于数据分布不均匀，数据大量集中到一点上，造成数据热点。大多数情况下，分为一下三种情况： 1.map端执行比较快，reduce执行很慢，因为partition造成的数据倾斜。 2.某些reduce很快，某些reduce很慢，也是因为partition造成的数据倾斜。 3.某些map执行很快，某些map执行很慢，这是因为数据本身的分布的不合理性造成的。造成上面reduce…
博客
- 0
- 0
- 64
牛肉丸没牛肉19年8月18日
JAVA- 数据库连接池原理

第一次Java程序要在MySQL中执行一条语句，那么就必须建立一个Connection对象，代表了与MySQL数据库的连接通过直接发送你要执行的SQL语句之后，就会调用Connection.close()来关闭和销毁与数据库的连接。为什么要立即关闭呢？因为数据库的连接是一种很重的资源，代表了网络连接、IO等资源。所以如果不是用的话就需要尽早关闭，以避免资源浪费。 JDBC的劣势与不足…
Java
- 0
- 0
- 90
牛肉丸没牛肉19年8月18日
Hive- 表

在hive中表的类型：管理表和托管表（外部表）。内部表也称之为MANAGER_TABLE,默认存储在/user/hive/warehouse下，也可以通过location指定；删除表时，会删除表的数据以及元数据；外部表称之为EXTERNAL_TABLE。在创建表时可以自己指定目录位置（LOCATION），数据存储所在的目录；删除表时，只会删除元数据不会删除表数据；创建外部表实例…
博客
- 0
- 0
- 114
牛肉丸没牛肉19年8月18日
Spark- 性能优化

由于Spark 的计算本质是基于内存的，所以Spark的性能城西的性能可能因为集群中的任何因素出现瓶颈：CPU、网络带宽、或者是内存。如果内存能够容得下所有的数据，那么网络传输和通信就会导致性能出现频惊。但是如果内存比较紧张，不足以放下所有的数据（比如在针对10亿以上的数据量进行计算时），还是需要对内存的使用进行性能优化的，比如说使用一些手段来减少内存的消耗。 Spark性能优化，其…
博客
- 0
- 0
- 88
牛肉丸没牛肉19年8月18日
Spark- Checkpoint原理剖析

Checkpoint，是Spark 提供的一个比较高级的功能。有的时候，比如说，我们的 Spark 应用程序，特别的复杂，然后从初始的RDD开始，到最后拯个应用程序完成，有非常多的步骤，比如超过20个transformation 操作。而且整个应用运行的时间也特别的长，比如通常要运行1-5小时。在上述的情况下，就比较适合使用checkpoint 功能。因为，对于特别复杂的 Spar…
博客
- 0
- 0
- 94
牛肉丸没牛肉19年8月18日
Spark- 优化后的 shuffle 操作原理剖析

在spark新版本中，引入了 consolidation 机制，也就是说提出了ShuffleGroup的概念。一个 ShuffleMapTask 将数据写入 ResultTask 数量的本地文本，这个不会变。但是，当下一个 ShuffleMapTask 运行的时候，可以直接将数据写入之前的 ShuffleMapTask 的本地文件。相当于是，对多个 ShuffleMapTask 输出…
博客
- 0
- 0
- 56
牛肉丸没牛肉19年8月18日
Spark- Spark普通Shuffle操作的原理剖析

在spark中，什么情况下会发生shuffle？ reduceByKey，groupByKey，sortByKey，countByKey，join，cogroup等操作。默认的shuffle操作的原理剖析假设有一个节点上面运行了4个 ShuffleMapTask，然后这个节点上只有2个 cpu core。假如有另外一台节点，上面也运行了4个ResultTask，现在呢，正等着要去…
博客
- 0
- 0
- 59
牛肉丸没牛肉19年8月18日
Spark- Spark内核架构原理和Spark架构深度剖析

Spark内核架构原理 1.Driver 选spark节点之一，提交我们编写的spark程序，开启一个Driver进程，执行我们的Application应用程序，也就是我们自己编写的代码。Driver会根据我们对RDD定义的操作，提交一大堆的task去Executor上。Driver注册了一些Executor之后，就可以开始正式执行我们的Spark应用程序了，首先第一步，创建初始RD…
博客
- 0
- 0
- 75
牛肉丸没牛肉19年8月18日
Spark- Spark基本工作原理

Spark特点： 1.分布式 spark读取数据时是把数据分布式存储到各个节点内存中 2.主要基于内存（少数情况基于磁盘，如shuffle阶段）所有计算操作，都是针对多个节点上内存的数据，进行并行操作的 3.迭代式计算对分布式节点内存中的数据进行处理，处理后的数据可能会移动到其他节点的内存中，当需要用到某些数据时，从这些节点的内存中就能找到，迭代出来使用 Spark与MapRed…
博客
- 0
- 0
- 106
牛肉丸没牛肉19年8月18日
Hive- Hive 的基本操作

创建数据库 create database db_hive; use db_hive; create database if not exists db_hive_02; create database if not exists db_hive_01 location '/user/rz_lee/warehouse/db_hive_01.db'; //指定数据库…
博客
- 0
- 0
- 105
牛肉丸没牛肉19年8月18日
Hive- 大数据仓库Hive

什么是 Hive？ Hive 是由 FaceBook 开源用于解决少量数据结构化日志的数据统计。Hive是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能。Hive 处理的数据存储在 HDFS 上，分析数据的底层实现是 MapReduce ，执行程序运行的是YARN。构建在Hadoop之上的数据仓库：使用 HQL 作为查询接口使…
博客
- 0
- 0
- 67
牛肉丸没牛肉19年8月18日
Hadoop- DistCp(分布式拷贝)

在实际的生产环境中，我们的企业都有测试集群和生产集群，有的比较大型的企业有多个版本的Hadoop 大数据集群，这时候有个这样的需求，各个集群上的资源需要进行迁移，比如说一些生产集群需要一些测试集群的数据，需要将测试集群的上的数据拷贝到生产集群，这时候就需要使用到分布式拷贝（Distributed Copy）. 比较常见的有不同集群之间的数据迁移 hadoop distcp <s…
博客
- 0
- 0
- 106
牛肉丸没牛肉19年8月18日
Hadoop- 集群时间同步

集群的时间要同步 * 找一台机器时间服务器 * 所有的机器与这台机器时间进行定时的同步比如，每日十分钟，同步一次时间 # rpm -qa|grep ntp # vi /etc/ntp.conf # vi /etc/sysconfig/ntpd # Drop root to id 'ntp:ntp' by default. SYNC_HWCLOCK=yes OP…
博客
- 0
- 0
- 68
牛肉丸没牛肉19年8月18日
Hadoop- MapReduce在实际应用中常见的调优

1、Reduce Task Number 通常来说一个block就对应一个map任务进行处理，reduce任务如果人工不去设置干预的话就一个reduce。reduce任务的个数可以通过在程序中设置 job.setNumReduceTasks(个数); ，也可在配置文件上设置reduce任务个数，默认为1，或者在代码config中配置 Configuration configura…
博客
- 0
- 0
- 85
牛肉丸没牛肉19年8月18日
Hadoop- HDFS的Safemode

Hadoop- HDFS的Safemode hadoop启动时，NameNode启动完后就开始进入安全模式，等待DataNode向NameNode发送block report ，当datanode blocks / total blocks = 99.99%，此时安全模式才会退出安全模式下的操作：可以查看文件系统的文件在安全模式期间我们有些操作是不能进行的，比如不能改变文件系统…
博客
- 0
- 0
- 109
牛肉丸没牛肉19年8月18日