全部标签

大数据

最新随机最多浏览最多喜欢最多评论

分类：
开源软件大数据数据存储可视化

HIVE- 新建UDF范例

首先pom文件导入依赖，Hadoop和hive的依赖导入自己机器的版本，hive记得导jdbc <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.6.1</v…
博客
- 0
- 0
- 68
牛肉丸没牛肉19年8月18日
大数据- 自定义Log4j日记

1.新建一个java project，在src下新建一个lib文件夹和 rescources 文件夹，resources文件夹不能命名错误。点击File——》project Structure...打开根据下图操作把相关jar包放进lib文件夹里并绑定。新建一个java文件 Log4jTest.java 和 HadoopLog4j.java 1 2 3 4 5 6…
博客
- 0
- 0
- 48
牛肉丸没牛肉19年8月17日
Spark- 计算每个学科最受欢迎的老师

日志类型测试数据 http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://java.myit.c…
博客
- 0
- 0
- 86
牛肉丸没牛肉19年8月18日
Spark- SparkSQL中 Row.getLong 出现NullPointerException错误的处理方法

在SparkSQL中获取Row的值，而且Row的字段允许null时，在取值的时候取到null赋值给新的变量名会报NullPointerException错误，可以先用row.isNullAt(index)去判断该字段的值是否为空首先上错误修改为先初始化变量，判断row.isNullAt(6) 如果不为空就将值赋值给变量
博客
- 0
- 0
- 105
牛肉丸没牛肉19年8月18日
Spark- 常见问题

记录spark使用中常见问题 SparkSQL 日期解析时用到SimpleDateFormat， SimpleDateFormat是线程不安全的。可以使用 FastDateFormat 如： import org.apache.commons.lang3.time.FastDateFormat // 输入文件日期时间格式 // [10/Nov/2018:00:01:02 +0800]…
博客
- 0
- 0
- 76
牛肉丸没牛肉19年8月18日
Docker-

Docker是容器技术的一个代表。容器技术从本质上讲是将程序隔离打包这么个技术。Docker解决了软件包装问题，很好的理顺了开发和运维环境的差异，使得开发和运维可以全用同种语言进行沟通。它是一个云计算的技术。 Docker是通过内核虚拟化技术（namespace及cgroups等）来提供容器的资源隔离与安全保障。由于Docker通过操作系统层的虚拟化实现隔离，所以Docker容器在运…
博客
- 0
- 0
- 54
牛肉丸没牛肉19年8月18日
$Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.$
Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

报错 G:\APP\JDK\bin\java -Didea.launcher.port=7532 "-Didea.launcher.bin.path=G:\APP\IntelliJ IDEA\bin" -Dfile.encoding=UTF-8 -classpath "G:\APP\JDK\jre\lib\charsets.jar;G:\APP\JDK\…
博客
- 0
- 0
- 126
牛肉丸没牛肉19年8月17日
Hadoop- Hadoop环境搭建

Windows下Hadoop的安装准备工具：64位的JDK,Hadoop安装包（我使用的是2.6.1） JDK下载地址官网： http://www.oracle.com/technetwork/java/javase/downloads/index.html Hadoop下载地址官网：http://hadoop.apache.org/ 1.安装JDK环境，配置系统环境变量. 选…
博客
- 0
- 0
- 71
牛肉丸没牛肉19年8月17日
Hive- Hive Web Interface

当我们安装好hive时候，我们启动hive的UI界面的时候，命令: hive –-service hwi ，报错，没有war包我们查看hive/conf/hive-default.xml.template，查找hwi 把这3台属性复制，添加到hive-site.xml里面， vim hive-site.xml <property> <name>hive.hw…
博客
- 0
- 0
- 104
牛肉丸没牛肉19年8月17日
Apache Kudu 1.10.0 发布，Hadoop 生态数据存储系统

Apache Kudu 1.10.0 发布了，Kudu 是一个支持结构化数据的开源存储引擎，具有低延迟随机读取与高效分析读取模式。它基于 Apache Hadoop 生态系设计，并支持与 Apache 软件基金会其它数据分析项目集成。此版本带来的新特性包括： Kudu 现在通过使用 Apache Spark 实现的作业支持完整和增量表备份。此外，它还支持通过使用 Apache Spark 实现的…
博客
- 0
- 0
- 121
summer19年7月12日
Hadoop- 集群启动详解

NameNode启动过程详解第一次启动：HDFS格式化后，生成fsimage文件 hdf
博客
- 0
- 0
- 46
牛肉丸没牛肉19年8月18日
Hadoop- NameNode和Secondary NameNode元数据管理机制

元数据的存储机制A、内存中有一份完整的元数据(内存meta data)B、磁盘有一个“准完整”的元数据镜像（fsimage）文件(在namenode的工作目录中)C、用于衔接内存metadata和持久化元数据镜像fsimage之间的操作日志（edits文件）NameNode和Secondary NameNode元数据管理机制客户端每次对文件的操作，如果涉及到元数据的更新（读除外），比如…
博客
- 0
- 0
- 53
牛肉丸没牛肉19年8月17日
Spark- Action实战

Spark- Action实战 package cn.rzlee.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object ActionOperation { def main(args: Array[String]): Unit…
博客
- 0
- 0
- 66
牛肉丸没牛肉19年8月18日
HIVE- 大数据运维之hive管理

我现在在一家公司负责大数据平台（CDH平台）的运维管理，最常遇见的问题我总结出来，并且继续在下面更新。希望方便自己以后trouble shooting以及方便各位同行解决问题与学习。关于做运维有几个重要的要点一定一定要遵守的：遇到问题冷静，冷静，冷静，就山崩都要冷静，心态关乎你是否能将问题解决同时不会给人留下不好的印象。凡是关于对集群更改与变动的操作，一定要在测试环境测试到没问…
博客
- 0
- 0
- 98
牛肉丸没牛肉19年8月18日
Spark- 根据ip地址计算归属地

主要考察的是广播变量的使用： 1、将要广播的数据 IP 规则数据存放在HDFS上，（广播出去的内容一旦广播出去产就不能改变了，如果需要实时改变的规则，可以将规则放到Redis中） 2、在Spark中转成RDD，然后收集到Driver端， 3、把 IP 规则数据广播到Executor中。Driver端广播变量的引用是怎样跑到 Executor中的呢?　　Task在Driver端生成的，…
博客
- 0
- 0
- 144
牛肉丸没牛肉19年8月18日
华为发布 Volcano 开源项目，方便 AI、大数据、基因、渲染等诸多行业通用计算框架接入

Volcano 是基于 Kubernetes 的批处理系统，源自于华为云 AI 容器。Volcano 方便 AI、大数据、基因、渲染等诸多行业通用计算框架接入，提供高性能任务调度引擎，高性能异构芯片管理，高性能任务运行管理等能力。授权协议: Apache 开发语言: Google Go 操作系统: Linux 开发厂商: 华为整体架构 Volcano 提供一整套目前 K8S 在批量和弹性工作负…
博客
- 0
- 0
- 237
hunterho19年7月3日
spark- PySparkSQL之PySpark解析Json集合数据

PySparkSQL之PySpark解析Json集合数据数据样本 12341234123412342|asefr-3423|[{"name":"spark","score":"65"},{"name":"airlow","score":&quo…
博客
- 0
- 0
- 74
牛肉丸没牛肉19年8月18日
激活idea2018

首先下载安装完成后，打开hosts文件，新增一条路由： 0.0.0.0 account.jetbrains.com 打开软件输入序列码： EB101IWSWD-eyJsaWNlbnNlSWQiOiJFQjEwMUlXU1dEIiwibGljZW5zZWVOYW1lIjoibGFuIHl1IiwiYXNzaWduZWVOYW1lIjoiIiwiYXNzaWduZWVFbWFpbCI6I…
博客
- 0
- 0
- 97
牛肉丸没牛肉19年8月18日
Storm- 使用Storm实现累积求和的操作

需求：1+2+3+... = ？？？实现方案： Spout发出数字作为input 使用Bolt来处理业务逻辑：求和将结果输出到控制台拓扑设计：DataSourceSpout -->SumBolt→输出 package com.imooc.bigdata; import org.apache.storm.Config; import org.apache.st…
博客
- 0
- 0
- 78
牛肉丸没牛肉19年8月18日
大数据之路- Hadoop环境搭建（Linux）

前期部署 1.JDK 2.上传HADOOP安装包 2.1官网：http://hadoop.apache.org/ 2.2下载hadoop-2.6.1的这个tar.gz文件，官网： https://archive.apache.org/dist/hadoop/common/hadoop-2.6.1/ 下载成功后，把这个tar.gz包上传到服务器上，命令：通…
博客
- 0
- 0
- 66
牛肉丸没牛肉19年8月17日
Hive- 表

在hive中表的类型：管理表和托管表（外部表）。内部表也称之为MANAGER_TABLE,默认存储在/user/hive/warehouse下，也可以通过location指定；删除表时，会删除表的数据以及元数据；外部表称之为EXTERNAL_TABLE。在创建表时可以自己指定目录位置（LOCATION），数据存储所在的目录；删除表时，只会删除元数据不会删除表数据；创建外部表实例…
博客
- 0
- 0
- 98
牛肉丸没牛肉19年8月18日
CDH- CDH大数据集群运维

CDH前端CM监控不正常（未解决） Request to the Service Monitor failed. This may cause slow page responses. View the status of the Service Monitor. Request to the Host Monitor failed. This may cause sl…
博客
- 0
- 0
- 226
牛肉丸没牛肉19年8月18日
Spark- 优化后的 shuffle 操作原理剖析

在spark新版本中，引入了 consolidation 机制，也就是说提出了ShuffleGroup的概念。一个 ShuffleMapTask 将数据写入 ResultTask 数量的本地文本，这个不会变。但是，当下一个 ShuffleMapTask 运行的时候，可以直接将数据写入之前的 ShuffleMapTask 的本地文件。相当于是，对多个 ShuffleMapTask 输出…
博客
- 0
- 0
- 50
牛肉丸没牛肉19年8月18日
Hive- Hive 按时间定期插入分区表

写个shell脚本Hive 按时间定期插入分区表,由于今天统计的是昨天的数据所以日期减一。 #！/bin/bash DT=`date -d '-1 day' "+%Y-%m-%d"` #如果某天的数据有误需要重跑 if [ $1 ];then DT=$1 fi SQL=" insert overwrite table t…
博客
- 0
- 0
- 53
牛肉丸没牛肉19年8月18日
Springboot- pagehelper使用

1.添加pagehelper依赖 <dependency> <groupId>org.github.pagehelper</groupId> <artifactId>pagehelper-spring-boot-starter</artifactId> <version>1.3.2</version>…
博客
- 0
- 0
- 65
牛肉丸没牛肉19年8月18日
CDH- 集群时间同步ntp问题解决

在CDH集群中发现有两台机器获取不到心跳（），导致监控不了机器状态，出现告警可以使用ntpstat检查与ntp 服务器的时间偏差状态使用 ntpstat 发现没有同步到ntp时间服务器，运行 ntpdate ip 添加时间同步服务器出现报错 the NTP socket is in use, exiting 网上搜了一下，大部分的建议是…
博客
- 0
- 0
- 65
牛肉丸没牛肉19年8月18日
Zeppelin- Linux下安装Zeppelin

前期部署: 下载,解压,配置PATH环境(编辑/etc/profile文件,记得source一下该文件) zepplin配置参考文档:https://zeppelin.apache.org/docs/0.7.2/install/configuration.html 往conf/zeppelin-env.sh文件中添加端口号往底部添加 export ZEPPLELIN_PORT=8090 修改配置…
博客
- 0
- 0
- 95
牛肉丸没牛肉19年8月18日
Sqooop- 使用Sqoop进行数据的导入导出

Sqoop是Apache旗下的一个开源框架，专门用来做数据的导入和导出。官网:https://sqoop.apache.org/ Sqoop的安装非常简单，只需要把下载下来的tar包解压设置两个环境变量就可以了 1.安装部署下载版本：sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 官网：http://mirror.bit.edu.cn/apa…
博客
- 0
- 0
- 145
牛肉丸没牛肉19年8月17日
Hadoop- MapReduce在实际应用中常见的调优

1、Reduce Task Number 通常来说一个block就对应一个map任务进行处理，reduce任务如果人工不去设置干预的话就一个reduce。reduce任务的个数可以通过在程序中设置 job.setNumReduceTasks(个数); ，也可在配置文件上设置reduce任务个数，默认为1，或者在代码config中配置 Configuration configura…
博客
- 0
- 0
- 78
牛肉丸没牛肉19年8月18日
Spark- 数据清洗

输入输出转化工具类 package com.rz.mobile_tag.log import org.apache.spark.sql.Row import org.apache.spark.sql.types.{LongType, StringType, StructField, StructType} /** * 访问日志转换（输入==>输出）工具类 */ object A…
博客
- 0
- 0
- 100
牛肉丸没牛肉19年8月18日
Spark- Linux下安装Spark

Spark- Linux下安装Spark 前期部署 1.JDK安装，配置PATH 可以参考之前配置hadoop等配置 2.下载spark-1.6.1-bin-hadoop2.6.tgz,并上传到服务器解压 [root@srv01 ~]# tar -xvzf spark-1.6.1-hadoop2.6.tgz /usr/spark-1.6.1-hadoop2.6 3.在 /usr 下…
博客
- 0
- 0
- 78
牛肉丸没牛肉19年8月17日
Python- and & or 的短路原则

条件1 and 条件2 条件1 or 条件2 短路原则对于and 如果前面的第一个条件为假，那么这个and前后两个条件组成的表达式的计算结果就一定为假，第二个条件就不会被计算对于or 如果前面的第一个条件为真，那么这个or前后两个条件组成的表达式的计算结果就一定为真，第二个条件就不会被计算
Python
- 0
- 0
- 89
牛肉丸没牛肉19年8月18日
Oozie-

oozie是一个工作流调度系统，用于管理Apache Hadoop作业。 oozie工作流作业是操作的有向无环图( DAGs )。 Oozie协调器作业是由时间(频率)和数据可用性触发的重复Oozie工作流作业。 oozie与Hadoop堆栈的其余部分集成，支持几种现成的Hadoop作业(如Java map - reduce、流map - reduce、Pig、Hive、Sqoop和…
博客
- 0
- 0
- 73
牛肉丸没牛肉19年8月18日
PostgreSql

PostgreSql
博客
- 0
- 0
- 99
牛肉丸没牛肉19年8月18日
Hadoop- MR的shuffle过程

step1 input InputFormat读取数据，将数据转换成<key ,value>对,设置FileInputFormat，默认是文本格式（TextInputFormat） step2 map map<KEYIN, VALUEIN, KEYOUT, VALUEOUT> 默认情况下KEYIN:LongWritable,偏移量。VALUEIN:Text，K…
博客
- 0
- 0
- 46
牛肉丸没牛肉19年8月18日
Hadoop- 流量汇总程序之如何实现hadoop的序列化接口及代码实现

流量汇总程序需求统计每一个用户（手机号）锁耗费的总上行流量、下行流量、总流量。流程剖析阶段：map 读取一行数据，切分字段，抽取手机号，上行流量，下行流量 context.write(手机号，bean) 阶段：reduce 汇总遍历每个bean，将其中的上行流量，下行流量分别累加，得到一个新的bean context.write(手机号，新bean)；代码实现…
博客
- 0
- 0
- 77
牛肉丸没牛肉19年8月17日