全部标签

大数据

最新随机最多浏览最多喜欢最多评论

分类：
开源软件大数据数据存储可视化

CDH- CDH大数据集群运维

CDH前端CM监控不正常（未解决） Request to the Service Monitor failed. This may cause slow page responses. View the status of the Service Monitor. Request to the Host Monitor failed. This may cause sl…
博客
- 0
- 0
- 264
牛肉丸没牛肉19年8月18日
Hbase- Hbase客户端读写数据时的路由流程

1、客户端先到zookeeper查找hbase:meta所在的RegionServer服务器 2、去hbase:meta表查找自己所要的数据所在的region server 3、去目标region server上的region要自己的数据可以看出客户端查找数据可以不经过master
博客
- 0
- 0
- 72
牛肉丸没牛肉19年8月18日
Spark- 共享变量

Shared Variables Normally, when a function passed to a Spark operation (such as map or reduce) is executed on a remote cluster node, it works on separate copies of all the variables used in the…
博客
- 0
- 0
- 158
牛肉丸没牛肉19年8月18日
Spark- RDD持久化

官方原文： RDD Persistence One of the most important capabilities in Spark is persisting (or caching) a dataset in memory across operations. When you persist an RDD, each node stores any partitions …
博客
- 0
- 0
- 127
牛肉丸没牛肉19年8月18日
Spark- Action实战

Spark- Action实战 package cn.rzlee.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object ActionOperation { def main(args: Array[String]): Unit…
博客
- 0
- 0
- 93
牛肉丸没牛肉19年8月18日
Spark- Transformation实战

RDD的算子分为两类,是 Trans formation(Lazy),一类是 Action(触发任务执行 RDD不存在真正要计算的数据,而是记录了RDD的转换关系(调用了什么方法,传入什么函数) RDD的 Trans formation的特点 1. lazy 2.生成新的RDD package cn.rzlee.spark.core import org.…
博客
- 0
- 0
- 124
牛肉丸没牛肉19年8月18日
Spark-Spark setMaster & WordCount Demo

Spark setMaster源码 /** * The master URL to connect to, such as "local" to run locally with one thread, "local[4]" to * run locally with 4 cores, or "spark://master:7077&…
博客
- 0
- 0
- 176
牛肉丸没牛肉19年8月18日
Oozie-

oozie是一个工作流调度系统，用于管理Apache Hadoop作业。 oozie工作流作业是操作的有向无环图( DAGs )。 Oozie协调器作业是由时间(频率)和数据可用性触发的重复Oozie工作流作业。 oozie与Hadoop堆栈的其余部分集成，支持几种现成的Hadoop作业(如Java map - reduce、流map - reduce、Pig、Hive、Sqoop和…
博客
- 0
- 0
- 100
牛肉丸没牛肉19年8月18日
Storm- 使用Storm实现词频汇总

需求：读取指定目录的数据，并实现单词计数的功能实现方案： Spout来读取指定目录的数据，作为后续Bolt处理的input 使用一个Bolt把input 的数据，切割分开，我们按照逗号进分割使用一个Bolt来进行最终的单词次数统计操作并输出拓扑设计：DataSourceSpout ==>SpiltBolt ==>CountBolt Storm编程注意，…
博客
- 0
- 0
- 104
牛肉丸没牛肉19年8月18日
Storm- 使用Storm实现累积求和的操作

需求：1+2+3+... = ？？？实现方案： Spout发出数字作为input 使用Bolt来处理业务逻辑：求和将结果输出到控制台拓扑设计：DataSourceSpout -->SumBolt→输出 package com.imooc.bigdata; import org.apache.storm.Config; import org.apache.st…
博客
- 0
- 0
- 111
牛肉丸没牛肉19年8月18日
CDH- 测试mr

cdh的mr样例算法的jar包在 [zc.lee@ip-172-32-1-221 hadoop-0.20-mapreduce]$ pwd /opt/cloudera/parcels/CDH-5.10.0-1.cdh5.10.0.p0.41/lib/hadoop-0.20-mapreduce 查看该目录下的文件 [zc.lee@ip-172-32-1-221 hadoop-0.20-m…
博客
- 0
- 0
- 148
牛肉丸没牛肉19年8月18日
Hadoop- Namenode经常挂掉 IPC’s epoch 9 is less than the last promised epoch 10

如题出现Namenode经常挂掉 IPC's epoch 9 is less than the last promised epoch 10， 2019-01-03 05:36:14,774 INFO org.apache.hadoop.hdfs.StateChange: BLOCK* allocate blk_1073741949_1131{UCState=…
博客
- 0
- 0
- 239
牛肉丸没牛肉19年8月18日
CDH- 集群时间同步ntp问题解决

在CDH集群中发现有两台机器获取不到心跳（），导致监控不了机器状态，出现告警可以使用ntpstat检查与ntp 服务器的时间偏差状态使用 ntpstat 发现没有同步到ntp时间服务器，运行 ntpdate ip 添加时间同步服务器出现报错 the NTP socket is in use, exiting 网上搜了一下，大部分的建议是…
博客
- 0
- 0
- 87
牛肉丸没牛肉19年8月18日
Kafka- Spark消费Kafka

在高版本的API中 val brokers = properties.getProperty("kafka.host.list") val topics = Set(properties.getProperty("kafka.application.topic")) val kafkaParams = Map[String, String]( …
博客
- 0
- 0
- 116
牛肉丸没牛肉19年8月18日
Docker-

Docker是容器技术的一个代表。容器技术从本质上讲是将程序隔离打包这么个技术。Docker解决了软件包装问题，很好的理顺了开发和运维环境的差异，使得开发和运维可以全用同种语言进行沟通。它是一个云计算的技术。 Docker是通过内核虚拟化技术（namespace及cgroups等）来提供容器的资源隔离与安全保障。由于Docker通过操作系统层的虚拟化实现隔离，所以Docker容器在运…
博客
- 0
- 0
- 77
牛肉丸没牛肉19年8月18日
HIVE- 大数据运维之hive管理

我现在在一家公司负责大数据平台（CDH平台）的运维管理，最常遇见的问题我总结出来，并且继续在下面更新。希望方便自己以后trouble shooting以及方便各位同行解决问题与学习。关于做运维有几个重要的要点一定一定要遵守的：遇到问题冷静，冷静，冷静，就山崩都要冷静，心态关乎你是否能将问题解决同时不会给人留下不好的印象。凡是关于对集群更改与变动的操作，一定要在测试环境测试到没问…
博客
- 0
- 0
- 133
牛肉丸没牛肉19年8月18日
Linux- AWS之EC2大数据集群定时开关机

众所周知，云计算就是在计算你的钱，每当ec2开起来就要开始计费。当用户购买了一个庞大的与服务器做一个集群，尤其是用来做大数据集群，这些服务器的配置相当高，每台服务器所需要的费用不菲。其实在很多时候没能够完全利用起其全部的资源，尤其在空闲时间，在夜间没有作业的情况下，这些服务器完全处于空闲的状态，却时刻在计费，这是相当不划算的。于是有这样一个方案，我们是不是可以在机器处于空闲的状态时将…
博客
- 0
- 0
- 148
牛肉丸没牛肉19年8月18日
Openldap- 大集群身份验证服务

无论在哪个行业，数据安全永远都是摆在首要地位。尤其是在大数据行业上，谁掌握了数据，谁就有可能成为下个亿万富豪的环境中，数据安全更为重要。大数据的安全可以从哪些地方入手，首先可以在身份验证上面入手。在大数据的集群设备上做好身份验证，可以使用openldap来做。唯有通过openldap管理的账号才能对大数据系统进行访问，没有通过openldap创建的账号是不能login到Hadoop…
博客
- 0
- 0
- 96
牛肉丸没牛肉19年8月18日
HIVE- 新建UDF范例

首先pom文件导入依赖，Hadoop和hive的依赖导入自己机器的版本，hive记得导jdbc <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.6.1</v…
博客
- 0
- 0
- 103
牛肉丸没牛肉19年8月18日
Hadoop- 集群启动详解

NameNode启动过程详解第一次启动：HDFS格式化后，生成fsimage文件 hdf
博客
- 0
- 0
- 78
牛肉丸没牛肉19年8月18日
Hadoop- Hadoop运维小计

如果是新添加一个节点，需要执行以下步骤：首先，把新节点的 IP或主机名加入主节点（master）的 conf/slaves 文件。然后登录新的从节点，执行以下命令： $ cd Hadoop_path $ bin/hadoop-daemon.sh start datanode $ bin/hadoop-daemon.sh start tasktracker 然后就可…
博客
- 0
- 0
- 93
牛肉丸没牛肉19年8月18日
Spark- 流量日志分析

日志生成 package zx.Utils import java.io.{File, FileWriter} import java.util.Calendar import org.apache.commons.lang.time.{DateUtils, FastDateFormat} import scala.collection.mutable.ArrayBuffer imp…
博客
- 0
- 0
- 110
牛肉丸没牛肉19年8月18日
HIVE- SCD缓慢变化维

SCD缓慢变化维，比如一个用户维表，用户属性会变化，但是不会变化很剧烈，可能一年只会变化一两次，也不会所有用户的属性都会有变化，只有少量的数据发生变化，所以叫缓慢变化维。这种问题就是由于维度的变化所造成的。解决方式：是否保留历史数据保留多久历史数据历史状态如何与事实表关联 SCD1 保留最新状态注册日期用户编号手机号码 2019-01-01 0001 111111 20…
博客
- 0
- 0
- 90
牛肉丸没牛肉19年8月18日
可视化数据库管理平台：DBeaver 7.0.3

DBeaver 是一个可视化通用的数据库管理工具和 SQL 客户端，支持 MySQL, PostgreSQL, Oracle, DB2, MSSQL, Sybase, Mimer, HSQLDB, Derby, 以及其他兼容 JDBC 的数据库。 DBeaver 提供一个图形界面用来查看数据库结构、执行 SQL 查询和脚本，浏览和导出数据，处理 BLOB/CLOB 数据，修改数据库结构等等。 …
企业应用
- 0
- 0
- 181
summer20年4月20日
Spark- Spark从SFTP中读取zip压缩文件数据做计算

我们遇到个特别的需求，一个数据接入的流程跑的太慢，需要升级为用大数据方式去处理，提高效率。数据：数据csv文件用Zip 压缩后放置在SFTP中数据来源： SFTP 数据操作：文件和它的压缩包一致，后缀不同。文件名中包含渠道、日期、操作标记("S"追加,"N"全量,"D"删除) 升级前的操作方式： she…
博客
- 0
- 0
- 140
牛肉丸没牛肉19年8月18日
ERROR- 开发常见error

一，数据插入MySql中出现中文乱码解决办法有： 1。新建数据库选择 create database 'GG' CHARACTER SET 'utf8 ' COLLATE 'utf8_general_ci '; 2。建表的时候： CREATE TABLE `TableA` (`ID` varchar(40) NOT NUL…
博客
- 0
- 0
- 97
牛肉丸没牛肉19年8月18日
spark- PySparkSQL之PySpark解析Json集合数据

PySparkSQL之PySpark解析Json集合数据数据样本 12341234123412342|asefr-3423|[{"name":"spark","score":"65"},{"name":"airlow","score":&quo…
博客
- 0
- 0
- 98
牛肉丸没牛肉19年8月18日
Spark- 常见问题

记录spark使用中常见问题 SparkSQL 日期解析时用到SimpleDateFormat， SimpleDateFormat是线程不安全的。可以使用 FastDateFormat 如： import org.apache.commons.lang3.time.FastDateFormat // 输入文件日期时间格式 // [10/Nov/2018:00:01:02 +0800]…
博客
- 0
- 0
- 108
牛肉丸没牛肉19年8月18日
Hadoop- HDFS的API操作

1、引入依赖 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.6.1</version> </dependency> 注：如需手动引入ja…
博客
- 0
- 0
- 193
牛肉丸没牛肉19年8月18日
Spark- 数据清洗

输入输出转化工具类 package com.rz.mobile_tag.log import org.apache.spark.sql.Row import org.apache.spark.sql.types.{LongType, StringType, StructField, StructType} /** * 访问日志转换（输入==>输出）工具类 */ object A…
博客
- 0
- 0
- 121
牛肉丸没牛肉19年8月18日
Spark- 求最受欢迎的TopN课程

数据库操作工具类 package com.rz.mobile_tag.utils import java.sql.{Connection, DriverManager, PreparedStatement} object MySQLUtils { /** * 获取数据库连接 * @return */ def getConnection()={ DriverManager.getCon…
博客
- 0
- 0
- 168
牛肉丸没牛肉19年8月18日
Spark- SparkSQL中 Row.getLong 出现NullPointerException错误的处理方法

在SparkSQL中获取Row的值，而且Row的字段允许null时，在取值的时候取到null赋值给新的变量名会报NullPointerException错误，可以先用row.isNullAt(index)去判断该字段的值是否为空首先上错误修改为先初始化变量，判断row.isNullAt(6) 如果不为空就将值赋值给变量
博客
- 0
- 0
- 133
牛肉丸没牛肉19年8月18日
Scala- Double类型工具类

格式化分数，按照指定小数位四舍五入工具类 package com.rz.util object NumberUtils { /** * 格式化小数 * @param num Double对象 * @param scale 四舍五入的位数 * @return 格式化后的小数 */ def formatDouble(num: Double, scale: Int)={ val decim…
博客
- 0
- 0
- 77
牛肉丸没牛肉19年8月18日
Spark- 计算每个学科最受欢迎的老师

日志类型测试数据 http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://java.myit.c…
博客
- 0
- 0
- 145
牛肉丸没牛肉19年8月18日
Spark- JdbcRDD以及注意事项

先上Demo package com.rz.spark.base import java.sql.DriverManager import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, SparkContext} object JdbcRDDDemo { def main(args: Array[St…
博客
- 0
- 0
- 76
牛肉丸没牛肉19年8月18日
Spark- 自定义排序

考察spark自定义排序方式一：自定义一个类继承Ordered和序列化，Driver端将数据变成RDD，整理数据转成自定义类类型的RDD，使用本身排序即可。 package com.rz.spark.base import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} // 自定…
博客
- 0
- 0
- 129
牛肉丸没牛肉19年8月18日