全部标签

大数据

最新随机最多浏览最多喜欢最多评论

分类：
开源软件大数据数据存储可视化

可视化数据库管理平台：DBeaver 7.0.3

DBeaver 是一个可视化通用的数据库管理工具和 SQL 客户端，支持 MySQL, PostgreSQL, Oracle, DB2, MSSQL, Sybase, Mimer, HSQLDB, Derby, 以及其他兼容 JDBC 的数据库。 DBeaver 提供一个图形界面用来查看数据库结构、执行 SQL 查询和脚本，浏览和导出数据，处理 BLOB/CLOB 数据，修改数据库结构等等。 …
企业应用
- 0
- 0
- 155
summer20年4月20日
Spark- Spark从SFTP中读取zip压缩文件数据做计算

我们遇到个特别的需求，一个数据接入的流程跑的太慢，需要升级为用大数据方式去处理，提高效率。数据：数据csv文件用Zip 压缩后放置在SFTP中数据来源： SFTP 数据操作：文件和它的压缩包一致，后缀不同。文件名中包含渠道、日期、操作标记("S"追加,"N"全量,"D"删除) 升级前的操作方式： she…
博客
- 0
- 0
- 127
牛肉丸没牛肉19年8月18日
ERROR- 开发常见error

一，数据插入MySql中出现中文乱码解决办法有： 1。新建数据库选择 create database 'GG' CHARACTER SET 'utf8 ' COLLATE 'utf8_general_ci '; 2。建表的时候： CREATE TABLE `TableA` (`ID` varchar(40) NOT NUL…
博客
- 0
- 0
- 70
牛肉丸没牛肉19年8月18日
spark- PySparkSQL之PySpark解析Json集合数据

PySparkSQL之PySpark解析Json集合数据数据样本 12341234123412342|asefr-3423|[{"name":"spark","score":"65"},{"name":"airlow","score":&quo…
博客
- 0
- 0
- 79
牛肉丸没牛肉19年8月18日
Spark- 常见问题

记录spark使用中常见问题 SparkSQL 日期解析时用到SimpleDateFormat， SimpleDateFormat是线程不安全的。可以使用 FastDateFormat 如： import org.apache.commons.lang3.time.FastDateFormat // 输入文件日期时间格式 // [10/Nov/2018:00:01:02 +0800]…
博客
- 0
- 0
- 84
牛肉丸没牛肉19年8月18日
Hadoop- HDFS的API操作

1、引入依赖 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.6.1</version> </dependency> 注：如需手动引入ja…
博客
- 0
- 0
- 144
牛肉丸没牛肉19年8月18日
Spark- 数据清洗

输入输出转化工具类 package com.rz.mobile_tag.log import org.apache.spark.sql.Row import org.apache.spark.sql.types.{LongType, StringType, StructField, StructType} /** * 访问日志转换（输入==>输出）工具类 */ object A…
博客
- 0
- 0
- 106
牛肉丸没牛肉19年8月18日
Spark- 求最受欢迎的TopN课程

数据库操作工具类 package com.rz.mobile_tag.utils import java.sql.{Connection, DriverManager, PreparedStatement} object MySQLUtils { /** * 获取数据库连接 * @return */ def getConnection()={ DriverManager.getCon…
博客
- 0
- 0
- 141
牛肉丸没牛肉19年8月18日
Spark- SparkSQL中 Row.getLong 出现NullPointerException错误的处理方法

在SparkSQL中获取Row的值，而且Row的字段允许null时，在取值的时候取到null赋值给新的变量名会报NullPointerException错误，可以先用row.isNullAt(index)去判断该字段的值是否为空首先上错误修改为先初始化变量，判断row.isNullAt(6) 如果不为空就将值赋值给变量
博客
- 0
- 0
- 114
牛肉丸没牛肉19年8月18日
Scala- Double类型工具类

格式化分数，按照指定小数位四舍五入工具类 package com.rz.util object NumberUtils { /** * 格式化小数 * @param num Double对象 * @param scale 四舍五入的位数 * @return 格式化后的小数 */ def formatDouble(num: Double, scale: Int)={ val decim…
博客
- 0
- 0
- 68
牛肉丸没牛肉19年8月18日
HIVE- SCD缓慢变化维

SCD缓慢变化维，比如一个用户维表，用户属性会变化，但是不会变化很剧烈，可能一年只会变化一两次，也不会所有用户的属性都会有变化，只有少量的数据发生变化，所以叫缓慢变化维。这种问题就是由于维度的变化所造成的。解决方式：是否保留历史数据保留多久历史数据历史状态如何与事实表关联 SCD1 保留最新状态注册日期用户编号手机号码 2019-01-01 0001 111111 20…
博客
- 0
- 0
- 71
牛肉丸没牛肉19年8月18日
Spark- JdbcRDD以及注意事项

先上Demo package com.rz.spark.base import java.sql.DriverManager import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, SparkContext} object JdbcRDDDemo { def main(args: Array[St…
博客
- 0
- 0
- 53
牛肉丸没牛肉19年8月18日
Spark- 自定义排序

考察spark自定义排序方式一：自定义一个类继承Ordered和序列化，Driver端将数据变成RDD，整理数据转成自定义类类型的RDD，使用本身排序即可。 package com.rz.spark.base import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} // 自定…
博客
- 0
- 0
- 98
牛肉丸没牛肉19年8月18日
Spark- 根据ip地址计算归属地

主要考察的是广播变量的使用： 1、将要广播的数据 IP 规则数据存放在HDFS上，（广播出去的内容一旦广播出去产就不能改变了，如果需要实时改变的规则，可以将规则放到Redis中） 2、在Spark中转成RDD，然后收集到Driver端， 3、把 IP 规则数据广播到Executor中。Driver端广播变量的引用是怎样跑到 Executor中的呢?　　Task在Driver端生成的，…
博客
- 0
- 0
- 151
牛肉丸没牛肉19年8月18日
Spark- 使用第三方依赖解析IP地址

使用 github上已有的开源项目 1)git clone https://github.com/wzhe06/ipdatabase.git 2)编译下载的项目: mvn clean package- DskipTests 3)安装jar包到自己的 maven仓库 mvn install: install-file -Dfile=${编译的jar包路径}/target/ipdatab…
博客
- 0
- 0
- 115
牛肉丸没牛肉19年8月18日
Spark- 使用hiveContext时提交作业报错

在spark上操作hive时不需要搭建hive环境，只需要从现有的hive集群中hive的conf目录下拷贝 hive-site.xml 到spark的conf目录下即可提交程序运行出现报错 Caused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke the "BONEC…
博客
- 0
- 0
- 60
牛肉丸没牛肉19年8月18日
Python- NumPy

NumPy包括的内容 NumPy系统是 Python的一种开源的数值计算扩展,是一个用 python实现的科学计算包。包括：一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组,称为 ndarray(N-dimensional array object ) 用于对整组数据进行快速运算的标准数学函数, func( universal function object) 用于整…
Python
- 0
- 0
- 183
牛肉丸没牛肉19年8月18日
数据仓库- 建模理念

数仓建模的目标访问性能：能够快速查询所需的数据，减少数据I/O 数据成本：减少不必要的数据冗余，实现计算结果数据复用，降低大数据系统中的存储成本和计算成本。使用效率：改善用户使用体验，提高使用数据的效率数据质量：改善数据统计口径的不一致性，减少数据计算错误的可性，提供高质量的、一致的数据访问平台大数据的数仓建模需要通过建模的方法更好的组织、存储数据、以便在性能、…
博客
- 0
- 0
- 66
牛肉丸没牛肉19年8月18日
SpringBoot- springboot集成Redis出现报错：No qualifying bean of type ‘org.springframework.data.redis.connection.RedisConnectionFactory’

Springboot将accessToke写入Redisk 缓存，springboot集成Redis出现报错 No qualifying bean of type 'org.springframework.data.redis.connection.RedisConnectionFactory' 原因：我们在pom.xml中引入了spring-boo…
博客
- 0
- 0
- 410
牛肉丸没牛肉19年8月18日
CDH- cdh kafka已经卸载了,但是服务器还有kafka-topics这些命令可用,导致重新安装kafka出现问题

CDH- cdh kafka已经卸载了,但是服务器还有kafka-topics这些命令可用,导致重新安装kafka出现问题 cdh界面删除并不会将 kafka数据删除，需要将kafka集群节点 var/local/kafka/data 清理掉然后将zk brokers/topics 下的topic也清理掉
博客
- 0
- 0
- 58
牛肉丸没牛肉19年8月18日
Springboot- pagehelper使用

1.添加pagehelper依赖 <dependency> <groupId>org.github.pagehelper</groupId> <artifactId>pagehelper-spring-boot-starter</artifactId> <version>1.3.2</version>…
博客
- 0
- 0
- 70
牛肉丸没牛肉19年8月18日
Hadoop- Namenode经常挂掉 IPC’s epoch 9 is less than the last promised epoch 10

如题出现Namenode经常挂掉 IPC's epoch 9 is less than the last promised epoch 10， 2019-01-03 05:36:14,774 INFO org.apache.hadoop.hdfs.StateChange: BLOCK* allocate blk_1073741949_1131{UCState=…
博客
- 0
- 0
- 212
牛肉丸没牛肉19年8月18日
Hbase- Hbase客户端读写数据时的路由流程

1、客户端先到zookeeper查找hbase:meta所在的RegionServer服务器 2、去hbase:meta表查找自己所要的数据所在的region server 3、去目标region server上的region要自己的数据可以看出客户端查找数据可以不经过master
博客
- 0
- 0
- 59
牛肉丸没牛肉19年8月18日
Spark- 共享变量

Shared Variables Normally, when a function passed to a Spark operation (such as map or reduce) is executed on a remote cluster node, it works on separate copies of all the variables used in the…
博客
- 0
- 0
- 98
牛肉丸没牛肉19年8月18日
Spark- RDD持久化

官方原文： RDD Persistence One of the most important capabilities in Spark is persisting (or caching) a dataset in memory across operations. When you persist an RDD, each node stores any partitions …
博客
- 0
- 0
- 99
牛肉丸没牛肉19年8月18日
Spark- Action实战

Spark- Action实战 package cn.rzlee.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object ActionOperation { def main(args: Array[String]): Unit…
博客
- 0
- 0
- 74
牛肉丸没牛肉19年8月18日
Spark- Transformation实战

RDD的算子分为两类,是 Trans formation(Lazy),一类是 Action(触发任务执行 RDD不存在真正要计算的数据,而是记录了RDD的转换关系(调用了什么方法,传入什么函数) RDD的 Trans formation的特点 1. lazy 2.生成新的RDD package cn.rzlee.spark.core import org.…
博客
- 0
- 0
- 83
牛肉丸没牛肉19年8月18日
Spark-Spark setMaster & WordCount Demo

Spark setMaster源码 /** * The master URL to connect to, such as "local" to run locally with one thread, "local[4]" to * run locally with 4 cores, or "spark://master:7077&…
博客
- 0
- 0
- 143
牛肉丸没牛肉19年8月18日
Oozie-

oozie是一个工作流调度系统，用于管理Apache Hadoop作业。 oozie工作流作业是操作的有向无环图( DAGs )。 Oozie协调器作业是由时间(频率)和数据可用性触发的重复Oozie工作流作业。 oozie与Hadoop堆栈的其余部分集成，支持几种现成的Hadoop作业(如Java map - reduce、流map - reduce、Pig、Hive、Sqoop和…
博客
- 0
- 0
- 81
牛肉丸没牛肉19年8月18日
Storm- 使用Storm实现词频汇总

需求：读取指定目录的数据，并实现单词计数的功能实现方案： Spout来读取指定目录的数据，作为后续Bolt处理的input 使用一个Bolt把input 的数据，切割分开，我们按照逗号进分割使用一个Bolt来进行最终的单词次数统计操作并输出拓扑设计：DataSourceSpout ==>SpiltBolt ==>CountBolt Storm编程注意，…
博客
- 0
- 0
- 85
牛肉丸没牛肉19年8月18日
Storm- 使用Storm实现累积求和的操作

需求：1+2+3+... = ？？？实现方案： Spout发出数字作为input 使用Bolt来处理业务逻辑：求和将结果输出到控制台拓扑设计：DataSourceSpout -->SumBolt→输出 package com.imooc.bigdata; import org.apache.storm.Config; import org.apache.st…
博客
- 0
- 0
- 85
牛肉丸没牛肉19年8月18日
CDH- 测试mr

cdh的mr样例算法的jar包在 [zc.lee@ip-172-32-1-221 hadoop-0.20-mapreduce]$ pwd /opt/cloudera/parcels/CDH-5.10.0-1.cdh5.10.0.p0.41/lib/hadoop-0.20-mapreduce 查看该目录下的文件 [zc.lee@ip-172-32-1-221 hadoop-0.20-m…
博客
- 0
- 0
- 134
牛肉丸没牛肉19年8月18日
CDH- CDH大数据集群运维

CDH前端CM监控不正常（未解决） Request to the Service Monitor failed. This may cause slow page responses. View the status of the Service Monitor. Request to the Host Monitor failed. This may cause sl…
博客
- 0
- 0
- 235
牛肉丸没牛肉19年8月18日
CDH- 集群时间同步ntp问题解决

在CDH集群中发现有两台机器获取不到心跳（），导致监控不了机器状态，出现告警可以使用ntpstat检查与ntp 服务器的时间偏差状态使用 ntpstat 发现没有同步到ntp时间服务器，运行 ntpdate ip 添加时间同步服务器出现报错 the NTP socket is in use, exiting 网上搜了一下，大部分的建议是…
博客
- 0
- 0
- 69
牛肉丸没牛肉19年8月18日
Kafka- Spark消费Kafka

在高版本的API中 val brokers = properties.getProperty("kafka.host.list") val topics = Set(properties.getProperty("kafka.application.topic")) val kafkaParams = Map[String, String]( …
博客
- 0
- 0
- 91
牛肉丸没牛肉19年8月18日
Docker-

Docker是容器技术的一个代表。容器技术从本质上讲是将程序隔离打包这么个技术。Docker解决了软件包装问题，很好的理顺了开发和运维环境的差异，使得开发和运维可以全用同种语言进行沟通。它是一个云计算的技术。 Docker是通过内核虚拟化技术（namespace及cgroups等）来提供容器的资源隔离与安全保障。由于Docker通过操作系统层的虚拟化实现隔离，所以Docker容器在运…
博客
- 0
- 0
- 62
牛肉丸没牛肉19年8月18日