全部标签

大数据

最新随机最多浏览最多喜欢最多评论

分类：
开源软件大数据数据存储可视化

Spark- Spark从SFTP中读取zip压缩文件数据做计算

我们遇到个特别的需求，一个数据接入的流程跑的太慢，需要升级为用大数据方式去处理，提高效率。数据：数据csv文件用Zip 压缩后放置在SFTP中数据来源： SFTP 数据操作：文件和它的压缩包一致，后缀不同。文件名中包含渠道、日期、操作标记("S"追加,"N"全量,"D"删除) 升级前的操作方式： she…
博客
- 0
- 0
- 123
牛肉丸没牛肉19年8月18日
Architect v2.0.6_HTML网站在线生成器

资源简介：Architect是功能强大且易于使用的HTML静态网站在线生成器，它除了具有HTML静态网站在线生成的功能，同时还提供独特的功能，如主题和模板的选择，干净整洁的代码，最佳的可视化CSS和图像编辑器以及更多更多的功能。Architect 网站在线生成器功能特性易于安装、订阅/账单、外观编辑、文本编辑器、高级拖放功能、完整的文档、上下文菜单、可翻译、多种元素、在线CSS编辑器、发布或导出…
可视化
- 0
- 0
- 152
typhoon19年8月6日
Sqooop- 使用Sqoop进行数据的导入导出

Sqoop是Apache旗下的一个开源框架，专门用来做数据的导入和导出。官网:https://sqoop.apache.org/ Sqoop的安装非常简单，只需要把下载下来的tar包解压设置两个环境变量就可以了 1.安装部署下载版本：sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 官网：http://mirror.bit.edu.cn/apa…
博客
- 0
- 0
- 158
牛肉丸没牛肉19年8月17日
Hadoop- 分布式资源管理YARN架构讲解

YARN是分布式资源管理，每一台机器都要去管理该台计算机的资源，Yarn负责为MapReduce程序分配运算硬件资源。每一台机器的管理者叫 NodeManager，整个集群的管理者管理着整个集群的NodeManager，叫 ResourceManager。资源调度和资源隔离是YARN作为一个资源管理系统最重要和最基础的两个功能。资源调度由 ResourceManager 完成，而资源…
博客
- 0
- 0
- 92
牛肉丸没牛肉19年8月18日
$Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.$
Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

报错 G:\APP\JDK\bin\java -Didea.launcher.port=7532 "-Didea.launcher.bin.path=G:\APP\IntelliJ IDEA\bin" -Dfile.encoding=UTF-8 -classpath "G:\APP\JDK\jre\lib\charsets.jar;G:\APP\JDK\…
博客
- 0
- 0
- 158
牛肉丸没牛肉19年8月17日
SpringBoot- springboot集成Redis出现报错：No qualifying bean of type ‘org.springframework.data.redis.connection.RedisConnectionFactory’

Springboot将accessToke写入Redisk 缓存，springboot集成Redis出现报错 No qualifying bean of type 'org.springframework.data.redis.connection.RedisConnectionFactory' 原因：我们在pom.xml中引入了spring-boo…
博客
- 0
- 0
- 406
牛肉丸没牛肉19年8月18日
Spark- 求最受欢迎的TopN课程

数据库操作工具类 package com.rz.mobile_tag.utils import java.sql.{Connection, DriverManager, PreparedStatement} object MySQLUtils { /** * 获取数据库连接 * @return */ def getConnection()={ DriverManager.getCon…
博客
- 0
- 0
- 133
牛肉丸没牛肉19年8月18日
Python- NumPy

NumPy包括的内容 NumPy系统是 Python的一种开源的数值计算扩展,是一个用 python实现的科学计算包。包括：一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组,称为 ndarray(N-dimensional array object ) 用于对整组数据进行快速运算的标准数学函数, func( universal function object) 用于整…
Python
- 0
- 0
- 181
牛肉丸没牛肉19年8月18日
HIVE- 大数据运维之hive管理

我现在在一家公司负责大数据平台（CDH平台）的运维管理，最常遇见的问题我总结出来，并且继续在下面更新。希望方便自己以后trouble shooting以及方便各位同行解决问题与学习。关于做运维有几个重要的要点一定一定要遵守的：遇到问题冷静，冷静，冷静，就山崩都要冷静，心态关乎你是否能将问题解决同时不会给人留下不好的印象。凡是关于对集群更改与变动的操作，一定要在测试环境测试到没问…
博客
- 0
- 0
- 102
牛肉丸没牛肉19年8月18日
Spark- 数据清洗

输入输出转化工具类 package com.rz.mobile_tag.log import org.apache.spark.sql.Row import org.apache.spark.sql.types.{LongType, StringType, StructField, StructType} /** * 访问日志转换（输入==>输出）工具类 */ object A…
博客
- 0
- 0
- 103
牛肉丸没牛肉19年8月18日
Hadoop- DistCp(分布式拷贝)

在实际的生产环境中，我们的企业都有测试集群和生产集群，有的比较大型的企业有多个版本的Hadoop 大数据集群，这时候有个这样的需求，各个集群上的资源需要进行迁移，比如说一些生产集群需要一些测试集群的数据，需要将测试集群的上的数据拷贝到生产集群，这时候就需要使用到分布式拷贝（Distributed Copy）. 比较常见的有不同集群之间的数据迁移 hadoop distcp <s…
博客
- 0
- 0
- 99
牛肉丸没牛肉19年8月18日
激活idea2018

首先下载安装完成后，打开hosts文件，新增一条路由： 0.0.0.0 account.jetbrains.com 打开软件输入序列码： EB101IWSWD-eyJsaWNlbnNlSWQiOiJFQjEwMUlXU1dEIiwibGljZW5zZWVOYW1lIjoibGFuIHl1IiwiYXNzaWduZWVOYW1lIjoiIiwiYXNzaWduZWVFbWFpbCI6I…
博客
- 0
- 0
- 104
牛肉丸没牛肉19年8月18日
Hadoop- Wordcount程序原理及代码实现

如果对Hadoop- MapReduce分布式计算框架原理还不熟悉的可以先了解一下它，因为本文的wordcount程序实现就是MapReduce分而治之最经典的一个范例。单词计数（wordcount）主要步骤： 1.读数据 2.按行处理 3.按空格切分行内单词 4.HashMap（单词，value+1）等分给自己的数据片全部读取完之后 5.将HashMap按照首字母范围分为3个H…
博客
- 0
- 0
- 90
牛肉丸没牛肉19年8月17日
Hadoop- 集群启动详解

NameNode启动过程详解第一次启动：HDFS格式化后，生成fsimage文件 hdf
博客
- 0
- 0
- 49
牛肉丸没牛肉19年8月18日
Hive- 大数据仓库Hive

什么是 Hive？ Hive 是由 FaceBook 开源用于解决少量数据结构化日志的数据统计。Hive是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能。Hive 处理的数据存储在 HDFS 上，分析数据的底层实现是 MapReduce ，执行程序运行的是YARN。构建在Hadoop之上的数据仓库：使用 HQL 作为查询接口使…
博客
- 0
- 0
- 61
牛肉丸没牛肉19年8月18日
DataWarehouse- 从面试定位自己的水平

1.讲一下什么是维度表和事实表。用户资料表算是什么类型表。 2. 维度建模属于第几范式，让你对维度建模改进，有什么思路吗。 3. 了解数据血缘分析吗，让你实现的话有什么技术方案，感觉难点在哪。 4. 了解数据分层吗，讲一下分四层或者五层各有什么优劣。自己摸你一个场景，给出不同的方案。 5. 数据口径不一致的问题一般在什么情况下会发生，怎么避免。
博客
- 0
- 0
- 60
牛肉丸没牛肉19年8月18日
可视化开发laravel应用 Redprint Laravel App Builder CRUD Generator Plus v1.6.32 有安装指导

资源简介：Redprint App Builder is your app development flow on steroid! It’s your perfect Laravel CRUD Booster and App Builder. It has everything from it’s own Terminal Emulator, A Very powerful File Brows…
可视化
- 0
- 0
- 135
typhoon19年8月12日
Spark- 自定义排序

考察spark自定义排序方式一：自定义一个类继承Ordered和序列化，Driver端将数据变成RDD，整理数据转成自定义类类型的RDD，使用本身排序即可。 package com.rz.spark.base import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} // 自定…
博客
- 0
- 0
- 96
牛肉丸没牛肉19年8月18日
Spark- SparkStreaming可更新状态的实例

Producer package zx.zx.sparkkafka import java.util.Properties import kafka.producer.{KeyedMessage, Producer, ProducerConfig} import scala.util.Random /** * Created by 166 on 2017/9/6. */ object…
博客
- 0
- 0
- 106
牛肉丸没牛肉19年8月18日
Spark- 性能优化

由于Spark 的计算本质是基于内存的，所以Spark的性能城西的性能可能因为集群中的任何因素出现瓶颈：CPU、网络带宽、或者是内存。如果内存能够容得下所有的数据，那么网络传输和通信就会导致性能出现频惊。但是如果内存比较紧张，不足以放下所有的数据（比如在针对10亿以上的数据量进行计算时），还是需要对内存的使用进行性能优化的，比如说使用一些手段来减少内存的消耗。 Spark性能优化，其…
博客
- 0
- 0
- 80
牛肉丸没牛肉19年8月18日
数据仓库- 建模理念

数仓建模的目标访问性能：能够快速查询所需的数据，减少数据I/O 数据成本：减少不必要的数据冗余，实现计算结果数据复用，降低大数据系统中的存储成本和计算成本。使用效率：改善用户使用体验，提高使用数据的效率数据质量：改善数据统计口径的不一致性，减少数据计算错误的可性，提供高质量的、一致的数据访问平台大数据的数仓建模需要通过建模的方法更好的组织、存储数据、以便在性能、…
博客
- 0
- 0
- 65
牛肉丸没牛肉19年8月18日
Scala- Double类型工具类

格式化分数，按照指定小数位四舍五入工具类 package com.rz.util object NumberUtils { /** * 格式化小数 * @param num Double对象 * @param scale 四舍五入的位数 * @return 格式化后的小数 */ def formatDouble(num: Double, scale: Int)={ val decim…
博客
- 0
- 0
- 65
牛肉丸没牛肉19年8月18日
Spark-Spark setMaster & WordCount Demo

Spark setMaster源码 /** * The master URL to connect to, such as "local" to run locally with one thread, "local[4]" to * run locally with 4 cores, or "spark://master:7077&…
博客
- 0
- 0
- 136
牛肉丸没牛肉19年8月18日
Hadoop- Hadoop运维小计

如果是新添加一个节点，需要执行以下步骤：首先，把新节点的 IP或主机名加入主节点（master）的 conf/slaves 文件。然后登录新的从节点，执行以下命令： $ cd Hadoop_path $ bin/hadoop-daemon.sh start datanode $ bin/hadoop-daemon.sh start tasktracker 然后就可…
博客
- 0
- 0
- 60
牛肉丸没牛肉19年8月18日
Openldap- 大集群身份验证服务

无论在哪个行业，数据安全永远都是摆在首要地位。尤其是在大数据行业上，谁掌握了数据，谁就有可能成为下个亿万富豪的环境中，数据安全更为重要。大数据的安全可以从哪些地方入手，首先可以在身份验证上面入手。在大数据的集群设备上做好身份验证，可以使用openldap来做。唯有通过openldap管理的账号才能对大数据系统进行访问，没有通过openldap创建的账号是不能login到Hadoop…
博客
- 0
- 0
- 74
牛肉丸没牛肉19年8月18日
Hadoop- 集群时间同步

集群的时间要同步 * 找一台机器时间服务器 * 所有的机器与这台机器时间进行定时的同步比如，每日十分钟，同步一次时间 # rpm -qa|grep ntp # vi /etc/ntp.conf # vi /etc/sysconfig/ntpd # Drop root to id 'ntp:ntp' by default. SYNC_HWCLOCK=yes OP…
博客
- 0
- 0
- 63
牛肉丸没牛肉19年8月18日
Spark- Spark基本工作原理

Spark特点： 1.分布式 spark读取数据时是把数据分布式存储到各个节点内存中 2.主要基于内存（少数情况基于磁盘，如shuffle阶段）所有计算操作，都是针对多个节点上内存的数据，进行并行操作的 3.迭代式计算对分布式节点内存中的数据进行处理，处理后的数据可能会移动到其他节点的内存中，当需要用到某些数据时，从这些节点的内存中就能找到，迭代出来使用 Spark与MapRed…
博客
- 0
- 0
- 93
牛肉丸没牛肉19年8月18日
PostgreSql

PostgreSql
博客
- 0
- 0
- 101
牛肉丸没牛肉19年8月18日
HIVE- 新建UDF范例

首先pom文件导入依赖，Hadoop和hive的依赖导入自己机器的版本，hive记得导jdbc <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.6.1</v…
博客
- 0
- 0
- 71
牛肉丸没牛肉19年8月18日
PyMiner-py2cn 数据分析工具：开源界的MATLAB

PyMiner 是一款数据处理、分析、建模、评估软件，目的是使 pandas\sklearn 的操作进行可视化。项目开发环境基于Window 10 X64，使用 Python3.8+PyQt5.15+Pycharm 进行技术开发。同时，此项目支持跨平台，这意味着即使是Linux、Mac也可以使用或开发此软件。安装下载项目源码安装python并打开命令行工具，使用 pip install -r…
大数据
- 0
- 0
- 72
summer20年9月17日
Apache Kudu 1.10.0 发布，Hadoop 生态数据存储系统

Apache Kudu 1.10.0 发布了，Kudu 是一个支持结构化数据的开源存储引擎，具有低延迟随机读取与高效分析读取模式。它基于 Apache Hadoop 生态系设计，并支持与 Apache 软件基金会其它数据分析项目集成。此版本带来的新特性包括： Kudu 现在通过使用 Apache Spark 实现的作业支持完整和增量表备份。此外，它还支持通过使用 Apache Spark 实现的…
博客
- 0
- 0
- 127
summer19年7月12日
Hbase- Hbase客户端读写数据时的路由流程

1、客户端先到zookeeper查找hbase:meta所在的RegionServer服务器 2、去hbase:meta表查找自己所要的数据所在的region server 3、去目标region server上的region要自己的数据可以看出客户端查找数据可以不经过master
博客
- 0
- 0
- 57
牛肉丸没牛肉19年8月18日
大数据之路- Hadoop环境搭建（Linux）

前期部署 1.JDK 2.上传HADOOP安装包 2.1官网：http://hadoop.apache.org/ 2.2下载hadoop-2.6.1的这个tar.gz文件，官网： https://archive.apache.org/dist/hadoop/common/hadoop-2.6.1/ 下载成功后，把这个tar.gz包上传到服务器上，命令：通…
博客
- 0
- 0
- 73
牛肉丸没牛肉19年8月17日
Kafka- Spark消费Kafka

在高版本的API中 val brokers = properties.getProperty("kafka.host.list") val topics = Set(properties.getProperty("kafka.application.topic")) val kafkaParams = Map[String, String]( …
博客
- 0
- 0
- 84
牛肉丸没牛肉19年8月18日
ERROR- 开发常见error

一，数据插入MySql中出现中文乱码解决办法有： 1。新建数据库选择 create database 'GG' CHARACTER SET 'utf8 ' COLLATE 'utf8_general_ci '; 2。建表的时候： CREATE TABLE `TableA` (`ID` varchar(40) NOT NUL…
博客
- 0
- 0
- 69
牛肉丸没牛肉19年8月18日
Spark- Spark普通Shuffle操作的原理剖析

在spark中，什么情况下会发生shuffle？ reduceByKey，groupByKey，sortByKey，countByKey，join，cogroup等操作。默认的shuffle操作的原理剖析假设有一个节点上面运行了4个 ShuffleMapTask，然后这个节点上只有2个 cpu core。假如有另外一台节点，上面也运行了4个ResultTask，现在呢，正等着要去…
博客
- 0
- 0
- 55
牛肉丸没牛肉19年8月18日