全部标签

大数据

最新随机最多浏览最多喜欢最多评论

分类：
开源软件大数据数据存储可视化

大数据- 自定义Log4j日记

1.新建一个java project，在src下新建一个lib文件夹和 rescources 文件夹，resources文件夹不能命名错误。点击File——》project Structure...打开根据下图操作把相关jar包放进lib文件夹里并绑定。新建一个java文件 Log4jTest.java 和 HadoopLog4j.java 1 2 3 4 5 6…
博客
- 0
- 0
- 61
牛肉丸没牛肉19年8月17日
Hadoop- Hadoop环境搭建

Windows下Hadoop的安装准备工具：64位的JDK,Hadoop安装包（我使用的是2.6.1） JDK下载地址官网： http://www.oracle.com/technetwork/java/javase/downloads/index.html Hadoop下载地址官网：http://hadoop.apache.org/ 1.安装JDK环境，配置系统环境变量. 选…
博客
- 0
- 0
- 94
牛肉丸没牛肉19年8月17日
Apache Kudu 1.10.0 发布，Hadoop 生态数据存储系统

Apache Kudu 1.10.0 发布了，Kudu 是一个支持结构化数据的开源存储引擎，具有低延迟随机读取与高效分析读取模式。它基于 Apache Hadoop 生态系设计，并支持与 Apache 软件基金会其它数据分析项目集成。此版本带来的新特性包括： Kudu 现在通过使用 Apache Spark 实现的作业支持完整和增量表备份。此外，它还支持通过使用 Apache Spark 实现的…
博客
- 0
- 0
- 162
summer19年7月12日
HIVE- 数据倾斜

数据倾斜就是由于数据分布不均匀，数据大量集中到一点上，造成数据热点。大多数情况下，分为一下三种情况： 1.map端执行比较快，reduce执行很慢，因为partition造成的数据倾斜。 2.某些reduce很快，某些reduce很慢，也是因为partition造成的数据倾斜。 3.某些map执行很快，某些map执行很慢，这是因为数据本身的分布的不合理性造成的。造成上面reduce…
博客
- 0
- 0
- 85
牛肉丸没牛肉19年8月18日
Hadoop- 集群启动详解

NameNode启动过程详解第一次启动：HDFS格式化后，生成fsimage文件 hdf
博客
- 0
- 0
- 78
牛肉丸没牛肉19年8月18日
Hadoop- Hadoop运维小计

如果是新添加一个节点，需要执行以下步骤：首先，把新节点的 IP或主机名加入主节点（master）的 conf/slaves 文件。然后登录新的从节点，执行以下命令： $ cd Hadoop_path $ bin/hadoop-daemon.sh start datanode $ bin/hadoop-daemon.sh start tasktracker 然后就可…
博客
- 0
- 0
- 93
牛肉丸没牛肉19年8月18日
Spark- 流量日志分析

日志生成 package zx.Utils import java.io.{File, FileWriter} import java.util.Calendar import org.apache.commons.lang.time.{DateUtils, FastDateFormat} import scala.collection.mutable.ArrayBuffer imp…
博客
- 0
- 0
- 110
牛肉丸没牛肉19年8月18日
Spark- 计算每个学科最受欢迎的老师

日志类型测试数据 http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://java.myit.c…
博客
- 0
- 0
- 145
牛肉丸没牛肉19年8月18日
Spark- SparkStreaming可更新状态的实例

Producer package zx.zx.sparkkafka import java.util.Properties import kafka.producer.{KeyedMessage, Producer, ProducerConfig} import scala.util.Random /** * Created by 166 on 2017/9/6. */ object…
博客
- 0
- 0
- 131
牛肉丸没牛肉19年8月18日
Spark- RDD简介

Spark里面提供了一个比较重要的抽象——弹性分布式数据集（resilient distributed dataset），简称RDD。弹性：数据可大可小，可分布在内存或磁盘，当某台机器宕机时，能够按照RDD的liveage重新计算，从而恢复。 RDD有5个特性： 1.一个分区列表，用于并行计算，每个分区对应一个原子数据集，作为这个分区的数据输入 2.计算这个RDD某个分区数据（这个分…
博客
- 0
- 0
- 106
牛肉丸没牛肉19年8月18日
Kafka- Kafka架构功能

Kafka是一个高吞吐量的分布式消息系统，一个分布式的发布-订阅消息系统。Kafka是一种快速，可拓展的，设计内在就是分布式的，分区的可复制的提交日志服务。 Apache Kafka与传统消息系统相比，有以下不同：它设计为一个分布式系统，易于向外拓展；它同时为发布和订阅提供高吞吐量；它支持多订阅者，当失败时能自动平衡消费者；它将消息持久化到磁盘，因此可用于批量消费，例如ETL…
博客
- 0
- 0
- 69
牛肉丸没牛肉19年8月18日
Storm- Storm作业提交运行流程

用户编写Storm Topology 使用client提交Topology给Nimbus Nimbus指派Task给Supervisor Supervisor为Task启动Worker Worker执行Task
博客
- 0
- 0
- 98
牛肉丸没牛肉19年8月18日
Python- and & or 的短路原则

条件1 and 条件2 条件1 or 条件2 短路原则对于and 如果前面的第一个条件为假，那么这个and前后两个条件组成的表达式的计算结果就一定为假，第二个条件就不会被计算对于or 如果前面的第一个条件为真，那么这个or前后两个条件组成的表达式的计算结果就一定为真，第二个条件就不会被计算
Python
- 0
- 0
- 113
牛肉丸没牛肉19年8月18日
Hive- Hive 按时间定期插入分区表

写个shell脚本Hive 按时间定期插入分区表,由于今天统计的是昨天的数据所以日期减一。 #！/bin/bash DT=`date -d '-1 day' "+%Y-%m-%d"` #如果某天的数据有误需要重跑 if [ $1 ];then DT=$1 fi SQL=" insert overwrite table t…
博客
- 0
- 0
- 85
牛肉丸没牛肉19年8月18日
Hadoop- MR的shuffle过程

step1 input InputFormat读取数据，将数据转换成<key ,value>对,设置FileInputFormat，默认是文本格式（TextInputFormat） step2 map map<KEYIN, VALUEIN, KEYOUT, VALUEOUT> 默认情况下KEYIN:LongWritable,偏移量。VALUEIN:Text，K…
博客
- 0
- 0
- 87
牛肉丸没牛肉19年8月18日
华为发布 Volcano 开源项目，方便 AI、大数据、基因、渲染等诸多行业通用计算框架接入

Volcano 是基于 Kubernetes 的批处理系统，源自于华为云 AI 容器。Volcano 方便 AI、大数据、基因、渲染等诸多行业通用计算框架接入，提供高性能任务调度引擎，高性能异构芯片管理，高性能任务运行管理等能力。授权协议: Apache 开发语言: Google Go 操作系统: Linux 开发厂商: 华为整体架构 Volcano 提供一整套目前 K8S 在批量和弹性工作负…
博客
- 0
- 0
- 286
hunterho19年7月3日
JAVA- 数据库连接池原理

第一次Java程序要在MySQL中执行一条语句，那么就必须建立一个Connection对象，代表了与MySQL数据库的连接通过直接发送你要执行的SQL语句之后，就会调用Connection.close()来关闭和销毁与数据库的连接。为什么要立即关闭呢？因为数据库的连接是一种很重的资源，代表了网络连接、IO等资源。所以如果不是用的话就需要尽早关闭，以避免资源浪费。 JDBC的劣势与不足…
Java
- 0
- 0
- 110
牛肉丸没牛肉19年8月18日
Hive- 表

在hive中表的类型：管理表和托管表（外部表）。内部表也称之为MANAGER_TABLE,默认存储在/user/hive/warehouse下，也可以通过location指定；删除表时，会删除表的数据以及元数据；外部表称之为EXTERNAL_TABLE。在创建表时可以自己指定目录位置（LOCATION），数据存储所在的目录；删除表时，只会删除元数据不会删除表数据；创建外部表实例…
博客
- 0
- 0
- 146
牛肉丸没牛肉19年8月18日
Spark- 性能优化

由于Spark 的计算本质是基于内存的，所以Spark的性能城西的性能可能因为集群中的任何因素出现瓶颈：CPU、网络带宽、或者是内存。如果内存能够容得下所有的数据，那么网络传输和通信就会导致性能出现频惊。但是如果内存比较紧张，不足以放下所有的数据（比如在针对10亿以上的数据量进行计算时），还是需要对内存的使用进行性能优化的，比如说使用一些手段来减少内存的消耗。 Spark性能优化，其…
博客
- 0
- 0
- 115
牛肉丸没牛肉19年8月18日
Spark- Checkpoint原理剖析

Checkpoint，是Spark 提供的一个比较高级的功能。有的时候，比如说，我们的 Spark 应用程序，特别的复杂，然后从初始的RDD开始，到最后拯个应用程序完成，有非常多的步骤，比如超过20个transformation 操作。而且整个应用运行的时间也特别的长，比如通常要运行1-5小时。在上述的情况下，就比较适合使用checkpoint 功能。因为，对于特别复杂的 Spar…
博客
- 0
- 0
- 110
牛肉丸没牛肉19年8月18日
Spark- 优化后的 shuffle 操作原理剖析

在spark新版本中，引入了 consolidation 机制，也就是说提出了ShuffleGroup的概念。一个 ShuffleMapTask 将数据写入 ResultTask 数量的本地文本，这个不会变。但是，当下一个 ShuffleMapTask 运行的时候，可以直接将数据写入之前的 ShuffleMapTask 的本地文件。相当于是，对多个 ShuffleMapTask 输出…
博客
- 0
- 0
- 78
牛肉丸没牛肉19年8月18日
Spark- Spark普通Shuffle操作的原理剖析

在spark中，什么情况下会发生shuffle？ reduceByKey，groupByKey，sortByKey，countByKey，join，cogroup等操作。默认的shuffle操作的原理剖析假设有一个节点上面运行了4个 ShuffleMapTask，然后这个节点上只有2个 cpu core。假如有另外一台节点，上面也运行了4个ResultTask，现在呢，正等着要去…
博客
- 0
- 0
- 79
牛肉丸没牛肉19年8月18日
Spark- Spark内核架构原理和Spark架构深度剖析

Spark内核架构原理 1.Driver 选spark节点之一，提交我们编写的spark程序，开启一个Driver进程，执行我们的Application应用程序，也就是我们自己编写的代码。Driver会根据我们对RDD定义的操作，提交一大堆的task去Executor上。Driver注册了一些Executor之后，就可以开始正式执行我们的Spark应用程序了，首先第一步，创建初始RD…
博客
- 0
- 0
- 96
牛肉丸没牛肉19年8月18日
Spark- Spark基本工作原理

Spark特点： 1.分布式 spark读取数据时是把数据分布式存储到各个节点内存中 2.主要基于内存（少数情况基于磁盘，如shuffle阶段）所有计算操作，都是针对多个节点上内存的数据，进行并行操作的 3.迭代式计算对分布式节点内存中的数据进行处理，处理后的数据可能会移动到其他节点的内存中，当需要用到某些数据时，从这些节点的内存中就能找到，迭代出来使用 Spark与MapRed…
博客
- 0
- 0
- 120
牛肉丸没牛肉19年8月18日
Hive- Hive 的基本操作

创建数据库 create database db_hive; use db_hive; create database if not exists db_hive_02; create database if not exists db_hive_01 location '/user/rz_lee/warehouse/db_hive_01.db'; //指定数据库…
博客
- 0
- 0
- 135
牛肉丸没牛肉19年8月18日
Hive- 大数据仓库Hive

什么是 Hive？ Hive 是由 FaceBook 开源用于解决少量数据结构化日志的数据统计。Hive是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能。Hive 处理的数据存储在 HDFS 上，分析数据的底层实现是 MapReduce ，执行程序运行的是YARN。构建在Hadoop之上的数据仓库：使用 HQL 作为查询接口使…
博客
- 0
- 0
- 85
牛肉丸没牛肉19年8月18日
Hadoop- DistCp(分布式拷贝)

在实际的生产环境中，我们的企业都有测试集群和生产集群，有的比较大型的企业有多个版本的Hadoop 大数据集群，这时候有个这样的需求，各个集群上的资源需要进行迁移，比如说一些生产集群需要一些测试集群的数据，需要将测试集群的上的数据拷贝到生产集群，这时候就需要使用到分布式拷贝（Distributed Copy）. 比较常见的有不同集群之间的数据迁移 hadoop distcp <s…
博客
- 0
- 0
- 120
牛肉丸没牛肉19年8月18日