全部标签

大数据

最新随机最多浏览最多喜欢最多评论

分类：
开源软件大数据数据存储可视化

Hadoop- HDFS的Safemode

Hadoop- HDFS的Safemode hadoop启动时，NameNode启动完后就开始进入安全模式，等待DataNode向NameNode发送block report ，当datanode blocks / total blocks = 99.99%，此时安全模式才会退出安全模式下的操作：可以查看文件系统的文件在安全模式期间我们有些操作是不能进行的，比如不能改变文件系统…
博客
- 0
- 0
- 101
牛肉丸没牛肉19年8月18日
Hadoop- DistCp(分布式拷贝)

在实际的生产环境中，我们的企业都有测试集群和生产集群，有的比较大型的企业有多个版本的Hadoop 大数据集群，这时候有个这样的需求，各个集群上的资源需要进行迁移，比如说一些生产集群需要一些测试集群的数据，需要将测试集群的上的数据拷贝到生产集群，这时候就需要使用到分布式拷贝（Distributed Copy）. 比较常见的有不同集群之间的数据迁移 hadoop distcp <s…
博客
- 0
- 0
- 99
牛肉丸没牛肉19年8月18日
Zeppelin- Linux下安装Zeppelin

前期部署: 下载,解压,配置PATH环境(编辑/etc/profile文件,记得source一下该文件) zepplin配置参考文档:https://zeppelin.apache.org/docs/0.7.2/install/configuration.html 往conf/zeppelin-env.sh文件中添加端口号往底部添加 export ZEPPLELIN_PORT=8090 修改配置…
博客
- 0
- 0
- 98
牛肉丸没牛肉19年8月18日
Hive- Hive 的基本操作

创建数据库 create database db_hive; use db_hive; create database if not exists db_hive_02; create database if not exists db_hive_01 location '/user/rz_lee/warehouse/db_hive_01.db'; //指定数据库…
博客
- 0
- 0
- 96
牛肉丸没牛肉19年8月18日
Spark- 自定义排序

考察spark自定义排序方式一：自定义一个类继承Ordered和序列化，Driver端将数据变成RDD，整理数据转成自定义类类型的RDD，使用本身排序即可。 package com.rz.spark.base import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} // 自定…
博客
- 0
- 0
- 96
牛肉丸没牛肉19年8月18日
Spark- 计算每个学科最受欢迎的老师

日志类型测试数据 http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://java.myit.c…
博客
- 0
- 0
- 95
牛肉丸没牛肉19年8月18日
Spark- 共享变量

Shared Variables Normally, when a function passed to a Spark operation (such as map or reduce) is executed on a remote cluster node, it works on separate copies of all the variables used in the…
博客
- 0
- 0
- 95
牛肉丸没牛肉19年8月18日
Spark- Spark基本工作原理

Spark特点： 1.分布式 spark读取数据时是把数据分布式存储到各个节点内存中 2.主要基于内存（少数情况基于磁盘，如shuffle阶段）所有计算操作，都是针对多个节点上内存的数据，进行并行操作的 3.迭代式计算对分布式节点内存中的数据进行处理，处理后的数据可能会移动到其他节点的内存中，当需要用到某些数据时，从这些节点的内存中就能找到，迭代出来使用 Spark与MapRed…
博客
- 0
- 0
- 93
牛肉丸没牛肉19年8月18日
Spark- RDD持久化

官方原文： RDD Persistence One of the most important capabilities in Spark is persisting (or caching) a dataset in memory across operations. When you persist an RDD, each node stores any partitions …
博客
- 0
- 0
- 93
牛肉丸没牛肉19年8月18日
Python- and & or 的短路原则

条件1 and 条件2 条件1 or 条件2 短路原则对于and 如果前面的第一个条件为假，那么这个and前后两个条件组成的表达式的计算结果就一定为假，第二个条件就不会被计算对于or 如果前面的第一个条件为真，那么这个or前后两个条件组成的表达式的计算结果就一定为真，第二个条件就不会被计算
Python
- 0
- 0
- 92
牛肉丸没牛肉19年8月18日
Hadoop- 分布式资源管理YARN架构讲解

YARN是分布式资源管理，每一台机器都要去管理该台计算机的资源，Yarn负责为MapReduce程序分配运算硬件资源。每一台机器的管理者叫 NodeManager，整个集群的管理者管理着整个集群的NodeManager，叫 ResourceManager。资源调度和资源隔离是YARN作为一个资源管理系统最重要和最基础的两个功能。资源调度由 ResourceManager 完成，而资源…
博客
- 0
- 0
- 92
牛肉丸没牛肉19年8月18日
Hadoop- Wordcount程序原理及代码实现

如果对Hadoop- MapReduce分布式计算框架原理还不熟悉的可以先了解一下它，因为本文的wordcount程序实现就是MapReduce分而治之最经典的一个范例。单词计数（wordcount）主要步骤： 1.读数据 2.按行处理 3.按空格切分行内单词 4.HashMap（单词，value+1）等分给自己的数据片全部读取完之后 5.将HashMap按照首字母范围分为3个H…
博客
- 0
- 0
- 90
牛肉丸没牛肉19年8月17日
Spark- 流量日志分析

日志生成 package zx.Utils import java.io.{File, FileWriter} import java.util.Calendar import org.apache.commons.lang.time.{DateUtils, FastDateFormat} import scala.collection.mutable.ArrayBuffer imp…
博客
- 0
- 0
- 88
牛肉丸没牛肉19年8月18日
Spark- Checkpoint原理剖析

Checkpoint，是Spark 提供的一个比较高级的功能。有的时候，比如说，我们的 Spark 应用程序，特别的复杂，然后从初始的RDD开始，到最后拯个应用程序完成，有非常多的步骤，比如超过20个transformation 操作。而且整个应用运行的时间也特别的长，比如通常要运行1-5小时。在上述的情况下，就比较适合使用checkpoint 功能。因为，对于特别复杂的 Spar…
博客
- 0
- 0
- 85
牛肉丸没牛肉19年8月18日
JAVA- 数据库连接池原理

第一次Java程序要在MySQL中执行一条语句，那么就必须建立一个Connection对象，代表了与MySQL数据库的连接通过直接发送你要执行的SQL语句之后，就会调用Connection.close()来关闭和销毁与数据库的连接。为什么要立即关闭呢？因为数据库的连接是一种很重的资源，代表了网络连接、IO等资源。所以如果不是用的话就需要尽早关闭，以避免资源浪费。 JDBC的劣势与不足…
Java
- 0
- 0
- 85
牛肉丸没牛肉19年8月18日
Kafka- Spark消费Kafka

在高版本的API中 val brokers = properties.getProperty("kafka.host.list") val topics = Set(properties.getProperty("kafka.application.topic")) val kafkaParams = Map[String, String]( …
博客
- 0
- 0
- 84
牛肉丸没牛肉19年8月18日
Spark- Linux下安装Spark

Spark- Linux下安装Spark 前期部署 1.JDK安装，配置PATH 可以参考之前配置hadoop等配置 2.下载spark-1.6.1-bin-hadoop2.6.tgz,并上传到服务器解压 [root@srv01 ~]# tar -xvzf spark-1.6.1-hadoop2.6.tgz /usr/spark-1.6.1-hadoop2.6 3.在 /usr 下…
博客
- 0
- 0
- 84
牛肉丸没牛肉19年8月17日
Spark- 常见问题

记录spark使用中常见问题 SparkSQL 日期解析时用到SimpleDateFormat， SimpleDateFormat是线程不安全的。可以使用 FastDateFormat 如： import org.apache.commons.lang3.time.FastDateFormat // 输入文件日期时间格式 // [10/Nov/2018:00:01:02 +0800]…
博客
- 0
- 0
- 83
牛肉丸没牛肉19年8月18日
Storm- 使用Storm实现累积求和的操作

需求：1+2+3+... = ？？？实现方案： Spout发出数字作为input 使用Bolt来处理业务逻辑：求和将结果输出到控制台拓扑设计：DataSourceSpout -->SumBolt→输出 package com.imooc.bigdata; import org.apache.storm.Config; import org.apache.st…
博客
- 0
- 0
- 82
牛肉丸没牛肉19年8月18日
CapitalOne 和 GitHub 因数据泄露事件遭遇集体诉讼

来自 thehill 的消息：CapitalOne 和 GitHub 因近期的数据泄露事件而遭遇集体诉讼，事件导致 CapitalOne 泄露超过 1 亿条客户数据。 Tycko＆Zavareei LLP 律师事务所周四提起诉讼，辩称 GitHub 和 CapitalOne 在对违规行为的回应中表现出疏忽。该公司代表受违规行为影响的人提起集体诉讼，指控两家公司未能保护客户数据。在 Capital…
博客
- 0
- 0
- 82
hunterho19年8月3日
Storm- 使用Storm实现词频汇总

需求：读取指定目录的数据，并实现单词计数的功能实现方案： Spout来读取指定目录的数据，作为后续Bolt处理的input 使用一个Bolt把input 的数据，切割分开，我们按照逗号进分割使用一个Bolt来进行最终的单词次数统计操作并输出拓扑设计：DataSourceSpout ==>SpiltBolt ==>CountBolt Storm编程注意，…
博客
- 0
- 0
- 82
牛肉丸没牛肉19年8月18日
Hadoop- 流量汇总程序之如何实现hadoop的序列化接口及代码实现

流量汇总程序需求统计每一个用户（手机号）锁耗费的总上行流量、下行流量、总流量。流程剖析阶段：map 读取一行数据，切分字段，抽取手机号，上行流量，下行流量 context.write(手机号，bean) 阶段：reduce 汇总遍历每个bean，将其中的上行流量，下行流量分别累加，得到一个新的bean context.write(手机号，新bean)；代码实现…
博客
- 0
- 0
- 82
牛肉丸没牛肉19年8月17日
Hadoop- MapReduce在实际应用中常见的调优

1、Reduce Task Number 通常来说一个block就对应一个map任务进行处理，reduce任务如果人工不去设置干预的话就一个reduce。reduce任务的个数可以通过在程序中设置 job.setNumReduceTasks(个数); ，也可在配置文件上设置reduce任务个数，默认为1，或者在代码config中配置 Configuration configura…
博客
- 0
- 0
- 81
牛肉丸没牛肉19年8月18日
Spark- Transformation实战

RDD的算子分为两类,是 Trans formation(Lazy),一类是 Action(触发任务执行 RDD不存在真正要计算的数据,而是记录了RDD的转换关系(调用了什么方法,传入什么函数) RDD的 Trans formation的特点 1. lazy 2.生成新的RDD package cn.rzlee.spark.core import org.…
博客
- 0
- 0
- 80
牛肉丸没牛肉19年8月18日
Spark- 性能优化

由于Spark 的计算本质是基于内存的，所以Spark的性能城西的性能可能因为集群中的任何因素出现瓶颈：CPU、网络带宽、或者是内存。如果内存能够容得下所有的数据，那么网络传输和通信就会导致性能出现频惊。但是如果内存比较紧张，不足以放下所有的数据（比如在针对10亿以上的数据量进行计算时），还是需要对内存的使用进行性能优化的，比如说使用一些手段来减少内存的消耗。 Spark性能优化，其…
博客
- 0
- 0
- 80
牛肉丸没牛肉19年8月18日
Spark- Spark Yarn模式下跑yarn-client无法初始化SparkConext,Over usage of virtual memory

在spark yarn模式下跑yarn-client时出现无法初始化SparkContext错误. 17/09/27 16:17:54 INFO mapreduce.Job: Task Id : attempt_1428293579539_0001_m_000003_0, Status : FAILED Container [pid=7847,containerID=containe…
博客
- 0
- 0
- 79
牛肉丸没牛肉19年8月18日
Oozie-

oozie是一个工作流调度系统，用于管理Apache Hadoop作业。 oozie工作流作业是操作的有向无环图( DAGs )。 Oozie协调器作业是由时间(频率)和数据可用性触发的重复Oozie工作流作业。 oozie与Hadoop堆栈的其余部分集成，支持几种现成的Hadoop作业(如Java map - reduce、流map - reduce、Pig、Hive、Sqoop和…
博客
- 0
- 0
- 79
牛肉丸没牛肉19年8月18日
Hive- Hive安装

Hive安装 1.1下载Hive安装包官网：http://hive.apache.org/downloads.html 个人建议到这里下载：http://apache.forsale.plus/ 1.2将hive文件上传到HADOOP集群，并解压将文件上传到 /usr ，解压 tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /usr/ 重命名:…
博客
- 0
- 0
- 78
牛肉丸没牛肉19年8月17日
Storm- Storm作业提交运行流程

用户编写Storm Topology 使用client提交Topology给Nimbus Nimbus指派Task给Supervisor Supervisor为Task启动Worker Worker执行Task
博客
- 0
- 0
- 78
牛肉丸没牛肉19年8月18日
spark- PySparkSQL之PySpark解析Json集合数据

PySparkSQL之PySpark解析Json集合数据数据样本 12341234123412342|asefr-3423|[{"name":"spark","score":"65"},{"name":"airlow","score":&quo…
博客
- 0
- 0
- 76
牛肉丸没牛肉19年8月18日
Spark- RDD简介

Spark里面提供了一个比较重要的抽象——弹性分布式数据集（resilient distributed dataset），简称RDD。弹性：数据可大可小，可分布在内存或磁盘，当某台机器宕机时，能够按照RDD的liveage重新计算，从而恢复。 RDD有5个特性： 1.一个分区列表，用于并行计算，每个分区对应一个原子数据集，作为这个分区的数据输入 2.计算这个RDD某个分区数据（这个分…
博客
- 0
- 0
- 75
牛肉丸没牛肉19年8月18日
Openldap- 大集群身份验证服务

无论在哪个行业，数据安全永远都是摆在首要地位。尤其是在大数据行业上，谁掌握了数据，谁就有可能成为下个亿万富豪的环境中，数据安全更为重要。大数据的安全可以从哪些地方入手，首先可以在身份验证上面入手。在大数据的集群设备上做好身份验证，可以使用openldap来做。唯有通过openldap管理的账号才能对大数据系统进行访问，没有通过openldap创建的账号是不能login到Hadoop…
博客
- 0
- 0
- 74
牛肉丸没牛肉19年8月18日
Hadoop- Hadoop环境搭建

Windows下Hadoop的安装准备工具：64位的JDK,Hadoop安装包（我使用的是2.6.1） JDK下载地址官网： http://www.oracle.com/technetwork/java/javase/downloads/index.html Hadoop下载地址官网：http://hadoop.apache.org/ 1.安装JDK环境，配置系统环境变量. 选…
博客
- 0
- 0
- 74
牛肉丸没牛肉19年8月17日
大数据之路- Hadoop环境搭建（Linux）

前期部署 1.JDK 2.上传HADOOP安装包 2.1官网：http://hadoop.apache.org/ 2.2下载hadoop-2.6.1的这个tar.gz文件，官网： https://archive.apache.org/dist/hadoop/common/hadoop-2.6.1/ 下载成功后，把这个tar.gz包上传到服务器上，命令：通…
博客
- 0
- 0
- 73
牛肉丸没牛肉19年8月17日
Hadoop- NameNode和Secondary NameNode元数据管理机制

元数据的存储机制A、内存中有一份完整的元数据(内存meta data)B、磁盘有一个“准完整”的元数据镜像（fsimage）文件(在namenode的工作目录中)C、用于衔接内存metadata和持久化元数据镜像fsimage之间的操作日志（edits文件）NameNode和Secondary NameNode元数据管理机制客户端每次对文件的操作，如果涉及到元数据的更新（读除外），比如…
博客
- 0
- 0
- 73
牛肉丸没牛肉19年8月17日
PyMiner-py2cn 数据分析工具：开源界的MATLAB

PyMiner 是一款数据处理、分析、建模、评估软件，目的是使 pandas\sklearn 的操作进行可视化。项目开发环境基于Window 10 X64，使用 Python3.8+PyQt5.15+Pycharm 进行技术开发。同时，此项目支持跨平台，这意味着即使是Linux、Mac也可以使用或开发此软件。安装下载项目源码安装python并打开命令行工具，使用 pip install -r…
大数据
- 0
- 0
- 72
summer20年9月17日