全部标签

开源软件

最新随机最多浏览最多喜欢最多评论

分类：
开源软件编程语言插件扩展程序开发手机/移动开发企业应用开发工具大数据
开源公司：
全部华为百度阿里巴巴腾讯

博客大数据

SpringBoot- springboot集成Redis出现报错：No qualifying bean of type ‘org.springframework.data.redis.connection.RedisConnectionFactory’

Springboot将accessToke写入Redisk 缓存，springboot集成Redis出现报错 No qualifying bean of type 'org.springframework.data.redis.connection.RedisConnectionFactory' 原因：我们在pom.xml中引入了spring-boo…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 446
博客大数据

华为发布 Volcano 开源项目，方便 AI、大数据、基因、渲染等诸多行业通用计算框架接入

Volcano 是基于 Kubernetes 的批处理系统，源自于华为云 AI 容器。Volcano 方便 AI、大数据、基因、渲染等诸多行业通用计算框架接入，提供高性能任务调度引擎，高性能异构芯片管理，高性能任务运行管理等能力。授权协议: Apache 开发语言: Google Go 操作系统: Linux 开发厂商: 华为整体架构 Volcano 提供一整套目前 K8S 在批量和弹性工作负…...
- hunterho
- 19年7月3日
- 0
- 0
- 286
博客大数据

CDH- CDH大数据集群运维

CDH前端CM监控不正常（未解决） Request to the Service Monitor failed. This may cause slow page responses. View the status of the Service Monitor. Request to the Host Monitor failed. This may cause sl…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 264
企业应用博客

AntV 统计图表 G2Plot 1.0

G2Plot 是一个统计图表库，诞生于阿里经济体 BI 产品真实场景的业务诉求。动态、高度不确定是 BI 产品和中台系统业务数据的一个普遍特征，而这种特征对统计图表的功能和体验提出了巨大的挑战。如何能够帮助报表系统和一线前端在复杂数据条件下快速高效地创建统计图表，同时保证图表在各种显示空间和数据状态下的可读性和可用性？为解决这两个痛点问题，AntV 与 DeepInsight、QuickBI 和…...
- summer
- 20年3月17日
- 0
- 0
- 261
博客开发工具

机器学习系统：TensorFlow 2.2.0

TensorFlow 是谷歌的第二代机器学习系统，按照谷歌所说，在某些基准测试中，TensorFlow的表现比第一代的DistBelief快了2倍。 TensorFlow 内建深度学习的扩展支持，任何能够用计算流图形来表达的计算，都可以使用TensorFlow。任何基于梯度的机器学习算法都能够受益于TensorFlow的自动分化（auto-differentiation）。通过灵活的Python…...
- summer
- 20年5月7日
- 0
- 0
- 259
博客开发工具

Hadoop 生态数据存储系统：Apache Kudu 1.12.0

Kudu 是一个支持结构化数据的开源存储引擎，具有低延迟随机读取与高效分析读取模式。它基于 Apache Hadoop 生态系设计，并支持与 Apache 软件基金会其它数据分析项目集成。此版本带来了一些新功能、改进、优化和错误修复：新功能 Kudu 现在通过集成 Apache Ranger 来支持原生细粒度认证 Kudu 的 Web UI 现在支持通过 Apache Knox 进行代理 Ku…...
- summer
- 20年5月25日
- 0
- 0
- 242
博客大数据

Hadoop- Namenode经常挂掉 IPC’s epoch 9 is less than the last promised epoch 10

如题出现Namenode经常挂掉 IPC's epoch 9 is less than the last promised epoch 10， 2019-01-03 05:36:14,774 INFO org.apache.hadoop.hdfs.StateChange: BLOCK* allocate blk_1073741949_1131{UCState=…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 239
Python 企业应用博客

基于 Python 的开源量化交易平台开发框架 VN.PY 2.1.2

vn.py - 基于 Python 的开源交易平台开发框架 vn.py 项目起源于国内私募的自主交易系统，2015 年初启动时只是单纯的交易 API 接口的 Python 封装。随着业内关注度的上升和社区不断的贡献，目前已经一步步成长为一套全面的交易程序开发框架，用户群体也日渐多样化，包括私募基金、证券自营和资管、期货资管和子公司、高校研究机构、个人投资者等。丰富的 Python 交易和数据 A…...
- summer
- 20年4月16日
- 0
- 0
- 235
Python 博客大数据

Python- NumPy

NumPy包括的内容 NumPy系统是 Python的一种开源的数值计算扩展,是一个用 python实现的科学计算包。包括：一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组,称为 ndarray(N-dimensional array object ) 用于对整组数据进行快速运算的标准数学函数, func( universal function object) 用于整…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 225
Python 博客

Python好火啊，微软官方都上线 Python 教程了

微软近日上线了一套 Python 教程《Develop with Python on Windows》，文档内容包括设置 Python 开发环境、在 Windows 与 WSL 子系统中安装相应开发工具，以及集成 VS Code 与 Git 工具并进行开发等。具体来看，课程有以下几个章节：入门使用 Python 使用 Python 进行 Web 开发使用 Python 编写脚本与自动化使用…...
- hunterho
- 19年7月23日
- 0
- 0
- 217
Python 博客开发工具

Python 科学计算包：NumPy 1.18.4

NumPy 是一个基础科学的计算包，包含：一个强大的N维数组对象 sophisticated (broadcasting) functions tools for integrating C/C++ and Fortran code 有用的线性代数、傅立叶转换和随机数生成函数 NumPy 1.18.4 是 1.18.x 系列中的最后一个计划发行版。它还原了 1.18.3 中引入的 bool(&q…...
- summer
- 20年5月4日
- 0
- 0
- 203
博客开源软件

pyspark-pycharm本地运行pyspark程序报错org.apache.spark.SparkException: Python worker failed to connect back.

新配置的本地pyspark环境，本地运行pyspark程序报错，org.apache.spark.SparkException: Python worker failed to connect back. 解决办法1：在pycharm上运行时，Edit Configurations，配置环境变量 PYSPARK_PYTHON=${windows上安装的python路径}python.exe 解决…...
- 牛肉丸没牛肉
- 24年3月2日
- 2
- 1
- 197
博客大数据

Hadoop- HDFS的API操作

1、引入依赖 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.6.1</version> </dependency> 注：如需手动引入ja…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 193
$Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.$

$Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.$
博客大数据

Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

报错 G:\APP\JDK\bin\java -Didea.launcher.port=7532 "-Didea.launcher.bin.path=G:\APP\IntelliJ IDEA\bin" -Dfile.encoding=UTF-8 -classpath "G:\APP\JDK\jre\lib\charsets.jar;G:\APP\JDK\…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 190
博客大数据

Hadoop- Hadoop详解

首先所有知识以官网为准，所有的内容在官网上都有展示，所有的变动与改进，新增内容都以官网为准。hadoop.apache.org Hadoop是一个开源的可拓展的分布式并行处理计算平台，利用服务器集群根据用户的自定义业务逻辑，对海量数据进行分布式处理。Hadoop提供了一个可靠的共享存储和分析系统，Hadoop的核心三大组件有HDFS（分布式文件系统），MapReduce（分布式运算编程框架），YA…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 188
博客大数据

Sqooop- 使用Sqoop进行数据的导入导出

Sqoop是Apache旗下的一个开源框架，专门用来做数据的导入和导出。官网:https://sqoop.apache.org/ Sqoop的安装非常简单，只需要把下载下来的tar包解压设置两个环境变量就可以了 1.安装部署下载版本：sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 官网：http://mirror.bit.edu.cn/apa…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 185
企业应用博客可视化

可视化数据库管理平台：DBeaver 7.0.3

DBeaver 是一个可视化通用的数据库管理工具和 SQL 客户端，支持 MySQL, PostgreSQL, Oracle, DB2, MSSQL, Sybase, Mimer, HSQLDB, Derby, 以及其他兼容 JDBC 的数据库。 DBeaver 提供一个图形界面用来查看数据库结构、执行 SQL 查询和脚本，浏览和导出数据，处理 BLOB/CLOB 数据，修改数据库结构等等。 …...
- summer
- 20年4月20日
- 0
- 0
- 181
博客大数据

Spark- 根据ip地址计算归属地

主要考察的是广播变量的使用： 1、将要广播的数据 IP 规则数据存放在HDFS上，（广播出去的内容一旦广播出去产就不能改变了，如果需要实时改变的规则，可以将规则放到Redis中） 2、在Spark中转成RDD，然后收集到Driver端， 3、把 IP 规则数据广播到Executor中。Driver端广播变量的引用是怎样跑到 Executor中的呢?　　Task在Driver端生成的，…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 179
博客大数据

Spark-Spark setMaster & WordCount Demo

Spark setMaster源码 /** * The master URL to connect to, such as "local" to run locally with one thread, "local[4]" to * run locally with 4 cores, or "spark://master:7077&…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 176
企业应用开源资讯

Spark开发的大数据流水线系统：PiFlow v0.7

PiFlow是一个基于分布式计算框架Spark开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件，以所见即所得方式进行流水线配置。简单易用，功能强大。本次版本更新如下特性：支持流水线组调度功能支持数据源注册功能支持流水线路由功能优化流水线配置插件，支持标签、右键运行、更换图标、更换线型优化监控页面优化数据处理组件优化启动配置项下载地址： Gitee地址…...
- summer
- 20年6月18日
- 0
- 0
- 175
博客大数据

Zookeeper- Error contacting service. It is probably not running解决方案和原理

搭建启动Zookeeper集群出现Error contacting service. It is probably not running解决方案和原理 1.关闭防火墙 1 2 3 4 [root@srv01 bin]# zkServer.sh start JMX enabled by default Using config: /usr/zookeeper/bin/../con…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 172
$Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.$

$Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.$
博客大数据

Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

运行 mport org.apache.log4j.{Level, Logger} import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /** * Created by Lee_Rz on 2017/8/30. */ object SparkDemo { def main(args: A…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 168
博客大数据

Spark- 求最受欢迎的TopN课程

数据库操作工具类 package com.rz.mobile_tag.utils import java.sql.{Connection, DriverManager, PreparedStatement} object MySQLUtils { /** * 获取数据库连接 * @return */ def getConnection()={ DriverManager.getCon…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 168
Java 博客

Springboot- Spring缓存抽象学习笔记

Spring缓存作用准备： 1、准备数据（准备一个有数据的库和表/导入数据库文件，准备好表和表里面的数据） 2、创建javaBean封装数据 3、整合MyBatis操作数据库( 这里用MyBatis) 1，配置数据源信息 2、使用注解版的MyBatis； 1）、@MapperScan指定需要扫描的Mapper接口所在的包创建一个springboot项目 -》选择依赖(…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 163
博客大数据数据存储

Apache Kudu 1.10.0 发布，Hadoop 生态数据存储系统

Apache Kudu 1.10.0 发布了，Kudu 是一个支持结构化数据的开源存储引擎，具有低延迟随机读取与高效分析读取模式。它基于 Apache Hadoop 生态系设计，并支持与 Apache 软件基金会其它数据分析项目集成。此版本带来的新特性包括： Kudu 现在通过使用 Apache Spark 实现的作业支持完整和增量表备份。此外，它还支持通过使用 Apache Spark 实现的…...
- summer
- 19年7月12日
- 0
- 0
- 162
博客大数据

Spark- 共享变量

Shared Variables Normally, when a function passed to a Spark operation (such as map or reduce) is executed on a remote cluster node, it works on separate copies of all the variables used in the…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 158
企业应用博客

分布式服务框架：Apache ZooKeeper 3.6.1

ZooKeeper是Hadoop的正式子项目，它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。 Zookeeper是Google的Chubby一个开源的实现.是高有效和可靠的协同工作系统.Zookeeper能够用来leader选举,配置信…...
- summer
- 20年5月5日
- 0
- 0
- 158
企业应用开源资讯程序开发

弹性云端原生应用服务网格：Linkerd 2.8

Linkerd 是一个提供弹性云端原生应用服务网格（service mesh）的开源项目，也是面向微服务的开源 RPC 代理。它的核心是一个透明代理。 linkerd（发音 "linker-DEE"）是一个透明的服务网格，旨在通过透明地将服务发现、负载均衡、故障处理，插桩（instrumentation）和路由添加到所有的服务间通信中，使现代应用程序安全可靠，而无需侵入应用内部…...
- summer
- 20年6月11日
- 0
- 0
- 155
博客大数据

Linux- AWS之EC2大数据集群定时开关机

众所周知，云计算就是在计算你的钱，每当ec2开起来就要开始计费。当用户购买了一个庞大的与服务器做一个集群，尤其是用来做大数据集群，这些服务器的配置相当高，每台服务器所需要的费用不菲。其实在很多时候没能够完全利用起其全部的资源，尤其在空闲时间，在夜间没有作业的情况下，这些服务器完全处于空闲的状态，却时刻在计费，这是相当不划算的。于是有这样一个方案，我们是不是可以在机器处于空闲的状态时将…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 148
博客大数据

CDH- 测试mr

cdh的mr样例算法的jar包在 [zc.lee@ip-172-32-1-221 hadoop-0.20-mapreduce]$ pwd /opt/cloudera/parcels/CDH-5.10.0-1.cdh5.10.0.p0.41/lib/hadoop-0.20-mapreduce 查看该目录下的文件 [zc.lee@ip-172-32-1-221 hadoop-0.20-m…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 148
博客大数据

Hive- 表

在hive中表的类型：管理表和托管表（外部表）。内部表也称之为MANAGER_TABLE,默认存储在/user/hive/warehouse下，也可以通过location指定；删除表时，会删除表的数据以及元数据；外部表称之为EXTERNAL_TABLE。在创建表时可以自己指定目录位置（LOCATION），数据存储所在的目录；删除表时，只会删除元数据不会删除表数据；创建外部表实例…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 146
博客大数据

Spark- 计算每个学科最受欢迎的老师

日志类型测试数据 http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://java.myit.c…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 145
博客大数据

Hadoop- 分布式资源管理YARN架构讲解

YARN是分布式资源管理，每一台机器都要去管理该台计算机的资源，Yarn负责为MapReduce程序分配运算硬件资源。每一台机器的管理者叫 NodeManager，整个集群的管理者管理着整个集群的NodeManager，叫 ResourceManager。资源调度和资源隔离是YARN作为一个资源管理系统最重要和最基础的两个功能。资源调度由 ResourceManager 完成，而资源…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 144
博客大数据

Hive- Hive Web Interface

当我们安装好hive时候，我们启动hive的UI界面的时候，命令: hive –-service hwi ，报错，没有war包我们查看hive/conf/hive-default.xml.template，查找hwi 把这3台属性复制，添加到hive-site.xml里面， vim hive-site.xml <property> <name>hive.hw…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 140
Python 博客

Python- 列表内置方法

列表，元组查索引(下标) ，都是从0开始切片 .count 查某个元素的出现次数 .index 根据内容找其对应的位置 "haidilao ge" in a 增加 a.append() 追加 a.insert(index, "内容") a.extend 扩展修改 a[index] = "新的值" a[start:en…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 140
博客大数据

Spark- Spark从SFTP中读取zip压缩文件数据做计算

我们遇到个特别的需求，一个数据接入的流程跑的太慢，需要升级为用大数据方式去处理，提高效率。数据：数据csv文件用Zip 压缩后放置在SFTP中数据来源： SFTP 数据操作：文件和它的压缩包一致，后缀不同。文件名中包含渠道、日期、操作标记("S"追加,"N"全量,"D"删除) 升级前的操作方式： she…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 140
Python 博客

Python 爬虫框架Scrapy 2.0.0

Scrapy 是一套基于 Twisted 的异步处理框架，纯 Python 实现的爬虫框架，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片。此版本主要更新亮点包括：不再支持 Python 2 部分协程语法支持和实验性异步支持新的 Response.follow_all 方法 FTP 对媒体管道的支持新的 Response.certificate 属性通过…...
- summer
- 20年3月5日
- 0
- 0
- 139
博客大数据

Hadoop HA- hadoop集群部署

前期部署，至少准备3台服务器（可以是虚拟机） 1、linux系统环境准备 ip地址配置 hostname配置 hosts映射配置关闭防火墙 service iptables stop ,也可以设置防火墙不开机自启动 chkconfig iptables off init启动级别修改 2.java环境的配置上传jdk，解压，修改/etc/profile 3.zookeeper集群…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 136
博客大数据

Hive- Hive 的基本操作

创建数据库 create database db_hive; use db_hive; create database if not exists db_hive_02; create database if not exists db_hive_01 location '/user/rz_lee/warehouse/db_hive_01.db'; //指定数据库…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 135
博客大数据

Redis- 内存数据库Redis之安装部署

内存数据库Redis之安装部署 Redis是一款非关系型，key-value存储的内存数据库，Redis数据库完全在内存中，使用磁盘仅用于持久性。Redis的速度非常快，每秒能执行约11万集合，每秒约81000+条记录。支持丰富的数据类型：Redis支持字符串、列表、集合、有序集合散列数据类型，这使得它非常容易解决各种各样的问题。把redis看成java的一个hashmap你就入门…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 134
博客大数据

HIVE- 大数据运维之hive管理

我现在在一家公司负责大数据平台（CDH平台）的运维管理，最常遇见的问题我总结出来，并且继续在下面更新。希望方便自己以后trouble shooting以及方便各位同行解决问题与学习。关于做运维有几个重要的要点一定一定要遵守的：遇到问题冷静，冷静，冷静，就山崩都要冷静，心态关乎你是否能将问题解决同时不会给人留下不好的印象。凡是关于对集群更改与变动的操作，一定要在测试环境测试到没问…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 133
博客大数据

Spark- 使用第三方依赖解析IP地址

使用 github上已有的开源项目 1)git clone https://github.com/wzhe06/ipdatabase.git 2)编译下载的项目: mvn clean package- DskipTests 3)安装jar包到自己的 maven仓库 mvn install: install-file -Dfile=${编译的jar包路径}/target/ipdatab…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 133
博客大数据

Spark- SparkSQL中 Row.getLong 出现NullPointerException错误的处理方法

在SparkSQL中获取Row的值，而且Row的字段允许null时，在取值的时候取到null赋值给新的变量名会报NullPointerException错误，可以先用row.isNullAt(index)去判断该字段的值是否为空首先上错误修改为先初始化变量，判断row.isNullAt(6) 如果不为空就将值赋值给变量 ...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 133
博客大数据

Spark- SparkStreaming可更新状态的实例

Producer package zx.zx.sparkkafka import java.util.Properties import kafka.producer.{KeyedMessage, Producer, ProducerConfig} import scala.util.Random /** * Created by 166 on 2017/9/6. */ object…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 131
博客大数据

Spark- 自定义排序

考察spark自定义排序方式一：自定义一个类继承Ordered和序列化，Driver端将数据变成RDD，整理数据转成自定义类类型的RDD，使用本身排序即可。 package com.rz.spark.base import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} // 自定…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 129
博客大数据

Zeppelin- Linux下安装Zeppelin

前期部署: 下载,解压,配置PATH环境(编辑/etc/profile文件,记得source一下该文件) zepplin配置参考文档:https://zeppelin.apache.org/docs/0.7.2/install/configuration.html 往conf/zeppelin-env.sh文件中添加端口号往底部添加 export ZEPPLELIN_PORT=8090 修改配置…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 127
博客大数据

Spark- RDD持久化

官方原文： RDD Persistence One of the most important capabilities in Spark is persisting (or caching) a dataset in memory across operations. When you persist an RDD, each node stores any partitions …...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 127
博客大数据

Hadoop- MapReduce分布式计算框架原理

分布式计算：原则：移动计算而尽可能减少移动数据（减少网络开销）分布式计算其实就是将单台机器上的计算拓展到多台机器上并行计算。 MapReduce是一种编程模型。Hadoop MapReduce采用Master/slave 结构。只要按照其编程规范，只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序。核心思想是：分而治之。Mapper负责分，把一个复杂的业务，任…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 126
博客大数据

Hadoop- Wordcount程序原理及代码实现

如果对Hadoop- MapReduce分布式计算框架原理还不熟悉的可以先了解一下它，因为本文的wordcount程序实现就是MapReduce分而治之最经典的一个范例。单词计数（wordcount）主要步骤： 1.读数据 2.按行处理 3.按空格切分行内单词 4.HashMap（单词，value+1）等分给自己的数据片全部读取完之后 5.将HashMap按照首字母范围分为3个H…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 126
博客大数据

Spark- Linux下安装Spark

Spark- Linux下安装Spark 前期部署 1.JDK安装，配置PATH 可以参考之前配置hadoop等配置 2.下载spark-1.6.1-bin-hadoop2.6.tgz,并上传到服务器解压 [root@srv01 ~]# tar -xvzf spark-1.6.1-hadoop2.6.tgz /usr/spark-1.6.1-hadoop2.6 3.在 /usr 下…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 125
博客大数据

Spark- Transformation实战

RDD的算子分为两类,是 Trans formation(Lazy),一类是 Action(触发任务执行 RDD不存在真正要计算的数据,而是记录了RDD的转换关系(调用了什么方法,传入什么函数) RDD的 Trans formation的特点 1. lazy 2.生成新的RDD package cn.rzlee.spark.core import org.…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 124
博客大数据

Hadoop- HDFS的Safemode

Hadoop- HDFS的Safemode hadoop启动时，NameNode启动完后就开始进入安全模式，等待DataNode向NameNode发送block report ，当datanode blocks / total blocks = 99.99%，此时安全模式才会退出安全模式下的操作：可以查看文件系统的文件在安全模式期间我们有些操作是不能进行的，比如不能改变文件系统…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 121
博客大数据

Spark- 数据清洗

输入输出转化工具类 package com.rz.mobile_tag.log import org.apache.spark.sql.Row import org.apache.spark.sql.types.{LongType, StringType, StructField, StructType} /** * 访问日志转换（输入==>输出）工具类 */ object A…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 121
博客大数据

Hadoop- DistCp(分布式拷贝)

在实际的生产环境中，我们的企业都有测试集群和生产集群，有的比较大型的企业有多个版本的Hadoop 大数据集群，这时候有个这样的需求，各个集群上的资源需要进行迁移，比如说一些生产集群需要一些测试集群的数据，需要将测试集群的上的数据拷贝到生产集群，这时候就需要使用到分布式拷贝（Distributed Copy）. 比较常见的有不同集群之间的数据迁移 hadoop distcp <s…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 120