全部标签

开源软件

最新随机最多浏览最多喜欢最多评论

分类：
开源软件编程语言插件扩展程序开发手机/移动开发企业应用开发工具大数据
开源公司：
全部华为百度阿里巴巴腾讯

博客开源软件

pyspark-pycharm本地运行pyspark程序报错org.apache.spark.SparkException: Python worker failed to connect back.

新配置的本地pyspark环境，本地运行pyspark程序报错，org.apache.spark.SparkException: Python worker failed to connect back. 解决办法1：在pycharm上运行时，Edit Configurations，配置环境变量 PYSPARK_PYTHON=${windows上安装的python路径}python.exe 解决…...
- 牛肉丸没牛肉
- 24年3月2日
- 2
- 1
- 197
博客大数据

华为发布 Volcano 开源项目，方便 AI、大数据、基因、渲染等诸多行业通用计算框架接入

Volcano 是基于 Kubernetes 的批处理系统，源自于华为云 AI 容器。Volcano 方便 AI、大数据、基因、渲染等诸多行业通用计算框架接入，提供高性能任务调度引擎，高性能异构芯片管理，高性能任务运行管理等能力。授权协议: Apache 开发语言: Google Go 操作系统: Linux 开发厂商: 华为整体架构 Volcano 提供一整套目前 K8S 在批量和弹性工作负…...
- hunterho
- 19年7月3日
- 0
- 0
- 286
博客大数据数据存储

Apache Kudu 1.10.0 发布，Hadoop 生态数据存储系统

Apache Kudu 1.10.0 发布了，Kudu 是一个支持结构化数据的开源存储引擎，具有低延迟随机读取与高效分析读取模式。它基于 Apache Hadoop 生态系设计，并支持与 Apache 软件基金会其它数据分析项目集成。此版本带来的新特性包括： Kudu 现在通过使用 Apache Spark 实现的作业支持完整和增量表备份。此外，它还支持通过使用 Apache Spark 实现的…...
- summer
- 19年7月12日
- 0
- 0
- 162
Python 博客

Python好火啊，微软官方都上线 Python 教程了

微软近日上线了一套 Python 教程《Develop with Python on Windows》，文档内容包括设置 Python 开发环境、在 Windows 与 WSL 子系统中安装相应开发工具，以及集成 VS Code 与 Git 工具并进行开发等。具体来看，课程有以下几个章节：入门使用 Python 使用 Python 进行 Web 开发使用 Python 编写脚本与自动化使用…...
- hunterho
- 19年7月23日
- 0
- 0
- 217
博客大数据

Hadoop- Hadoop环境搭建

Windows下Hadoop的安装准备工具：64位的JDK,Hadoop安装包（我使用的是2.6.1） JDK下载地址官网： http://www.oracle.com/technetwork/java/javase/downloads/index.html Hadoop下载地址官网：http://hadoop.apache.org/ 1.安装JDK环境，配置系统环境变量. 选…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 94
博客大数据

大数据- 自定义Log4j日记

1.新建一个java project，在src下新建一个lib文件夹和 rescources 文件夹，resources文件夹不能命名错误。点击File——》project Structure...打开根据下图操作把相关jar包放进lib文件夹里并绑定。新建一个java文件 Log4jTest.java 和 HadoopLog4j.java 1 2 3 4 5 6…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 61
博客大数据

Zookeeper- Error contacting service. It is probably not running解决方案和原理

搭建启动Zookeeper集群出现Error contacting service. It is probably not running解决方案和原理 1.关闭防火墙 1 2 3 4 [root@srv01 bin]# zkServer.sh start JMX enabled by default Using config: /usr/zookeeper/bin/../con…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 172
博客大数据

Hadoop HA- zookeeper安装配置

安装集群 1.1 虚拟机： 3台安装好JDK的centos Linux虚拟机 1.2 安装包：把下载好的zookeeper安装包，官网：http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.8/ 上传到服务器。 1.3解压 tar –xvzf zookeeper-3.4.8.tar.gz ，解压后放进 /usr/ 即可 …...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 81
博客大数据

大数据之路- Hadoop环境搭建（Linux）

前期部署 1.JDK 2.上传HADOOP安装包 2.1官网：http://hadoop.apache.org/ 2.2下载hadoop-2.6.1的这个tar.gz文件，官网： https://archive.apache.org/dist/hadoop/common/hadoop-2.6.1/ 下载成功后，把这个tar.gz包上传到服务器上，命令：通…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 114
博客大数据

Hadoop HA- hadoop集群部署

前期部署，至少准备3台服务器（可以是虚拟机） 1、linux系统环境准备 ip地址配置 hostname配置 hosts映射配置关闭防火墙 service iptables stop ,也可以设置防火墙不开机自启动 chkconfig iptables off init启动级别修改 2.java环境的配置上传jdk，解压，修改/etc/profile 3.zookeeper集群…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 136
博客大数据

Hive- Hive安装

Hive安装 1.1下载Hive安装包官网：http://hive.apache.org/downloads.html 个人建议到这里下载：http://apache.forsale.plus/ 1.2将hive文件上传到HADOOP集群，并解压将文件上传到 /usr ，解压 tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /usr/ 重命名:…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 118
博客大数据

Hive- Hive Web Interface

当我们安装好hive时候，我们启动hive的UI界面的时候，命令: hive –-service hwi ，报错，没有war包我们查看hive/conf/hive-default.xml.template，查找hwi 把这3台属性复制，添加到hive-site.xml里面， vim hive-site.xml <property> <name>hive.hw…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 140
博客大数据

Sqooop- 使用Sqoop进行数据的导入导出

Sqoop是Apache旗下的一个开源框架，专门用来做数据的导入和导出。官网:https://sqoop.apache.org/ Sqoop的安装非常简单，只需要把下载下来的tar包解压设置两个环境变量就可以了 1.安装部署下载版本：sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 官网：http://mirror.bit.edu.cn/apa…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 185
博客大数据

Hadoop- NameNode和Secondary NameNode元数据管理机制

元数据的存储机制A、内存中有一份完整的元数据(内存meta data)B、磁盘有一个“准完整”的元数据镜像（fsimage）文件(在namenode的工作目录中)C、用于衔接内存metadata和持久化元数据镜像fsimage之间的操作日志（edits文件）NameNode和Secondary NameNode元数据管理机制客户端每次对文件的操作，如果涉及到元数据的更新（读除外），比如…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 92
博客大数据

Hadoop- MapReduce分布式计算框架原理

分布式计算：原则：移动计算而尽可能减少移动数据（减少网络开销）分布式计算其实就是将单台机器上的计算拓展到多台机器上并行计算。 MapReduce是一种编程模型。Hadoop MapReduce采用Master/slave 结构。只要按照其编程规范，只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序。核心思想是：分而治之。Mapper负责分，把一个复杂的业务，任…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 126
博客大数据

Hadoop- Wordcount程序原理及代码实现

如果对Hadoop- MapReduce分布式计算框架原理还不熟悉的可以先了解一下它，因为本文的wordcount程序实现就是MapReduce分而治之最经典的一个范例。单词计数（wordcount）主要步骤： 1.读数据 2.按行处理 3.按空格切分行内单词 4.HashMap（单词，value+1）等分给自己的数据片全部读取完之后 5.将HashMap按照首字母范围分为3个H…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 126
博客大数据

Hadoop- 流量汇总程序之如何实现hadoop的序列化接口及代码实现

流量汇总程序需求统计每一个用户（手机号）锁耗费的总上行流量、下行流量、总流量。流程剖析阶段：map 读取一行数据，切分字段，抽取手机号，上行流量，下行流量 context.write(手机号，bean) 阶段：reduce 汇总遍历每个bean，将其中的上行流量，下行流量分别累加，得到一个新的bean context.write(手机号，新bean)；代码实现…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 112
博客大数据

Redis- 内存数据库Redis之安装部署

内存数据库Redis之安装部署 Redis是一款非关系型，key-value存储的内存数据库，Redis数据库完全在内存中，使用磁盘仅用于持久性。Redis的速度非常快，每秒能执行约11万集合，每秒约81000+条记录。支持丰富的数据类型：Redis支持字符串、列表、集合、有序集合散列数据类型，这使得它非常容易解决各种各样的问题。把redis看成java的一个hashmap你就入门…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 134
博客大数据

Spark- Linux下安装Spark

Spark- Linux下安装Spark 前期部署 1.JDK安装，配置PATH 可以参考之前配置hadoop等配置 2.下载spark-1.6.1-bin-hadoop2.6.tgz,并上传到服务器解压 [root@srv01 ~]# tar -xvzf spark-1.6.1-hadoop2.6.tgz /usr/spark-1.6.1-hadoop2.6 3.在 /usr 下…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 125
$Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.$

$Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.$
博客大数据

Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

报错 G:\APP\JDK\bin\java -Didea.launcher.port=7532 "-Didea.launcher.bin.path=G:\APP\IntelliJ IDEA\bin" -Dfile.encoding=UTF-8 -classpath "G:\APP\JDK\jre\lib\charsets.jar;G:\APP\JDK\…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 190
$Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.$

$Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.$
博客大数据

Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

运行 mport org.apache.log4j.{Level, Logger} import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /** * Created by Lee_Rz on 2017/8/30. */ object SparkDemo { def main(args: A…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 168
博客大数据

Zeppelin- Linux下安装Zeppelin

前期部署: 下载,解压,配置PATH环境(编辑/etc/profile文件,记得source一下该文件) zepplin配置参考文档:https://zeppelin.apache.org/docs/0.7.2/install/configuration.html 往conf/zeppelin-env.sh文件中添加端口号往底部添加 export ZEPPLELIN_PORT=8090 修改配置…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 127
博客大数据

Spark- Spark Yarn模式下跑yarn-client无法初始化SparkConext,Over usage of virtual memory

在spark yarn模式下跑yarn-client时出现无法初始化SparkContext错误. 17/09/27 16:17:54 INFO mapreduce.Job: Task Id : attempt_1428293579539_0001_m_000003_0, Status : FAILED Container [pid=7847,containerID=containe…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 104
博客大数据

Hadoop- Hadoop详解

首先所有知识以官网为准，所有的内容在官网上都有展示，所有的变动与改进，新增内容都以官网为准。hadoop.apache.org Hadoop是一个开源的可拓展的分布式并行处理计算平台，利用服务器集群根据用户的自定义业务逻辑，对海量数据进行分布式处理。Hadoop提供了一个可靠的共享存储和分析系统，Hadoop的核心三大组件有HDFS（分布式文件系统），MapReduce（分布式运算编程框架），YA…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 188
博客大数据

Hadoop- 分布式资源管理YARN架构讲解

YARN是分布式资源管理，每一台机器都要去管理该台计算机的资源，Yarn负责为MapReduce程序分配运算硬件资源。每一台机器的管理者叫 NodeManager，整个集群的管理者管理着整个集群的NodeManager，叫 ResourceManager。资源调度和资源隔离是YARN作为一个资源管理系统最重要和最基础的两个功能。资源调度由 ResourceManager 完成，而资源…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 144
博客大数据

Hadoop- HDFS的Safemode

Hadoop- HDFS的Safemode hadoop启动时，NameNode启动完后就开始进入安全模式，等待DataNode向NameNode发送block report ，当datanode blocks / total blocks = 99.99%，此时安全模式才会退出安全模式下的操作：可以查看文件系统的文件在安全模式期间我们有些操作是不能进行的，比如不能改变文件系统…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 121
博客大数据

Hadoop- MapReduce在实际应用中常见的调优

1、Reduce Task Number 通常来说一个block就对应一个map任务进行处理，reduce任务如果人工不去设置干预的话就一个reduce。reduce任务的个数可以通过在程序中设置 job.setNumReduceTasks(个数); ，也可在配置文件上设置reduce任务个数，默认为1，或者在代码config中配置 Configuration configura…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 104
博客大数据

Hadoop- 集群时间同步

集群的时间要同步 * 找一台机器时间服务器 * 所有的机器与这台机器时间进行定时的同步比如，每日十分钟，同步一次时间 # rpm -qa|grep ntp # vi /etc/ntp.conf # vi /etc/sysconfig/ntpd # Drop root to id 'ntp:ntp' by default. SYNC_HWCLOCK=yes OP…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 82
博客大数据

Hadoop- DistCp(分布式拷贝)

在实际的生产环境中，我们的企业都有测试集群和生产集群，有的比较大型的企业有多个版本的Hadoop 大数据集群，这时候有个这样的需求，各个集群上的资源需要进行迁移，比如说一些生产集群需要一些测试集群的数据，需要将测试集群的上的数据拷贝到生产集群，这时候就需要使用到分布式拷贝（Distributed Copy）. 比较常见的有不同集群之间的数据迁移 hadoop distcp <s…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 120
博客大数据

Hive- 大数据仓库Hive

什么是 Hive？ Hive 是由 FaceBook 开源用于解决少量数据结构化日志的数据统计。Hive是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能。Hive 处理的数据存储在 HDFS 上，分析数据的底层实现是 MapReduce ，执行程序运行的是YARN。构建在Hadoop之上的数据仓库：使用 HQL 作为查询接口使…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 85
博客大数据

Hive- Hive 的基本操作

创建数据库 create database db_hive; use db_hive; create database if not exists db_hive_02; create database if not exists db_hive_01 location '/user/rz_lee/warehouse/db_hive_01.db'; //指定数据库…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 135
博客大数据

Spark- Spark基本工作原理

Spark特点： 1.分布式 spark读取数据时是把数据分布式存储到各个节点内存中 2.主要基于内存（少数情况基于磁盘，如shuffle阶段）所有计算操作，都是针对多个节点上内存的数据，进行并行操作的 3.迭代式计算对分布式节点内存中的数据进行处理，处理后的数据可能会移动到其他节点的内存中，当需要用到某些数据时，从这些节点的内存中就能找到，迭代出来使用 Spark与MapRed…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 120
博客大数据

Spark- Spark内核架构原理和Spark架构深度剖析

Spark内核架构原理 1.Driver 选spark节点之一，提交我们编写的spark程序，开启一个Driver进程，执行我们的Application应用程序，也就是我们自己编写的代码。Driver会根据我们对RDD定义的操作，提交一大堆的task去Executor上。Driver注册了一些Executor之后，就可以开始正式执行我们的Spark应用程序了，首先第一步，创建初始RD…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 95
博客大数据

Spark- Spark普通Shuffle操作的原理剖析

在spark中，什么情况下会发生shuffle？ reduceByKey，groupByKey，sortByKey，countByKey，join，cogroup等操作。默认的shuffle操作的原理剖析假设有一个节点上面运行了4个 ShuffleMapTask，然后这个节点上只有2个 cpu core。假如有另外一台节点，上面也运行了4个ResultTask，现在呢，正等着要去…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 79
博客大数据

Spark- 优化后的 shuffle 操作原理剖析

在spark新版本中，引入了 consolidation 机制，也就是说提出了ShuffleGroup的概念。一个 ShuffleMapTask 将数据写入 ResultTask 数量的本地文本，这个不会变。但是，当下一个 ShuffleMapTask 运行的时候，可以直接将数据写入之前的 ShuffleMapTask 的本地文件。相当于是，对多个 ShuffleMapTask 输出…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 78
博客大数据

Spark- Checkpoint原理剖析

Checkpoint，是Spark 提供的一个比较高级的功能。有的时候，比如说，我们的 Spark 应用程序，特别的复杂，然后从初始的RDD开始，到最后拯个应用程序完成，有非常多的步骤，比如超过20个transformation 操作。而且整个应用运行的时间也特别的长，比如通常要运行1-5小时。在上述的情况下，就比较适合使用checkpoint 功能。因为，对于特别复杂的 Spar…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 109
博客大数据

Spark- 性能优化

由于Spark 的计算本质是基于内存的，所以Spark的性能城西的性能可能因为集群中的任何因素出现瓶颈：CPU、网络带宽、或者是内存。如果内存能够容得下所有的数据，那么网络传输和通信就会导致性能出现频惊。但是如果内存比较紧张，不足以放下所有的数据（比如在针对10亿以上的数据量进行计算时），还是需要对内存的使用进行性能优化的，比如说使用一些手段来减少内存的消耗。 Spark性能优化，其…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 115
博客大数据

Hive- 表

在hive中表的类型：管理表和托管表（外部表）。内部表也称之为MANAGER_TABLE,默认存储在/user/hive/warehouse下，也可以通过location指定；删除表时，会删除表的数据以及元数据；外部表称之为EXTERNAL_TABLE。在创建表时可以自己指定目录位置（LOCATION），数据存储所在的目录；删除表时，只会删除元数据不会删除表数据；创建外部表实例…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 146
Java 博客大数据

JAVA- 数据库连接池原理

第一次Java程序要在MySQL中执行一条语句，那么就必须建立一个Connection对象，代表了与MySQL数据库的连接通过直接发送你要执行的SQL语句之后，就会调用Connection.close()来关闭和销毁与数据库的连接。为什么要立即关闭呢？因为数据库的连接是一种很重的资源，代表了网络连接、IO等资源。所以如果不是用的话就需要尽早关闭，以避免资源浪费。 JDBC的劣势与不足…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 110
博客大数据

HIVE- 数据倾斜

数据倾斜就是由于数据分布不均匀，数据大量集中到一点上，造成数据热点。大多数情况下，分为一下三种情况： 1.map端执行比较快，reduce执行很慢，因为partition造成的数据倾斜。 2.某些reduce很快，某些reduce很慢，也是因为partition造成的数据倾斜。 3.某些map执行很快，某些map执行很慢，这是因为数据本身的分布的不合理性造成的。造成上面reduce…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 85
博客大数据

Hadoop- MR的shuffle过程

step1 input InputFormat读取数据，将数据转换成<key ,value>对,设置FileInputFormat，默认是文本格式（TextInputFormat） step2 map map<KEYIN, VALUEIN, KEYOUT, VALUEOUT> 默认情况下KEYIN:LongWritable,偏移量。VALUEIN:Text，K…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 86
博客大数据

Hive- Hive 按时间定期插入分区表

写个shell脚本Hive 按时间定期插入分区表,由于今天统计的是昨天的数据所以日期减一。 #！/bin/bash DT=`date -d '-1 day' "+%Y-%m-%d"` #如果某天的数据有误需要重跑 if [ $1 ];then DT=$1 fi SQL=" insert overwrite table t…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 85
博客大数据

Storm- Storm作业提交运行流程

用户编写Storm Topology 使用client提交Topology给Nimbus Nimbus指派Task给Supervisor Supervisor为Task启动Worker Worker执行Task ...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 98
博客大数据

Kafka- Kafka架构功能

Kafka是一个高吞吐量的分布式消息系统，一个分布式的发布-订阅消息系统。Kafka是一种快速，可拓展的，设计内在就是分布式的，分区的可复制的提交日志服务。 Apache Kafka与传统消息系统相比，有以下不同：它设计为一个分布式系统，易于向外拓展；它同时为发布和订阅提供高吞吐量；它支持多订阅者，当失败时能自动平衡消费者；它将消息持久化到磁盘，因此可用于批量消费，例如ETL…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 69
博客大数据

Spark- RDD简介

Spark里面提供了一个比较重要的抽象——弹性分布式数据集（resilient distributed dataset），简称RDD。弹性：数据可大可小，可分布在内存或磁盘，当某台机器宕机时，能够按照RDD的liveage重新计算，从而恢复。 RDD有5个特性： 1.一个分区列表，用于并行计算，每个分区对应一个原子数据集，作为这个分区的数据输入 2.计算这个RDD某个分区数据（这个分…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 106
Python 博客

Python- 列表内置方法

列表，元组查索引(下标) ，都是从0开始切片 .count 查某个元素的出现次数 .index 根据内容找其对应的位置 "haidilao ge" in a 增加 a.append() 追加 a.insert(index, "内容") a.extend 扩展修改 a[index] = "新的值" a[start:en…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 140
博客大数据

Spark- SparkStreaming可更新状态的实例

Producer package zx.zx.sparkkafka import java.util.Properties import kafka.producer.{KeyedMessage, Producer, ProducerConfig} import scala.util.Random /** * Created by 166 on 2017/9/6. */ object…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 131
博客大数据

Spark- 计算每个学科最受欢迎的老师

日志类型测试数据 http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://java.myit.c…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 145
博客大数据

Spark- 流量日志分析

日志生成 package zx.Utils import java.io.{File, FileWriter} import java.util.Calendar import org.apache.commons.lang.time.{DateUtils, FastDateFormat} import scala.collection.mutable.ArrayBuffer imp…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 110
博客大数据

Hadoop- Hadoop运维小计

如果是新添加一个节点，需要执行以下步骤：首先，把新节点的 IP或主机名加入主节点（master）的 conf/slaves 文件。然后登录新的从节点，执行以下命令： $ cd Hadoop_path $ bin/hadoop-daemon.sh start datanode $ bin/hadoop-daemon.sh start tasktracker 然后就可…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 92
博客大数据

Hadoop- 集群启动详解

NameNode启动过程详解第一次启动：HDFS格式化后，生成fsimage文件 hdf ...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 78
博客大数据

HIVE- 新建UDF范例

首先pom文件导入依赖，Hadoop和hive的依赖导入自己机器的版本，hive记得导jdbc <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.6.1</v…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 103
博客大数据

Openldap- 大集群身份验证服务

无论在哪个行业，数据安全永远都是摆在首要地位。尤其是在大数据行业上，谁掌握了数据，谁就有可能成为下个亿万富豪的环境中，数据安全更为重要。大数据的安全可以从哪些地方入手，首先可以在身份验证上面入手。在大数据的集群设备上做好身份验证，可以使用openldap来做。唯有通过openldap管理的账号才能对大数据系统进行访问，没有通过openldap创建的账号是不能login到Hadoop…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 96
博客大数据

Linux- AWS之EC2大数据集群定时开关机

众所周知，云计算就是在计算你的钱，每当ec2开起来就要开始计费。当用户购买了一个庞大的与服务器做一个集群，尤其是用来做大数据集群，这些服务器的配置相当高，每台服务器所需要的费用不菲。其实在很多时候没能够完全利用起其全部的资源，尤其在空闲时间，在夜间没有作业的情况下，这些服务器完全处于空闲的状态，却时刻在计费，这是相当不划算的。于是有这样一个方案，我们是不是可以在机器处于空闲的状态时将…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 148

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部