全部标签

大数据

最新随机最多浏览最多喜欢最多评论

分类：
开源软件大数据数据存储可视化

Hadoop- 分布式资源管理YARN架构讲解

YARN是分布式资源管理，每一台机器都要去管理该台计算机的资源，Yarn负责为MapReduce程序分配运算硬件资源。每一台机器的管理者叫 NodeManager，整个集群的管理者管理着整个集群的NodeManager，叫 ResourceManager。资源调度和资源隔离是YARN作为一个资源管理系统最重要和最基础的两个功能。资源调度由 ResourceManager 完成，而资源…
博客
- 0
- 0
- 144
牛肉丸没牛肉19年8月18日
Hadoop- Hadoop详解

首先所有知识以官网为准，所有的内容在官网上都有展示，所有的变动与改进，新增内容都以官网为准。hadoop.apache.org Hadoop是一个开源的可拓展的分布式并行处理计算平台，利用服务器集群根据用户的自定义业务逻辑，对海量数据进行分布式处理。Hadoop提供了一个可靠的共享存储和分析系统，Hadoop的核心三大组件有HDFS（分布式文件系统），MapReduce（分布式运算编程框架），YA…
博客
- 0
- 0
- 188
牛肉丸没牛肉19年8月18日
Spark- Spark Yarn模式下跑yarn-client无法初始化SparkConext,Over usage of virtual memory

在spark yarn模式下跑yarn-client时出现无法初始化SparkContext错误. 17/09/27 16:17:54 INFO mapreduce.Job: Task Id : attempt_1428293579539_0001_m_000003_0, Status : FAILED Container [pid=7847,containerID=containe…
博客
- 0
- 0
- 104
牛肉丸没牛肉19年8月18日
Zeppelin- Linux下安装Zeppelin

前期部署: 下载,解压,配置PATH环境(编辑/etc/profile文件,记得source一下该文件) zepplin配置参考文档:https://zeppelin.apache.org/docs/0.7.2/install/configuration.html 往conf/zeppelin-env.sh文件中添加端口号往底部添加 export ZEPPLELIN_PORT=8090 修改配置…
博客
- 0
- 0
- 127
牛肉丸没牛肉19年8月18日
$Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.$
Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

运行 mport org.apache.log4j.{Level, Logger} import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /** * Created by Lee_Rz on 2017/8/30. */ object SparkDemo { def main(args: A…
博客
- 0
- 0
- 168
牛肉丸没牛肉19年8月18日
$Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.$
Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

报错 G:\APP\JDK\bin\java -Didea.launcher.port=7532 "-Didea.launcher.bin.path=G:\APP\IntelliJ IDEA\bin" -Dfile.encoding=UTF-8 -classpath "G:\APP\JDK\jre\lib\charsets.jar;G:\APP\JDK\…
博客
- 0
- 0
- 190
牛肉丸没牛肉19年8月17日
Spark- Linux下安装Spark

Spark- Linux下安装Spark 前期部署 1.JDK安装，配置PATH 可以参考之前配置hadoop等配置 2.下载spark-1.6.1-bin-hadoop2.6.tgz,并上传到服务器解压 [root@srv01 ~]# tar -xvzf spark-1.6.1-hadoop2.6.tgz /usr/spark-1.6.1-hadoop2.6 3.在 /usr 下…
博客
- 0
- 0
- 125
牛肉丸没牛肉19年8月17日
Redis- 内存数据库Redis之安装部署

内存数据库Redis之安装部署 Redis是一款非关系型，key-value存储的内存数据库，Redis数据库完全在内存中，使用磁盘仅用于持久性。Redis的速度非常快，每秒能执行约11万集合，每秒约81000+条记录。支持丰富的数据类型：Redis支持字符串、列表、集合、有序集合散列数据类型，这使得它非常容易解决各种各样的问题。把redis看成java的一个hashmap你就入门…
博客
- 0
- 0
- 134
牛肉丸没牛肉19年8月17日
Hadoop- 流量汇总程序之如何实现hadoop的序列化接口及代码实现

流量汇总程序需求统计每一个用户（手机号）锁耗费的总上行流量、下行流量、总流量。流程剖析阶段：map 读取一行数据，切分字段，抽取手机号，上行流量，下行流量 context.write(手机号，bean) 阶段：reduce 汇总遍历每个bean，将其中的上行流量，下行流量分别累加，得到一个新的bean context.write(手机号，新bean)；代码实现…
博客
- 0
- 0
- 112
牛肉丸没牛肉19年8月17日
Hadoop- Wordcount程序原理及代码实现

如果对Hadoop- MapReduce分布式计算框架原理还不熟悉的可以先了解一下它，因为本文的wordcount程序实现就是MapReduce分而治之最经典的一个范例。单词计数（wordcount）主要步骤： 1.读数据 2.按行处理 3.按空格切分行内单词 4.HashMap（单词，value+1）等分给自己的数据片全部读取完之后 5.将HashMap按照首字母范围分为3个H…
博客
- 0
- 0
- 126
牛肉丸没牛肉19年8月17日
Hadoop- MapReduce分布式计算框架原理

分布式计算：原则：移动计算而尽可能减少移动数据（减少网络开销）分布式计算其实就是将单台机器上的计算拓展到多台机器上并行计算。 MapReduce是一种编程模型。Hadoop MapReduce采用Master/slave 结构。只要按照其编程规范，只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序。核心思想是：分而治之。Mapper负责分，把一个复杂的业务，任…
博客
- 0
- 0
- 126
牛肉丸没牛肉19年8月17日
Hadoop- NameNode和Secondary NameNode元数据管理机制

元数据的存储机制A、内存中有一份完整的元数据(内存meta data)B、磁盘有一个“准完整”的元数据镜像（fsimage）文件(在namenode的工作目录中)C、用于衔接内存metadata和持久化元数据镜像fsimage之间的操作日志（edits文件）NameNode和Secondary NameNode元数据管理机制客户端每次对文件的操作，如果涉及到元数据的更新（读除外），比如…
博客
- 0
- 0
- 92
牛肉丸没牛肉19年8月17日
Sqooop- 使用Sqoop进行数据的导入导出

Sqoop是Apache旗下的一个开源框架，专门用来做数据的导入和导出。官网:https://sqoop.apache.org/ Sqoop的安装非常简单，只需要把下载下来的tar包解压设置两个环境变量就可以了 1.安装部署下载版本：sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 官网：http://mirror.bit.edu.cn/apa…
博客
- 0
- 0
- 185
牛肉丸没牛肉19年8月17日
Hive- Hive Web Interface

当我们安装好hive时候，我们启动hive的UI界面的时候，命令: hive –-service hwi ，报错，没有war包我们查看hive/conf/hive-default.xml.template，查找hwi 把这3台属性复制，添加到hive-site.xml里面， vim hive-site.xml <property> <name>hive.hw…
博客
- 0
- 0
- 140
牛肉丸没牛肉19年8月17日
Hive- Hive安装

Hive安装 1.1下载Hive安装包官网：http://hive.apache.org/downloads.html 个人建议到这里下载：http://apache.forsale.plus/ 1.2将hive文件上传到HADOOP集群，并解压将文件上传到 /usr ，解压 tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /usr/ 重命名:…
博客
- 0
- 0
- 118
牛肉丸没牛肉19年8月17日
Hadoop HA- hadoop集群部署

前期部署，至少准备3台服务器（可以是虚拟机） 1、linux系统环境准备 ip地址配置 hostname配置 hosts映射配置关闭防火墙 service iptables stop ,也可以设置防火墙不开机自启动 chkconfig iptables off init启动级别修改 2.java环境的配置上传jdk，解压，修改/etc/profile 3.zookeeper集群…
博客
- 0
- 0
- 136
牛肉丸没牛肉19年8月17日
大数据之路- Hadoop环境搭建（Linux）

前期部署 1.JDK 2.上传HADOOP安装包 2.1官网：http://hadoop.apache.org/ 2.2下载hadoop-2.6.1的这个tar.gz文件，官网： https://archive.apache.org/dist/hadoop/common/hadoop-2.6.1/ 下载成功后，把这个tar.gz包上传到服务器上，命令：通…
博客
- 0
- 0
- 114
牛肉丸没牛肉19年8月17日
Hadoop HA- zookeeper安装配置

安装集群 1.1 虚拟机： 3台安装好JDK的centos Linux虚拟机 1.2 安装包：把下载好的zookeeper安装包，官网：http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.8/ 上传到服务器。 1.3解压 tar –xvzf zookeeper-3.4.8.tar.gz ，解压后放进 /usr/ 即可 …
博客
- 0
- 0
- 81
牛肉丸没牛肉19年8月17日
Zookeeper- Error contacting service. It is probably not running解决方案和原理

搭建启动Zookeeper集群出现Error contacting service. It is probably not running解决方案和原理 1.关闭防火墙 1 2 3 4 [root@srv01 bin]# zkServer.sh start JMX enabled by default Using config: /usr/zookeeper/bin/../con…
博客
- 0
- 0
- 172
牛肉丸没牛肉19年8月17日
大数据- 自定义Log4j日记

1.新建一个java project，在src下新建一个lib文件夹和 rescources 文件夹，resources文件夹不能命名错误。点击File——》project Structure...打开根据下图操作把相关jar包放进lib文件夹里并绑定。新建一个java文件 Log4jTest.java 和 HadoopLog4j.java 1 2 3 4 5 6…
博客
- 0
- 0
- 61
牛肉丸没牛肉19年8月17日
Hadoop- Hadoop环境搭建

Windows下Hadoop的安装准备工具：64位的JDK,Hadoop安装包（我使用的是2.6.1） JDK下载地址官网： http://www.oracle.com/technetwork/java/javase/downloads/index.html Hadoop下载地址官网：http://hadoop.apache.org/ 1.安装JDK环境，配置系统环境变量. 选…
博客
- 0
- 0
- 94
牛肉丸没牛肉19年8月17日
可视化开发laravel应用 Redprint Laravel App Builder CRUD Generator Plus v1.6.32 有安装指导

资源简介：Redprint App Builder is your app development flow on steroid! It’s your perfect Laravel CRUD Booster and App Builder. It has everything from it’s own Terminal Emulator, A Very powerful File Brows…
可视化
- 0
- 0
- 147
typhoon19年8月12日
Architect v2.0.6_HTML网站在线生成器

资源简介：Architect是功能强大且易于使用的HTML静态网站在线生成器，它除了具有HTML静态网站在线生成的功能，同时还提供独特的功能，如主题和模板的选择，干净整洁的代码，最佳的可视化CSS和图像编辑器以及更多更多的功能。Architect 网站在线生成器功能特性易于安装、订阅/账单、外观编辑、文本编辑器、高级拖放功能、完整的文档、上下文菜单、可翻译、多种元素、在线CSS编辑器、发布或导出…
可视化
- 0
- 0
- 179
typhoon19年8月6日
CapitalOne 和 GitHub 因数据泄露事件遭遇集体诉讼

来自 thehill 的消息：CapitalOne 和 GitHub 因近期的数据泄露事件而遭遇集体诉讼，事件导致 CapitalOne 泄露超过 1 亿条客户数据。 Tycko＆Zavareei LLP 律师事务所周四提起诉讼，辩称 GitHub 和 CapitalOne 在对违规行为的回应中表现出疏忽。该公司代表受违规行为影响的人提起集体诉讼，指控两家公司未能保护客户数据。在 Capital…
博客
- 0
- 0
- 97
hunterho19年8月3日
TinyMCE v4.5.0 可视化HTML编辑器

资源简介：TinyMCE是一个轻量级的基于浏览器的所见即所得编辑器，支持目前流行的各种浏览器，采用JavaScript/ECMAScript开发，主要特性包括主题/模板支持，多语言支持(包括简体中文)，支持通过插件的方式进行扩展。功能配置灵活简单（两行代码就可以将编辑器嵌入网页中），支持AJAX。另一特点是加载速度非常快，如果你的服务器采用的脚本语言是 PHP，那还可以进一步优化。最重要的是，Ti…
JavaScript
- 0
- 0
- 227
summer19年7月25日
Apache Kudu 1.10.0 发布，Hadoop 生态数据存储系统

Apache Kudu 1.10.0 发布了，Kudu 是一个支持结构化数据的开源存储引擎，具有低延迟随机读取与高效分析读取模式。它基于 Apache Hadoop 生态系设计，并支持与 Apache 软件基金会其它数据分析项目集成。此版本带来的新特性包括： Kudu 现在通过使用 Apache Spark 实现的作业支持完整和增量表备份。此外，它还支持通过使用 Apache Spark 实现的…
博客
- 0
- 0
- 162
summer19年7月12日
华为发布 Volcano 开源项目，方便 AI、大数据、基因、渲染等诸多行业通用计算框架接入

Volcano 是基于 Kubernetes 的批处理系统，源自于华为云 AI 容器。Volcano 方便 AI、大数据、基因、渲染等诸多行业通用计算框架接入，提供高性能任务调度引擎，高性能异构芯片管理，高性能任务运行管理等能力。授权协议: Apache 开发语言: Google Go 操作系统: Linux 开发厂商: 华为整体架构 Volcano 提供一整套目前 K8S 在批量和弹性工作负…
博客
- 0
- 0
- 286
hunterho19年7月3日