全部标签

大数据

最新随机最多浏览最多喜欢最多评论

分类：
开源软件大数据数据存储可视化

SpringBoot- springboot集成Redis出现报错：No qualifying bean of type ‘org.springframework.data.redis.connection.RedisConnectionFactory’

Springboot将accessToke写入Redisk 缓存，springboot集成Redis出现报错 No qualifying bean of type 'org.springframework.data.redis.connection.RedisConnectionFactory' 原因：我们在pom.xml中引入了spring-boo…
博客
- 0
- 0
- 446
牛肉丸没牛肉19年8月18日
华为发布 Volcano 开源项目，方便 AI、大数据、基因、渲染等诸多行业通用计算框架接入

Volcano 是基于 Kubernetes 的批处理系统，源自于华为云 AI 容器。Volcano 方便 AI、大数据、基因、渲染等诸多行业通用计算框架接入，提供高性能任务调度引擎，高性能异构芯片管理，高性能任务运行管理等能力。授权协议: Apache 开发语言: Google Go 操作系统: Linux 开发厂商: 华为整体架构 Volcano 提供一整套目前 K8S 在批量和弹性工作负…
博客
- 0
- 0
- 286
hunterho19年7月3日
CDH- CDH大数据集群运维

CDH前端CM监控不正常（未解决） Request to the Service Monitor failed. This may cause slow page responses. View the status of the Service Monitor. Request to the Host Monitor failed. This may cause sl…
博客
- 0
- 0
- 264
牛肉丸没牛肉19年8月18日
Hadoop- Namenode经常挂掉 IPC’s epoch 9 is less than the last promised epoch 10

如题出现Namenode经常挂掉 IPC's epoch 9 is less than the last promised epoch 10， 2019-01-03 05:36:14,774 INFO org.apache.hadoop.hdfs.StateChange: BLOCK* allocate blk_1073741949_1131{UCState=…
博客
- 0
- 0
- 239
牛肉丸没牛肉19年8月18日
TinyMCE v4.5.0 可视化HTML编辑器

资源简介：TinyMCE是一个轻量级的基于浏览器的所见即所得编辑器，支持目前流行的各种浏览器，采用JavaScript/ECMAScript开发，主要特性包括主题/模板支持，多语言支持(包括简体中文)，支持通过插件的方式进行扩展。功能配置灵活简单（两行代码就可以将编辑器嵌入网页中），支持AJAX。另一特点是加载速度非常快，如果你的服务器采用的脚本语言是 PHP，那还可以进一步优化。最重要的是，Ti…
JavaScript
- 0
- 0
- 227
summer19年7月25日
Python- NumPy

NumPy包括的内容 NumPy系统是 Python的一种开源的数值计算扩展,是一个用 python实现的科学计算包。包括：一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组,称为 ndarray(N-dimensional array object ) 用于对整组数据进行快速运算的标准数学函数, func( universal function object) 用于整…
Python
- 0
- 0
- 226
牛肉丸没牛肉19年8月18日
Hadoop- HDFS的API操作

1、引入依赖 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.6.1</version> </dependency> 注：如需手动引入ja…
博客
- 0
- 0
- 193
牛肉丸没牛肉19年8月18日
$Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.$
Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

报错 G:\APP\JDK\bin\java -Didea.launcher.port=7532 "-Didea.launcher.bin.path=G:\APP\IntelliJ IDEA\bin" -Dfile.encoding=UTF-8 -classpath "G:\APP\JDK\jre\lib\charsets.jar;G:\APP\JDK\…
博客
- 0
- 0
- 190
牛肉丸没牛肉19年8月17日
Hadoop- Hadoop详解

首先所有知识以官网为准，所有的内容在官网上都有展示，所有的变动与改进，新增内容都以官网为准。hadoop.apache.org Hadoop是一个开源的可拓展的分布式并行处理计算平台，利用服务器集群根据用户的自定义业务逻辑，对海量数据进行分布式处理。Hadoop提供了一个可靠的共享存储和分析系统，Hadoop的核心三大组件有HDFS（分布式文件系统），MapReduce（分布式运算编程框架），YA…
博客
- 0
- 0
- 188
牛肉丸没牛肉19年8月18日
Sqooop- 使用Sqoop进行数据的导入导出

Sqoop是Apache旗下的一个开源框架，专门用来做数据的导入和导出。官网:https://sqoop.apache.org/ Sqoop的安装非常简单，只需要把下载下来的tar包解压设置两个环境变量就可以了 1.安装部署下载版本：sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 官网：http://mirror.bit.edu.cn/apa…
博客
- 0
- 0
- 185
牛肉丸没牛肉19年8月17日
可视化数据库管理平台：DBeaver 7.0.3

DBeaver 是一个可视化通用的数据库管理工具和 SQL 客户端，支持 MySQL, PostgreSQL, Oracle, DB2, MSSQL, Sybase, Mimer, HSQLDB, Derby, 以及其他兼容 JDBC 的数据库。 DBeaver 提供一个图形界面用来查看数据库结构、执行 SQL 查询和脚本，浏览和导出数据，处理 BLOB/CLOB 数据，修改数据库结构等等。 …
企业应用
- 0
- 0
- 181
summer20年4月20日
Spark- 根据ip地址计算归属地

主要考察的是广播变量的使用： 1、将要广播的数据 IP 规则数据存放在HDFS上，（广播出去的内容一旦广播出去产就不能改变了，如果需要实时改变的规则，可以将规则放到Redis中） 2、在Spark中转成RDD，然后收集到Driver端， 3、把 IP 规则数据广播到Executor中。Driver端广播变量的引用是怎样跑到 Executor中的呢?　　Task在Driver端生成的，…
博客
- 0
- 0
- 179
牛肉丸没牛肉19年8月18日
Architect v2.0.6_HTML网站在线生成器

资源简介：Architect是功能强大且易于使用的HTML静态网站在线生成器，它除了具有HTML静态网站在线生成的功能，同时还提供独特的功能，如主题和模板的选择，干净整洁的代码，最佳的可视化CSS和图像编辑器以及更多更多的功能。Architect 网站在线生成器功能特性易于安装、订阅/账单、外观编辑、文本编辑器、高级拖放功能、完整的文档、上下文菜单、可翻译、多种元素、在线CSS编辑器、发布或导出…
可视化
- 0
- 0
- 179
typhoon19年8月6日
Spark-Spark setMaster & WordCount Demo

Spark setMaster源码 /** * The master URL to connect to, such as "local" to run locally with one thread, "local[4]" to * run locally with 4 cores, or "spark://master:7077&…
博客
- 0
- 0
- 176
牛肉丸没牛肉19年8月18日
Zookeeper- Error contacting service. It is probably not running解决方案和原理

搭建启动Zookeeper集群出现Error contacting service. It is probably not running解决方案和原理 1.关闭防火墙 1 2 3 4 [root@srv01 bin]# zkServer.sh start JMX enabled by default Using config: /usr/zookeeper/bin/../con…
博客
- 0
- 0
- 172
牛肉丸没牛肉19年8月17日
Spark- 求最受欢迎的TopN课程

数据库操作工具类 package com.rz.mobile_tag.utils import java.sql.{Connection, DriverManager, PreparedStatement} object MySQLUtils { /** * 获取数据库连接 * @return */ def getConnection()={ DriverManager.getCon…
博客
- 0
- 0
- 168
牛肉丸没牛肉19年8月18日
$Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.$
Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

运行 mport org.apache.log4j.{Level, Logger} import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /** * Created by Lee_Rz on 2017/8/30. */ object SparkDemo { def main(args: A…
博客
- 0
- 0
- 168
牛肉丸没牛肉19年8月18日
可视化物联网编排工具Node-RED 1.0 发布

Node-RED 是 IBM 新兴技术服务团队构建的可视化物联网编排工具，可基于浏览器的流程编辑器连接设备、服务器和 API 应用。Node-RED 1.0 已经发布，内容如下：异步消息传递：此版本将节点间传递的消息更改为始终是异步的，而不是有时是异步的，有时是同步的，具体取决于各个节点的实现Node Send API：现在节点可以使用一个新的 API 来处理运行时中的消息异…
博客
- 0
- 0
- 164
hunterho19年10月2日
Apache Kudu 1.10.0 发布，Hadoop 生态数据存储系统

Apache Kudu 1.10.0 发布了，Kudu 是一个支持结构化数据的开源存储引擎，具有低延迟随机读取与高效分析读取模式。它基于 Apache Hadoop 生态系设计，并支持与 Apache 软件基金会其它数据分析项目集成。此版本带来的新特性包括： Kudu 现在通过使用 Apache Spark 实现的作业支持完整和增量表备份。此外，它还支持通过使用 Apache Spark 实现的…
博客
- 0
- 0
- 162
summer19年7月12日
Spark- 共享变量

Shared Variables Normally, when a function passed to a Spark operation (such as map or reduce) is executed on a remote cluster node, it works on separate copies of all the variables used in the…
博客
- 0
- 0
- 158
牛肉丸没牛肉19年8月18日
CDH- 测试mr

cdh的mr样例算法的jar包在 [zc.lee@ip-172-32-1-221 hadoop-0.20-mapreduce]$ pwd /opt/cloudera/parcels/CDH-5.10.0-1.cdh5.10.0.p0.41/lib/hadoop-0.20-mapreduce 查看该目录下的文件 [zc.lee@ip-172-32-1-221 hadoop-0.20-m…
博客
- 0
- 0
- 149
牛肉丸没牛肉19年8月18日
Linux- AWS之EC2大数据集群定时开关机

众所周知，云计算就是在计算你的钱，每当ec2开起来就要开始计费。当用户购买了一个庞大的与服务器做一个集群，尤其是用来做大数据集群，这些服务器的配置相当高，每台服务器所需要的费用不菲。其实在很多时候没能够完全利用起其全部的资源，尤其在空闲时间，在夜间没有作业的情况下，这些服务器完全处于空闲的状态，却时刻在计费，这是相当不划算的。于是有这样一个方案，我们是不是可以在机器处于空闲的状态时将…
博客
- 0
- 0
- 148
牛肉丸没牛肉19年8月18日
可视化开发laravel应用 Redprint Laravel App Builder CRUD Generator Plus v1.6.32 有安装指导

资源简介：Redprint App Builder is your app development flow on steroid! It’s your perfect Laravel CRUD Booster and App Builder. It has everything from it’s own Terminal Emulator, A Very powerful File Brows…
可视化
- 0
- 0
- 147
typhoon19年8月12日
Hive- 表

在hive中表的类型：管理表和托管表（外部表）。内部表也称之为MANAGER_TABLE,默认存储在/user/hive/warehouse下，也可以通过location指定；删除表时，会删除表的数据以及元数据；外部表称之为EXTERNAL_TABLE。在创建表时可以自己指定目录位置（LOCATION），数据存储所在的目录；删除表时，只会删除元数据不会删除表数据；创建外部表实例…
博客
- 0
- 0
- 146
牛肉丸没牛肉19年8月18日
Spark- 计算每个学科最受欢迎的老师

日志类型测试数据 http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://bigdata.myit.com/zhangsan http://java.myit.c…
博客
- 0
- 0
- 145
牛肉丸没牛肉19年8月18日
Hadoop- 分布式资源管理YARN架构讲解

YARN是分布式资源管理，每一台机器都要去管理该台计算机的资源，Yarn负责为MapReduce程序分配运算硬件资源。每一台机器的管理者叫 NodeManager，整个集群的管理者管理着整个集群的NodeManager，叫 ResourceManager。资源调度和资源隔离是YARN作为一个资源管理系统最重要和最基础的两个功能。资源调度由 ResourceManager 完成，而资源…
博客
- 0
- 0
- 144
牛肉丸没牛肉19年8月18日
Hive- Hive Web Interface

当我们安装好hive时候，我们启动hive的UI界面的时候，命令: hive –-service hwi ，报错，没有war包我们查看hive/conf/hive-default.xml.template，查找hwi 把这3台属性复制，添加到hive-site.xml里面， vim hive-site.xml <property> <name>hive.hw…
博客
- 0
- 0
- 140
牛肉丸没牛肉19年8月17日
Spark- Spark从SFTP中读取zip压缩文件数据做计算

我们遇到个特别的需求，一个数据接入的流程跑的太慢，需要升级为用大数据方式去处理，提高效率。数据：数据csv文件用Zip 压缩后放置在SFTP中数据来源： SFTP 数据操作：文件和它的压缩包一致，后缀不同。文件名中包含渠道、日期、操作标记("S"追加,"N"全量,"D"删除) 升级前的操作方式： she…
博客
- 0
- 0
- 140
牛肉丸没牛肉19年8月18日
激活idea2018

首先下载安装完成后，打开hosts文件，新增一条路由： 0.0.0.0 account.jetbrains.com 打开软件输入序列码： EB101IWSWD-eyJsaWNlbnNlSWQiOiJFQjEwMUlXU1dEIiwibGljZW5zZWVOYW1lIjoibGFuIHl1IiwiYXNzaWduZWVOYW1lIjoiIiwiYXNzaWduZWVFbWFpbCI6I…
博客
- 0
- 0
- 137
牛肉丸没牛肉19年8月18日
Hadoop HA- hadoop集群部署

前期部署，至少准备3台服务器（可以是虚拟机） 1、linux系统环境准备 ip地址配置 hostname配置 hosts映射配置关闭防火墙 service iptables stop ,也可以设置防火墙不开机自启动 chkconfig iptables off init启动级别修改 2.java环境的配置上传jdk，解压，修改/etc/profile 3.zookeeper集群…
博客
- 0
- 0
- 136
牛肉丸没牛肉19年8月17日
Hive- Hive 的基本操作

创建数据库 create database db_hive; use db_hive; create database if not exists db_hive_02; create database if not exists db_hive_01 location '/user/rz_lee/warehouse/db_hive_01.db'; //指定数据库…
博客
- 0
- 0
- 135
牛肉丸没牛肉19年8月18日
Redis- 内存数据库Redis之安装部署

内存数据库Redis之安装部署 Redis是一款非关系型，key-value存储的内存数据库，Redis数据库完全在内存中，使用磁盘仅用于持久性。Redis的速度非常快，每秒能执行约11万集合，每秒约81000+条记录。支持丰富的数据类型：Redis支持字符串、列表、集合、有序集合散列数据类型，这使得它非常容易解决各种各样的问题。把redis看成java的一个hashmap你就入门…
博客
- 0
- 0
- 134
牛肉丸没牛肉19年8月17日
Spark- 使用第三方依赖解析IP地址

使用 github上已有的开源项目 1)git clone https://github.com/wzhe06/ipdatabase.git 2)编译下载的项目: mvn clean package- DskipTests 3)安装jar包到自己的 maven仓库 mvn install: install-file -Dfile=${编译的jar包路径}/target/ipdatab…
博客
- 0
- 0
- 133
牛肉丸没牛肉19年8月18日
Python- 贪婪与非贪婪

python运行匹配时，如果没有人为限定，默认是贪婪模式。 import re a = 'python 22222java34bigdata' r = re.findall('[a-z]{3}',a) # 打印三个字符 rr = re.findall('[a-z]{3,6}',a) # 匹配到的长度最小为3，最长不能超过 r…
Python
- 0
- 0
- 133
牛肉丸没牛肉19年8月18日
Spark- SparkSQL中 Row.getLong 出现NullPointerException错误的处理方法

在SparkSQL中获取Row的值，而且Row的字段允许null时，在取值的时候取到null赋值给新的变量名会报NullPointerException错误，可以先用row.isNullAt(index)去判断该字段的值是否为空首先上错误修改为先初始化变量，判断row.isNullAt(6) 如果不为空就将值赋值给变量
博客
- 0
- 0
- 133
牛肉丸没牛肉19年8月18日
HIVE- 大数据运维之hive管理

我现在在一家公司负责大数据平台（CDH平台）的运维管理，最常遇见的问题我总结出来，并且继续在下面更新。希望方便自己以后trouble shooting以及方便各位同行解决问题与学习。关于做运维有几个重要的要点一定一定要遵守的：遇到问题冷静，冷静，冷静，就山崩都要冷静，心态关乎你是否能将问题解决同时不会给人留下不好的印象。凡是关于对集群更改与变动的操作，一定要在测试环境测试到没问…
博客
- 0
- 0
- 133
牛肉丸没牛肉19年8月18日