全部标签

博客

最新随机最多浏览最多喜欢最多评论

Linux安装Scala(小白版)

一、下载Scala安装包从scala官方网站地址：http://www.scala-lang.org/download/下载scala二进制包，以2.12.6版本为例二、安装 1、将下载的二进制包移动到/usr/local目录，解压缩文件包 tar zxvf scala-2.12.6.tgz mv scala-2.12.6 scala //重命名目录 2、设置环境变量 vi /etc/pro…
博客
- 0
- 1
- 69
SparkGor19年8月1日
Hadoop Shell命令

谁拥有数据，谁就是下个亿万富翁
博客
- 0
- 0
- 156
牛肉丸没牛肉19年7月30日
生成树协议设置

1.spanning tree 恢复默认设置 1 spanning-tree reset　　使用该命令可以让 spanning tree 的参数恢复默认配置 2.打开、关闭交换机 Spanning Tree 协议 STP 在 VLAN 1 和所有新建的VLAN上默认是启用的，知道达到所定的生成树上限。只有当网络拓扑无环才禁用STP。当STP被禁用而网络中又出现环路时，大量的流量和不…
博客
- 0
- 0
- 84
牛肉丸没牛肉19年8月17日
Linux- 恢复.swp文件

当我们对Linux文件系统下的文件编辑时，很多新手老手都有可能出现一些失误，在对一个文件编辑或者改动，甚至是不小心按到键盘并没有发现改动到某处时，没有强制退出（：q！）就直接退出，导致文件变成了.swp后缀并隐藏起来。在对源文件编辑时提示你只读，还原，退出等等。输入 ls -a或 ll -a 可以看到刚刚在编辑的文件变成了隐藏文件。这时候想要恢复回原来的文件如何处理呢。不能通过直…
博客
- 0
- 0
- 84
牛肉丸没牛肉19年8月17日
Hadoop- MR的shuffle过程

step1 input InputFormat读取数据，将数据转换成<key ,value>对,设置FileInputFormat，默认是文本格式（TextInputFormat） step2 map map<KEYIN, VALUEIN, KEYOUT, VALUEOUT> 默认情况下KEYIN:LongWritable,偏移量。VALUEIN:Text，K…
博客
- 0
- 0
- 63
牛肉丸没牛肉19年8月18日
Spring- 异常org.xml.sax.SAXParseException; systemId: http://www.springframework.org/schema/context/; lineNumber: 1; columnNumber: 55; 在 publicId 和 systemId 之间需要有空格。

抛出异常 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 六月 03, 2018 7:40:44 下午 org…
Java
- 0
- 0
- 122
牛肉丸没牛肉19年8月18日
Spark- 根据ip地址计算归属地

主要考察的是广播变量的使用： 1、将要广播的数据 IP 规则数据存放在HDFS上，（广播出去的内容一旦广播出去产就不能改变了，如果需要实时改变的规则，可以将规则放到Redis中） 2、在Spark中转成RDD，然后收集到Driver端， 3、把 IP 规则数据广播到Executor中。Driver端广播变量的引用是怎样跑到 Executor中的呢?　　Task在Driver端生成的，…
博客
- 0
- 0
- 156
牛肉丸没牛肉19年8月18日
应用层各协议用的端口

在TCP/IP体系中应用层各协议用的端口端口号协议协议名称 20 FTP-DATA 文件传输协议数据 21 FTP 文件传输协议控制 23 TELENET 远程登录协议 25 SMPT 简单邮件传输协议 53 DOMAIN 域名服务器 80 HTTP 超文本传输协议 110 POP3 邮局协议 119 NNTP 新闻传输协议 67，68 BOOTP 引导程序协议基于TC…
博客
- 0
- 0
- 56
牛肉丸没牛肉19年8月17日
JAVA- 面向对象

程序的发展经历了两个主要阶段：面向过程、面向对象。面向对象是当前软件开发的主流。面向过程就是分析出解决所需要的步骤，然后用函数将这些步骤一步一步实现，使用的时候一个一个一次调用。面向对象是把构成问题的事务分解成各个对象。建立对象的目的不是为了完成一个步骤而是为了描述某个事物在整个解决问题步骤中的行为。面向对象是为了专注在程序中采用封装、继承、多态等设计方法。面向对象的设计是一种…
Java
- 0
- 0
- 87
牛肉丸没牛肉19年8月17日
$Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.$
Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

运行 mport org.apache.log4j.{Level, Logger} import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /** * Created by Lee_Rz on 2017/8/30. */ object SparkDemo { def main(args: A…
博客
- 0
- 0
- 143
牛肉丸没牛肉19年8月18日
Hadoop- 集群启动详解

NameNode启动过程详解第一次启动：HDFS格式化后，生成fsimage文件 hdf
博客
- 0
- 0
- 50
牛肉丸没牛肉19年8月18日
Storm- 使用Storm实现词频汇总

需求：读取指定目录的数据，并实现单词计数的功能实现方案： Spout来读取指定目录的数据，作为后续Bolt处理的input 使用一个Bolt把input 的数据，切割分开，我们按照逗号进分割使用一个Bolt来进行最终的单词次数统计操作并输出拓扑设计：DataSourceSpout ==>SpiltBolt ==>CountBolt Storm编程注意，…
博客
- 0
- 0
- 86
牛肉丸没牛肉19年8月18日
spark- PySparkSQL之PySpark解析Json集合数据

PySparkSQL之PySpark解析Json集合数据数据样本 12341234123412342|asefr-3423|[{"name":"spark","score":"65"},{"name":"airlow","score":&quo…
博客
- 0
- 0
- 81
牛肉丸没牛肉19年8月18日
园区网——网络架构

园区网是一种高密度用户的非运营网络，在有限地理空间内聚集了大量的终端和用户，网络的所有权归某个单位或机构私有，承载单位或机构内部的业务。通常，园区网止于公网（运营商网络）边缘，是一种私网。从网络覆盖规模看，园区网不属于城城网和广域网，本质上仍属于局域网，是多个局域网的互连，一般还涉及与英特网/广域网互连以及数据中心。若企事业单位有位于不同城市的分支机构，这些分支机构是不包含在总部园区网内的，各分…
博客
- 0
- 0
- 132
牛肉丸没牛肉19年8月17日
JAVA- 泛型

泛型是Java SE 1.5的新特性，泛型的本质是参数化类型，也就是说所操作的数据类型裸眼指定为一个参数。这种参数类型可以用在类、接口和方法的创建中，分别称为泛型类、泛型接口、泛型方法。Java语言引入泛型的好处是安全简单。泛型的定义。泛型可以解决数据类型的安全性问题，它主要的原理是在类声明的时候通过一个标识表示类中某个属性的类型或者是某个方法的返回值及参数类型，这样在类声明或实例…
Java
- 0
- 0
- 70
牛肉丸没牛肉19年8月17日
Hive- Hive 的基本操作

创建数据库 create database db_hive; use db_hive; create database if not exists db_hive_02; create database if not exists db_hive_01 location '/user/rz_lee/warehouse/db_hive_01.db'; //指定数据库…
博客
- 0
- 0
- 105
牛肉丸没牛肉19年8月18日
Docker-

Docker是容器技术的一个代表。容器技术从本质上讲是将程序隔离打包这么个技术。Docker解决了软件包装问题，很好的理顺了开发和运维环境的差异，使得开发和运维可以全用同种语言进行沟通。它是一个云计算的技术。 Docker是通过内核虚拟化技术（namespace及cgroups等）来提供容器的资源隔离与安全保障。由于Docker通过操作系统层的虚拟化实现隔离，所以Docker容器在运…
博客
- 0
- 0
- 64
牛肉丸没牛肉19年8月18日
Hadoop- Namenode经常挂掉 IPC’s epoch 9 is less than the last promised epoch 10

如题出现Namenode经常挂掉 IPC's epoch 9 is less than the last promised epoch 10， 2019-01-03 05:36:14,774 INFO org.apache.hadoop.hdfs.StateChange: BLOCK* allocate blk_1073741949_1131{UCState=…
博客
- 0
- 0
- 217
牛肉丸没牛肉19年8月18日
单机版Spark安装及PySpark环境配置

单机版Spark安装到官网http://archive.apache.org/dist/spark/ 下选择版本下载spark包，本次采用的是预编译版本选择spark-1.6.1-bin-hadoop2.6.tgz 解压到/opt/目录下 tar -xvzf spark-1.6.1-bin-hadoop2.6.tgz -C /opt/ [root@hdp spark-1.6.1-bin-had…
博客
- 0
- 0
- 171
牛肉丸没牛肉19年8月1日
Linux学习之路（一）命令基本格式

据统计Linxu里面能够识别的命令超过3000个，而我们常用的Linux基本命令在60个左右。常用命令是我们必须掌握的命令，需要我们多练习才能记住，最起码要敲3遍以上。简单的把常用命令分为以下几大类： Linux常用命令一、命令基本格式二、文件处理命令三、文件搜索命令四、帮助命令五、压缩与解压缩命令六、关机和重启命令七、其他常用命令一、命令基本格式 L…
博客
- 0
- 0
- 47
牛肉丸没牛肉19年8月17日
Hive- Hive安装

Hive安装 1.1下载Hive安装包官网：http://hive.apache.org/downloads.html 个人建议到这里下载：http://apache.forsale.plus/ 1.2将hive文件上传到HADOOP集群，并解压将文件上传到 /usr ，解压 tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /usr/ 重命名:…
博客
- 0
- 0
- 83
牛肉丸没牛肉19年8月17日
Hive- Hive 按时间定期插入分区表

写个shell脚本Hive 按时间定期插入分区表,由于今天统计的是昨天的数据所以日期减一。 #！/bin/bash DT=`date -d '-1 day' "+%Y-%m-%d"` #如果某天的数据有误需要重跑 if [ $1 ];then DT=$1 fi SQL=" insert overwrite table t…
博客
- 0
- 0
- 65
牛肉丸没牛肉19年8月18日
CDH- CDH大数据集群运维

CDH前端CM监控不正常（未解决） Request to the Service Monitor failed. This may cause slow page responses. View the status of the Service Monitor. Request to the Host Monitor failed. This may cause sl…
博客
- 0
- 0
- 237
牛肉丸没牛肉19年8月18日
Spark- 自定义排序

考察spark自定义排序方式一：自定义一个类继承Ordered和序列化，Driver端将数据变成RDD，整理数据转成自定义类类型的RDD，使用本身排序即可。 package com.rz.spark.base import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} // 自定…
博客
- 0
- 0
- 103
牛肉丸没牛肉19年8月18日