-
JAVA- 清除数组重复元素
清除数组重复元素并打印新数组。 1 import java.util.*; 2 public class Repeat { 3 4 public static void main(String[] args) { 5 // TODO Auto-generated method stub 6 int arr[]={10,1,2,3,2,1,10}; 7 arr=clearRepeat(…... 牛肉丸没牛肉
- 0
- 0
- 74
-
Spark- Linux下安装Spark
Spark- Linux下安装Spark 前期部署 1.JDK安装,配置PATH 可以参考之前配置hadoop等配置 2.下载spark-1.6.1-bin-hadoop2.6.tgz,并上传到服务器解压 [root@srv01 ~]# tar -xvzf spark-1.6.1-hadoop2.6.tgz /usr/spark-1.6.1-hadoop2.6 3.在 /usr 下…... 牛肉丸没牛肉
- 0
- 0
- 107
-
JAVA- 成员变量与局部变量的区别
成员变量与局部变量的区别 成员变量是定义在方法之外,类之内的 局部变量是定义在方法之内的。 作用上的区别: 1.成员变量的作用是用于描述一类事物的公共属性的。 2.局部变量的作用就是提供一个变量给方法内部使用而已。 生命周期的区别: 1.成员变量随着对象的创建而存在,随着对象的消失而消失。 2.局部变量在调用了对应的方法时执行到了创建该变量的语句时存在,局部变量一旦出了自己的作用域那…... 牛肉丸没牛肉
- 0
- 0
- 63
-
JQuery- JQuery学习
jQuery与JavaScript加载页面的区别 1.JavaScript传统的方式页面加载会存在覆盖问题,加载比jQuery慢(整个页面加载完毕<包含里面的其他内容,比如图片>) 2.jQuery的加载比JavaScript加载要快!(当整个dom数结构绘制完毕就会加载) 3.jQuery不存在覆盖问题,加载的时候是顺序执行 <!DOCTYPE html> …... 牛肉丸没牛肉
- 0
- 0
- 90
-
JAVA- 面向对象
程序的发展经历了两个主要阶段:面向过程、面向对象。面向对象是当前软件开发的主流。 面向过程就是分析出解决所需要的步骤,然后用函数将这些步骤一步一步实现,使用的时候一个一个一次调用。 面向对象是把构成问题的事务分解成各个对象。建立对象的目的不是为了完成一个步骤而是为了描述某个事物在整个解决问题步骤中的行为。 面向对象是为了专注在程序中采用封装、继承、多态等设计方法。面向对象的设计是一种…... 牛肉丸没牛肉
- 0
- 0
- 93
-
Python- 面向对象
# 面向对象 # 有意义的面向对象的代码 # 类 = 面向对象 # 类、对象 # 实例化 # 类最基本的作用:封装 class Student(): name = '' age = 0 def print_file(self): print('name:' + self.name ) print('age:' + str(s…... 牛肉丸没牛肉
- 0
- 0
- 132
-
MNEWS 主题如何设置 主题设置方法教学(Word文档)
资源简介:MNews主题是由萨龙龙所开发的一款WordPress网站程序自媒体主题模板,规划上精约、干净、精美、呼应式,功用上史无前例的有用强壮MNews 主题是一款简约新闻自媒体类的 WordPress 主题,设计上简约、干净、精致、响应式,功能上前所未有的实用强大,完善的用户中心(前台投稿、编辑草稿文章与个人资料),用户关注(可获取关注与粉丝用户,以及所关注用户的最新文章),文章与评论点赞(可…... summer
- 0
- 0
- 253
-
Kafka- Spark消费Kafka
在高版本的API中 val brokers = properties.getProperty("kafka.host.list") val topics = Set(properties.getProperty("kafka.application.topic")) val kafkaParams = Map[String, String]( …... 牛肉丸没牛肉
- 0
- 0
- 109
-
spark- PySparkSQL之PySpark解析Json集合数据
PySparkSQL之PySpark解析Json集合数据 数据样本 12341234123412342|asefr-3423|[{"name":"spark","score":"65"},{"name":"airlow","score":&quo…... 牛肉丸没牛肉
- 0
- 0
- 91
-
Python- 列表内置方法
列表,元组 查 索引(下标) ,都是从0开始 切片 .count 查某个元素的出现次数 .index 根据内容找其对应的位置 "haidilao ge" in a 增加 a.append() 追加 a.insert(index, "内容") a.extend 扩展 修改 a[index] = "新的值" a[start:en…... 牛肉丸没牛肉
- 0
- 0
- 131
-
大数据- 自定义Log4j日记
1.新建一个java project,在src下新建一个lib文件夹和 rescources 文件夹,resources文件夹不能命名错误。 点击File——》project Structure...打开根据下图操作 把相关jar包放进lib文件夹里并绑定。 新建一个java文件 Log4jTest.java 和 HadoopLog4j.java 1 2 3 4 5 6…... 牛肉丸没牛肉
- 0
- 0
- 55
-
Kafka- Kafka架构功能
Kafka是一个高吞吐量的分布式消息系统,一个分布式的发布-订阅消息系统。Kafka是一种快速,可拓展的,设计内在就是分布式的,分区的可复制的提交日志服务。 Apache Kafka与传统消息系统相比,有以下不同: 它设计为一个分布式系统,易于向外拓展; 它同时为发布和订阅提供高吞吐量; 它支持多订阅者,当失败时能自动平衡消费者; 它将消息持久化到磁盘,因此可用于批量消费,例如ETL…... 牛肉丸没牛肉
- 0
- 0
- 63
-
HIVE- 大数据运维之hive管理
我现在在一家公司负责大数据平台(CDH平台)的运维管理,最常遇见的问题我总结出来,并且继续在下面更新。希望方便自己以后trouble shooting以及方便各位同行解决问题与学习。 关于做运维有几个重要的要点一定一定要遵守的: 遇到问题冷静,冷静,冷静,就山崩都要冷静,心态关乎你是否能将问题解决同时不会给人留下不好的印象。 凡是关于对集群更改与变动的操作,一定要在测试环境测试到没问…... 牛肉丸没牛肉
- 0
- 0
- 119
-
Spark- RDD持久化
官方原文: RDD Persistence One of the most important capabilities in Spark is persisting (or caching) a dataset in memory across operations. When you persist an RDD, each node stores any partitions …... 牛肉丸没牛肉
- 0
- 0
- 115
-
Spark- 流量日志分析
日志生成 package zx.Utils import java.io.{File, FileWriter} import java.util.Calendar import org.apache.commons.lang.time.{DateUtils, FastDateFormat} import scala.collection.mutable.ArrayBuffer imp…... 牛肉丸没牛肉
- 0
- 0
- 100
-
Spark- 优化后的 shuffle 操作原理剖析
在spark新版本中,引入了 consolidation 机制,也就是说提出了ShuffleGroup的概念。一个 ShuffleMapTask 将数据写入 ResultTask 数量的本地文本,这个不会变。但是,当下一个 ShuffleMapTask 运行的时候,可以直接将数据写入之前的 ShuffleMapTask 的本地文件。相当于是,对多个 ShuffleMapTask 输出…... 牛肉丸没牛肉
- 0
- 0
- 67
-
Hadoop- 流量汇总程序之如何实现hadoop的序列化接口及代码实现
流量汇总程序需求 统计每一个用户(手机号)锁耗费的总上行流量、下行流量、总流量。 流程剖析 阶段:map 读取一行数据,切分字段, 抽取手机号,上行流量,下行流量 context.write(手机号,bean) 阶段:reduce 汇总遍历每个bean,将其中的上行流量,下行流量分别累加,得到一个新的bean context.write(手机号,新bean); 代码实现…... 牛肉丸没牛肉
- 0
- 0
- 100
-
Hive- Hive Web Interface
当我们安装好hive时候,我们启动hive的UI界面的时候,命令: hive –-service hwi ,报错,没有war包 我们查看hive/conf/hive-default.xml.template,查找hwi 把这3台属性复制,添加到hive-site.xml里面, vim hive-site.xml <property> <name>hive.hw…... 牛肉丸没牛肉
- 0
- 0
- 126
-
Spring- 通过Xml的方式完成Bean的实例化
传统应用程序可以通过反射方式进行实例化Bean,而Spring Ioc 容器则需要根据Bean定义的配置元数据使用反射机制来创建Bean。在Spring Ioc 容器中主要有以下几种创建Bean实例的方式: 使用构造器实例化Bean 使用静态工厂方式实例化Bean 使用实例工厂方法实例化Bean 使用空构造器实例化时,该类必须含有空参构造器,如果不存在的话在实例化过程中…... 牛肉丸没牛肉
- 0
- 0
- 141
-
Hadoop- Hadoop环境搭建
Windows下Hadoop的安装 准备工具:64位的JDK,Hadoop安装包(我使用的是2.6.1) JDK下载地址 官网: http://www.oracle.com/technetwork/java/javase/downloads/index.html Hadoop下载地址 官网:http://hadoop.apache.org/ 1.安装JDK环境,配置系统环境变量. 选…... 牛肉丸没牛肉
- 0
- 0
- 85
-
Spark- 性能优化
由于Spark 的计算本质是基于内存的,所以Spark的性能城西的性能可能因为集群中的任何因素出现瓶颈:CPU、网络带宽、或者是内存。如果内存能够容得下所有的数据,那么网络传输和通信就会导致性能出现频惊。但是如果内存比较紧张,不足以放下所有的数据(比如在针对10亿以上的数据量进行计算时),还是需要对内存的使用进行性能优化的,比如说使用一些手段来减少内存的消耗。 Spark性能优化,其…... 牛肉丸没牛肉
- 0
- 0
- 93
-
Spring- 异常org.xml.sax.SAXParseException; systemId: http://www.springframework.org/schema/context/; lineNumber: 1; columnNumber: 55; 在 publicId 和 systemId 之间需要有空格。
抛出异常 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 六月 03, 2018 7:40:44 下午 org…... 牛肉丸没牛肉
- 0
- 0
- 132
-
Spark- SparkSQL中 Row.getLong 出现NullPointerException错误的处理方法
在SparkSQL中获取Row的值,而且Row的字段允许null时,在取值的时候取到null赋值给新的变量名会报NullPointerException错误, 可以先用row.isNullAt(index)去判断该字段的值是否为空 首先上错误 修改为先初始化变量,判断row.isNullAt(6) 如果不为空就将值赋值给变量 ... 牛肉丸没牛肉
- 0
- 0
- 129
-
Anaconda常用命令大全
1.使用conda 首先我们将要确认你已经安装好了conda 配置环境 下一步我们将通过创建几个环境来展示conda的环境管理功能。使你更加轻松的了解关于环境的一切。我们将学习如何确认你在哪个环境中,以及如何做复制一个环境作为备份。 2.测试python 然后我们将检查哪一个版本的python可以被安装,以及安装另一个版本的python,还有在两个版本的python之间的切换。 检查包 1)我们将…... SparkGor
- 0
- 0
- 146
-
大数据之路- Hadoop环境搭建(Linux)
前期部署 1.JDK 2.上传HADOOP安装包 2.1官网:http://hadoop.apache.org/ 2.2下载hadoop-2.6.1的这个tar.gz文件,官网: https://archive.apache.org/dist/hadoop/common/hadoop-2.6.1/ 下载成功后,把这个tar.gz包上传到服务器上,命令: 通…... 牛肉丸没牛肉
- 0
- 0
- 98
-
Spark- Spark Yarn模式下跑yarn-client无法初始化SparkConext,Over usage of virtual memory
在spark yarn模式下跑yarn-client时出现无法初始化SparkContext错误. 17/09/27 16:17:54 INFO mapreduce.Job: Task Id : attempt_1428293579539_0001_m_000003_0, Status : FAILED Container [pid=7847,containerID=containe…... 牛肉丸没牛肉
- 0
- 0
- 96
-
HIVE- SCD缓慢变化维
SCD缓慢变化维,比如一个用户维表,用户属性会变化,但是不会变化很剧烈,可能一年只会变化一两次,也不会所有用户的属性都会有变化,只有少量的数据发生变化,所以叫缓慢变化维。这种问题就是由于维度的变化所造成的。 解决方式: 是否保留历史数据 保留多久历史数据 历史状态如何与事实表关联 SCD1 保留最新状态 注册日期 用户编号 手机号码 2019-01-01 0001 111111 20…... 牛肉丸没牛肉
- 0
- 0
- 80
-
Hive- Hive 的基本操作
创建数据库 create database db_hive; use db_hive; create database if not exists db_hive_02; create database if not exists db_hive_01 location '/user/rz_lee/warehouse/db_hive_01.db'; //指定数据库…... 牛肉丸没牛肉
- 0
- 0
- 119
-
HTTP- 头部信息
HTTP 头部信息由众多的头域组成,每个头域由一个域名,冒号(:)和域值三部分组成。域名是大小写无关的,域值前可以添加任何数量的空格符,头域可以被扩展为多行,在自每行开始处,使用至少一个空格或制表符。 通过浏览器访问博客园的时候,使用F12打开开发者工具,里面可以监控整个HTTP 访问的过程。下面分析下请求头: 在请求头中包含发下的内容: GET:代表的是请求方式,HTTP/1.1表…... 牛肉丸没牛肉
- 0
- 0
- 75
-
Hive- Hive 按时间定期插入分区表
写个shell脚本Hive 按时间定期插入分区表,由于今天统计的是昨天的数据所以日期减一。 #!/bin/bash DT=`date -d '-1 day' "+%Y-%m-%d"` #如果某天的数据有误需要重跑 if [ $1 ];then DT=$1 fi SQL=" insert overwrite table t…... 牛肉丸没牛肉
- 0
- 0
- 75
-
Hadoop- MapReduce在实际应用中常见的调优
1、Reduce Task Number 通常来说一个block就对应一个map任务进行处理,reduce任务如果人工不去设置干预的话就一个reduce。reduce任务的个数可以通过在程序中设置 job.setNumReduceTasks(个数); ,也可在配置文件上设置reduce任务个数,默认为1, 或者在代码config中配置 Configuration configura…... 牛肉丸没牛肉
- 0
- 0
- 96
-
Storm- Storm作业提交运行流程
用户编写Storm Topology 使用client提交Topology给Nimbus Nimbus指派Task给Supervisor Supervisor为Task启动Worker Worker执行Task ... 牛肉丸没牛肉
- 0
- 0
- 90
-
Linux下查看Python安装了哪些脚本模块
1.什么是rpm ? rpm 即RedHat Package Management,是RedHat的发明之一 。现在包括OpenLinux、fedora、S.u.S.E.以及Turbo Linux等Linux的分发版本都有采用 rpm -ql python... 牛肉丸没牛肉
- 0
- 0
- 115
-
JAVA- 数据库连接池原理
第一次Java程序要在MySQL中执行一条语句,那么就必须建立一个Connection对象,代表了与MySQL数据库的连接通过直接发送你要执行的SQL语句之后,就会调用Connection.close()来关闭和销毁与数据库的连接。为什么要立即关闭呢?因为数据库的连接是一种很重的资源,代表了网络连接、IO等资源。所以如果不是用的话就需要尽早关闭,以避免资源浪费。 JDBC的劣势与不足…... 牛肉丸没牛肉
- 0
- 0
- 99
-
Hadoop- Namenode经常挂掉 IPC’s epoch 9 is less than the last promised epoch 10
如题出现Namenode经常挂掉 IPC's epoch 9 is less than the last promised epoch 10, 2019-01-03 05:36:14,774 INFO org.apache.hadoop.hdfs.StateChange: BLOCK* allocate blk_1073741949_1131{UCState=…... 牛肉丸没牛肉
- 0
- 0
- 229
-
Springboot- Spring缓存抽象学习笔记
Spring缓存作用准备: 1、准备数据(准备一个有数据的库和表/导入数据库文件,准备好表和表里面的数据) 2、创建javaBean封装数据 3、整合MyBatis操作数据库( 这里用MyBatis) 1,配置数据源信息 2、使用注解版的MyBatis; 1)、@MapperScan指定需要扫描的Mapper接口所在的包 创建一个springboot项目 -》选择依赖(…... 牛肉丸没牛肉
- 0
- 0
- 144
-
Hive- Hive安装
Hive安装 1.1下载Hive安装包 官网:http://hive.apache.org/downloads.html 个人建议到这里下载:http://apache.forsale.plus/ 1.2将hive文件上传到HADOOP集群,并解压 将文件上传到 /usr ,解压 tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /usr/ 重命名:…... 牛肉丸没牛肉
- 0
- 0
- 99
-
Spark- SparkStreaming可更新状态的实例
Producer package zx.zx.sparkkafka import java.util.Properties import kafka.producer.{KeyedMessage, Producer, ProducerConfig} import scala.util.Random /** * Created by 166 on 2017/9/6. */ object…... 牛肉丸没牛肉
- 0
- 0
- 124
-
CDH- 集群时间同步ntp问题解决
在CDH集群中发现有两台机器获取不到心跳(),导致监控不了机器状态,出现告警 可以使用ntpstat检查与ntp 服务器的时间偏差状态 使用 ntpstat 发现没有同步到ntp时间服务器,运行 ntpdate ip 添加时间同步服务器出现报错 the NTP socket is in use, exiting 网上搜了一下,大部分的建议是…... 牛肉丸没牛肉
- 0
- 0
- 81
-
Spark- 自定义排序
考察spark自定义排序 方式一:自定义一个类继承Ordered和序列化,Driver端将数据变成RDD,整理数据转成自定义类类型的RDD,使用本身排序即可。 package com.rz.spark.base import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} // 自定…... 牛肉丸没牛肉
- 0
- 0
- 113
-
Spark- Transformation实战
RDD的算子分为两类,是 Trans formation(Lazy),一类是 Action(触发任务执行 RDD不存在真正要计算的数据,而是记录了RDD的转换关系(调用了什么方法,传入什么函数) RDD的 Trans formation的特点 1. lazy 2.生成新的RDD package cn.rzlee.spark.core import org.…... 牛肉丸没牛肉
- 0
- 0
- 106
-
Spark- 使用hiveContext时提交作业报错
在spark上操作hive时不需要搭建hive环境,只需要从现有的hive集群中hive的conf目录下拷贝 hive-site.xml 到spark的conf目录下即可提交程序运行 出现报错 Caused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke the "BONEC…... 牛肉丸没牛肉
- 0
- 0
- 71
-
JAVA- JDBC之DBHelper
<span style="font-family: 'Microsoft YaHei'; font-size: 18px;">package com.myit.util; import java.lang.reflect.Field; import java.sql.Connection; import java.sql.Drive…... 牛肉丸没牛肉
- 0
- 0
- 65
-
Hadoop- 集群时间同步
集群的时间要同步 * 找一台机器 时间服务器 * 所有的机器与这台机器时间进行定时的同步 比如,每日十分钟,同步一次时间 # rpm -qa|grep ntp # vi /etc/ntp.conf # vi /etc/sysconfig/ntpd # Drop root to id 'ntp:ntp' by default. SYNC_HWCLOCK=yes OP…... 牛肉丸没牛肉
- 0
- 0
- 74
-
JAVA-配置path环境
配置path环境变量变的目的是什么? 控制台可以在任意的路径下都可以找到java的开发工具。 为了说明几个JDK环境变量的作用,这里先给出环境变量的定义 环境变量: 环境变量一般是指在操作系统中用来指定操作系统运行环境的一些参数,比如临时文件夹位置和系统文件夹位置等。这点有点类似于DOS时期的默认路径,你运行某些程序时除了在当前文件夹中寻找外,还会到设置的默认路径中去查找。简单地说这…... 牛肉丸没牛肉
- 0
- 0
- 144
-
JAVA- continue与break与return关键字
continue与break关键字 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 for(int i=0;i<10;i++){ if(i%2==0){ continue; //跳过当前循环执行下一次循环 } System.out.println(i); } for(int…... 牛肉丸没牛肉
- 0
- 0
- 64
-
Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
报错 G:\APP\JDK\bin\java -Didea.launcher.port=7532 "-Didea.launcher.bin.path=G:\APP\IntelliJ IDEA\bin" -Dfile.encoding=UTF-8 -classpath "G:\APP\JDK\jre\lib\charsets.jar;G:\APP\JDK\…... 牛肉丸没牛肉
- 0
- 0
- 183
-
Hadoop- 分布式资源管理YARN架构讲解
YARN是分布式资源管理,每一台机器都要去管理该台计算机的资源,Yarn负责为MapReduce程序分配运算硬件资源。每一台机器的管理者叫 NodeManager,整个集群的管理者管理着整个集群的NodeManager,叫 ResourceManager。资源调度和资源隔离是YARN作为一个资源管理系统最重要和最基础的两个功能。资源调度由 ResourceManager 完成,而资源…... 牛肉丸没牛肉
- 0
- 0
- 126
-
Spring Boot- 用idea新建spring boot web项目
1.新建project 2.选择Spring Initializr,next 3.输入项目信息,next 4.选择web依赖以及Spring Boot的版本,next 5.Finish 6.Enable Auto-Import ... 牛肉丸没牛肉
- 0
- 0
- 76
-
DataWarehouse- 从面试定位自己的水平
1.讲一下什么是维度表和事实表。用户资料表算是什么类型表。 2. 维度建模属于第几范式,让你对维度建模改进,有什么思路吗。 3. 了解数据血缘分析吗,让你实现的话有什么技术方案,感觉难点在哪。 4. 了解数据分层吗,讲一下分四层或者五层各有什么优劣。自己摸你一个场景,给出不同的方案。 5. 数据口径不一致的问题一般在什么情况下会发生,怎么避免。 ... 牛肉丸没牛肉
- 0
- 0
- 69


















































