全部标签

开源软件

最新随机最多浏览最多喜欢最多评论

分类：
开源软件编程语言插件扩展程序开发手机/移动开发企业应用开发工具大数据
开源公司：
全部华为百度阿里巴巴腾讯

隐藏支付积分

隐藏支付积分
建站源码

MNEWS 主题如何设置主题设置方法教学（Word文档）

资源简介：MNews主题是由萨龙龙所开发的一款WordPress网站程序自媒体主题模板，规划上精约、干净、精美、呼应式，功用上史无前例的有用强壮MNews 主题是一款简约新闻自媒体类的 WordPress 主题，设计上简约、干净、精致、响应式，功能上前所未有的实用强大，完善的用户中心（前台投稿、编辑草稿文章与个人资料），用户关注（可获取关注与粉丝用户，以及所关注用户的最新文章），文章与评论点赞（可…...
- summer
- 19年8月17日
- 0
- 0
- 262
Python 博客

Linux下查看Python安装了哪些脚本模块

1.什么是rpm ？ rpm 即RedHat Package Management，是RedHat的发明之一。现在包括OpenLinux、fedora、S.u.S.E.以及Turbo Linux等Linux的分发版本都有采用 rpm -ql python...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 128
Java 博客

JAVA-配置path环境

配置path环境变量变的目的是什么？控制台可以在任意的路径下都可以找到java的开发工具。为了说明几个JDK环境变量的作用，这里先给出环境变量的定义环境变量：环境变量一般是指在操作系统中用来指定操作系统运行环境的一些参数，比如临时文件夹位置和系统文件夹位置等。这点有点类似于DOS时期的默认路径，你运行某些程序时除了在当前文件夹中寻找外，还会到设置的默认路径中去查找。简单地说这…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 153
Java 博客

JAVA-关键字&标识符

关键字：关键字就是在java程序中具备特殊含义的标识符。关键字一般用于描述一个程序的结构或者表示数据类型。他们用来表示一种数据类型，或者表示程序的结构等，关键字不能用作变量名、方法名、类名、包名。 1.1 常见的关键字备注：不必死记硬背，如果使用关键字作为标识符，编译器能提示错误。 goto 是java的保留关键字，意思是java并没有使用goto，以后是否使用未定。 &nb…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 77
Java 博客

JAVA-三大语句（选择语句、条件语句、循环语句）

1 跳出指定的for循环体，和goto很像 1 2 3 4 5 6 7 8 1 K:for(int i=0;i<3;i++){//给这个for循环体取一个名字为K 2 for(int j=0;j<3;j++){ 3 if(j==1){break K;}//如果你不指跳出的for循环，那么就是跳出本地for循环，这里指定K，则调试for循环名称为K的…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 70
Java 博客

JAVA- continue与break与return关键字

continue与break关键字 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 for(int i=0;i<10;i++){ if(i%2==0){ continue; //跳过当前循环执行下一次循环 } System.out.println(i); } for(int…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 65
Java 博客

JAVA- 面向对象

程序的发展经历了两个主要阶段：面向过程、面向对象。面向对象是当前软件开发的主流。面向过程就是分析出解决所需要的步骤，然后用函数将这些步骤一步一步实现，使用的时候一个一个一次调用。面向对象是把构成问题的事务分解成各个对象。建立对象的目的不是为了完成一个步骤而是为了描述某个事物在整个解决问题步骤中的行为。面向对象是为了专注在程序中采用封装、继承、多态等设计方法。面向对象的设计是一种…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 101
Java 博客

JAVA- 内部类

内部类 public class InnerDemo { class Inner{ public void innerMethod(){ System.out.println("this is inner method"); } } public Inner getInnerInstance(){ return this.new Inner(); } public…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 76
Java 博客

JAVA- 成员变量与局部变量的区别

成员变量与局部变量的区别成员变量是定义在方法之外，类之内的局部变量是定义在方法之内的。作用上的区别： 1.成员变量的作用是用于描述一类事物的公共属性的。 2.局部变量的作用就是提供一个变量给方法内部使用而已。生命周期的区别： 1.成员变量随着对象的创建而存在，随着对象的消失而消失。 2.局部变量在调用了对应的方法时执行到了创建该变量的语句时存在，局部变量一旦出了自己的作用域那…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 78
Java 博客

JAVA- 清除数组重复元素

清除数组重复元素并打印新数组。 1 import java.util.*; 2 public class Repeat { 3 4 public static void main(String[] args) { 5 // TODO Auto-generated method stub 6 int arr[]={10,1,2,3,2,1,10}; 7 arr=clearRepeat(…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 90
Java 博客

JAVA- 泛型

泛型是Java SE 1.5的新特性，泛型的本质是参数化类型，也就是说所操作的数据类型裸眼指定为一个参数。这种参数类型可以用在类、接口和方法的创建中，分别称为泛型类、泛型接口、泛型方法。Java语言引入泛型的好处是安全简单。泛型的定义。泛型可以解决数据类型的安全性问题，它主要的原理是在类声明的时候通过一个标识表示类中某个属性的类型或者是某个方法的返回值及参数类型，这样在类声明或实例…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 81
Java 博客

JAVA- JSP中解决无法在Cookie当中保存中文字符的问题

因为cookie的值是ASCII字符，不能直接把自定义cookie的值直接赋值为中文，但是要实现这个功能，还是有方法的。 1.java中已经给我们提供了方法，此时只需要导入该包就行 <%@ page language="java" import="java.util.*,java.net.*" contentType="text…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 77
Java 博客

JAVA- JDBC之DBHelper

<span style="font-family: 'Microsoft YaHei'; font-size: 18px;">package com.myit.util; import java.lang.reflect.Field; import java.sql.Connection; import java.sql.Drive…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 70
博客大数据

Hadoop- Hadoop环境搭建

Windows下Hadoop的安装准备工具：64位的JDK,Hadoop安装包（我使用的是2.6.1） JDK下载地址官网： http://www.oracle.com/technetwork/java/javase/downloads/index.html Hadoop下载地址官网：http://hadoop.apache.org/ 1.安装JDK环境，配置系统环境变量. 选…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 92
博客大数据

大数据- 自定义Log4j日记

1.新建一个java project，在src下新建一个lib文件夹和 rescources 文件夹，resources文件夹不能命名错误。点击File——》project Structure...打开根据下图操作把相关jar包放进lib文件夹里并绑定。新建一个java文件 Log4jTest.java 和 HadoopLog4j.java 1 2 3 4 5 6…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 59
博客大数据

Zookeeper- Error contacting service. It is probably not running解决方案和原理

搭建启动Zookeeper集群出现Error contacting service. It is probably not running解决方案和原理 1.关闭防火墙 1 2 3 4 [root@srv01 bin]# zkServer.sh start JMX enabled by default Using config: /usr/zookeeper/bin/../con…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 167
博客大数据

Hadoop HA- zookeeper安装配置

安装集群 1.1 虚拟机： 3台安装好JDK的centos Linux虚拟机 1.2 安装包：把下载好的zookeeper安装包，官网：http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.8/ 上传到服务器。 1.3解压 tar –xvzf zookeeper-3.4.8.tar.gz ，解压后放进 /usr/ 即可 …...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 80
博客大数据

大数据之路- Hadoop环境搭建（Linux）

前期部署 1.JDK 2.上传HADOOP安装包 2.1官网：http://hadoop.apache.org/ 2.2下载hadoop-2.6.1的这个tar.gz文件，官网： https://archive.apache.org/dist/hadoop/common/hadoop-2.6.1/ 下载成功后，把这个tar.gz包上传到服务器上，命令：通…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 113
博客大数据

Hadoop HA- hadoop集群部署

前期部署，至少准备3台服务器（可以是虚拟机） 1、linux系统环境准备 ip地址配置 hostname配置 hosts映射配置关闭防火墙 service iptables stop ,也可以设置防火墙不开机自启动 chkconfig iptables off init启动级别修改 2.java环境的配置上传jdk，解压，修改/etc/profile 3.zookeeper集群…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 135
博客大数据

Hive- Hive安装

Hive安装 1.1下载Hive安装包官网：http://hive.apache.org/downloads.html 个人建议到这里下载：http://apache.forsale.plus/ 1.2将hive文件上传到HADOOP集群，并解压将文件上传到 /usr ，解压 tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /usr/ 重命名:…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 112
博客大数据

Hive- Hive Web Interface

当我们安装好hive时候，我们启动hive的UI界面的时候，命令: hive –-service hwi ，报错，没有war包我们查看hive/conf/hive-default.xml.template，查找hwi 把这3台属性复制，添加到hive-site.xml里面， vim hive-site.xml <property> <name>hive.hw…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 137
博客大数据

Sqooop- 使用Sqoop进行数据的导入导出

Sqoop是Apache旗下的一个开源框架，专门用来做数据的导入和导出。官网:https://sqoop.apache.org/ Sqoop的安装非常简单，只需要把下载下来的tar包解压设置两个环境变量就可以了 1.安装部署下载版本：sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 官网：http://mirror.bit.edu.cn/apa…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 179
博客大数据

Hadoop- NameNode和Secondary NameNode元数据管理机制

元数据的存储机制A、内存中有一份完整的元数据(内存meta data)B、磁盘有一个“准完整”的元数据镜像（fsimage）文件(在namenode的工作目录中)C、用于衔接内存metadata和持久化元数据镜像fsimage之间的操作日志（edits文件）NameNode和Secondary NameNode元数据管理机制客户端每次对文件的操作，如果涉及到元数据的更新（读除外），比如…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 90
博客大数据

Hadoop- MapReduce分布式计算框架原理

分布式计算：原则：移动计算而尽可能减少移动数据（减少网络开销）分布式计算其实就是将单台机器上的计算拓展到多台机器上并行计算。 MapReduce是一种编程模型。Hadoop MapReduce采用Master/slave 结构。只要按照其编程规范，只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序。核心思想是：分而治之。Mapper负责分，把一个复杂的业务，任…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 125
博客大数据

Hadoop- Wordcount程序原理及代码实现

如果对Hadoop- MapReduce分布式计算框架原理还不熟悉的可以先了解一下它，因为本文的wordcount程序实现就是MapReduce分而治之最经典的一个范例。单词计数（wordcount）主要步骤： 1.读数据 2.按行处理 3.按空格切分行内单词 4.HashMap（单词，value+1）等分给自己的数据片全部读取完之后 5.将HashMap按照首字母范围分为3个H…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 124
博客大数据

Hadoop- 流量汇总程序之如何实现hadoop的序列化接口及代码实现

流量汇总程序需求统计每一个用户（手机号）锁耗费的总上行流量、下行流量、总流量。流程剖析阶段：map 读取一行数据，切分字段，抽取手机号，上行流量，下行流量 context.write(手机号，bean) 阶段：reduce 汇总遍历每个bean，将其中的上行流量，下行流量分别累加，得到一个新的bean context.write(手机号，新bean)；代码实现…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 110
博客大数据

Redis- 内存数据库Redis之安装部署

内存数据库Redis之安装部署 Redis是一款非关系型，key-value存储的内存数据库，Redis数据库完全在内存中，使用磁盘仅用于持久性。Redis的速度非常快，每秒能执行约11万集合，每秒约81000+条记录。支持丰富的数据类型：Redis支持字符串、列表、集合、有序集合散列数据类型，这使得它非常容易解决各种各样的问题。把redis看成java的一个hashmap你就入门…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 129
博客大数据

Spark- Linux下安装Spark

Spark- Linux下安装Spark 前期部署 1.JDK安装，配置PATH 可以参考之前配置hadoop等配置 2.下载spark-1.6.1-bin-hadoop2.6.tgz,并上传到服务器解压 [root@srv01 ~]# tar -xvzf spark-1.6.1-hadoop2.6.tgz /usr/spark-1.6.1-hadoop2.6 3.在 /usr 下…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 121
$Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.$

$Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.$
博客大数据

Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

报错 G:\APP\JDK\bin\java -Didea.launcher.port=7532 "-Didea.launcher.bin.path=G:\APP\IntelliJ IDEA\bin" -Dfile.encoding=UTF-8 -classpath "G:\APP\JDK\jre\lib\charsets.jar;G:\APP\JDK\…...
- 牛肉丸没牛肉
- 19年8月17日
- 0
- 0
- 187
$Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.$

$Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.$
博客大数据

Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

运行 mport org.apache.log4j.{Level, Logger} import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /** * Created by Lee_Rz on 2017/8/30. */ object SparkDemo { def main(args: A…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 166
博客大数据

Zeppelin- Linux下安装Zeppelin

前期部署: 下载,解压,配置PATH环境(编辑/etc/profile文件,记得source一下该文件) zepplin配置参考文档:https://zeppelin.apache.org/docs/0.7.2/install/configuration.html 往conf/zeppelin-env.sh文件中添加端口号往底部添加 export ZEPPLELIN_PORT=8090 修改配置…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 125
博客大数据

Spark- Spark Yarn模式下跑yarn-client无法初始化SparkConext,Over usage of virtual memory

在spark yarn模式下跑yarn-client时出现无法初始化SparkContext错误. 17/09/27 16:17:54 INFO mapreduce.Job: Task Id : attempt_1428293579539_0001_m_000003_0, Status : FAILED Container [pid=7847,containerID=containe…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 103
博客大数据

Hadoop- Hadoop详解

首先所有知识以官网为准，所有的内容在官网上都有展示，所有的变动与改进，新增内容都以官网为准。hadoop.apache.org Hadoop是一个开源的可拓展的分布式并行处理计算平台，利用服务器集群根据用户的自定义业务逻辑，对海量数据进行分布式处理。Hadoop提供了一个可靠的共享存储和分析系统，Hadoop的核心三大组件有HDFS（分布式文件系统），MapReduce（分布式运算编程框架），YA…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 186
博客大数据

Hadoop- 分布式资源管理YARN架构讲解

YARN是分布式资源管理，每一台机器都要去管理该台计算机的资源，Yarn负责为MapReduce程序分配运算硬件资源。每一台机器的管理者叫 NodeManager，整个集群的管理者管理着整个集群的NodeManager，叫 ResourceManager。资源调度和资源隔离是YARN作为一个资源管理系统最重要和最基础的两个功能。资源调度由 ResourceManager 完成，而资源…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 141
博客大数据

Hadoop- HDFS的Safemode

Hadoop- HDFS的Safemode hadoop启动时，NameNode启动完后就开始进入安全模式，等待DataNode向NameNode发送block report ，当datanode blocks / total blocks = 99.99%，此时安全模式才会退出安全模式下的操作：可以查看文件系统的文件在安全模式期间我们有些操作是不能进行的，比如不能改变文件系统…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 120
博客大数据

Hadoop- MapReduce在实际应用中常见的调优

1、Reduce Task Number 通常来说一个block就对应一个map任务进行处理，reduce任务如果人工不去设置干预的话就一个reduce。reduce任务的个数可以通过在程序中设置 job.setNumReduceTasks(个数); ，也可在配置文件上设置reduce任务个数，默认为1，或者在代码config中配置 Configuration configura…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 102
博客大数据

Hadoop- 集群时间同步

集群的时间要同步 * 找一台机器时间服务器 * 所有的机器与这台机器时间进行定时的同步比如，每日十分钟，同步一次时间 # rpm -qa|grep ntp # vi /etc/ntp.conf # vi /etc/sysconfig/ntpd # Drop root to id 'ntp:ntp' by default. SYNC_HWCLOCK=yes OP…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 80
博客大数据

Hadoop- DistCp(分布式拷贝)

在实际的生产环境中，我们的企业都有测试集群和生产集群，有的比较大型的企业有多个版本的Hadoop 大数据集群，这时候有个这样的需求，各个集群上的资源需要进行迁移，比如说一些生产集群需要一些测试集群的数据，需要将测试集群的上的数据拷贝到生产集群，这时候就需要使用到分布式拷贝（Distributed Copy）. 比较常见的有不同集群之间的数据迁移 hadoop distcp <s…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 119
博客大数据

Hive- 大数据仓库Hive

什么是 Hive？ Hive 是由 FaceBook 开源用于解决少量数据结构化日志的数据统计。Hive是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能。Hive 处理的数据存储在 HDFS 上，分析数据的底层实现是 MapReduce ，执行程序运行的是YARN。构建在Hadoop之上的数据仓库：使用 HQL 作为查询接口使…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 80
博客大数据

Hive- Hive 的基本操作

创建数据库 create database db_hive; use db_hive; create database if not exists db_hive_02; create database if not exists db_hive_01 location '/user/rz_lee/warehouse/db_hive_01.db'; //指定数据库…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 132
博客大数据

Spark- Spark基本工作原理

Spark特点： 1.分布式 spark读取数据时是把数据分布式存储到各个节点内存中 2.主要基于内存（少数情况基于磁盘，如shuffle阶段）所有计算操作，都是针对多个节点上内存的数据，进行并行操作的 3.迭代式计算对分布式节点内存中的数据进行处理，处理后的数据可能会移动到其他节点的内存中，当需要用到某些数据时，从这些节点的内存中就能找到，迭代出来使用 Spark与MapRed…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 117
博客大数据

Spark- Spark内核架构原理和Spark架构深度剖析

Spark内核架构原理 1.Driver 选spark节点之一，提交我们编写的spark程序，开启一个Driver进程，执行我们的Application应用程序，也就是我们自己编写的代码。Driver会根据我们对RDD定义的操作，提交一大堆的task去Executor上。Driver注册了一些Executor之后，就可以开始正式执行我们的Spark应用程序了，首先第一步，创建初始RD…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 92
博客大数据

Spark- Spark普通Shuffle操作的原理剖析

在spark中，什么情况下会发生shuffle？ reduceByKey，groupByKey，sortByKey，countByKey，join，cogroup等操作。默认的shuffle操作的原理剖析假设有一个节点上面运行了4个 ShuffleMapTask，然后这个节点上只有2个 cpu core。假如有另外一台节点，上面也运行了4个ResultTask，现在呢，正等着要去…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 77
博客大数据

Spark- 优化后的 shuffle 操作原理剖析

在spark新版本中，引入了 consolidation 机制，也就是说提出了ShuffleGroup的概念。一个 ShuffleMapTask 将数据写入 ResultTask 数量的本地文本，这个不会变。但是，当下一个 ShuffleMapTask 运行的时候，可以直接将数据写入之前的 ShuffleMapTask 的本地文件。相当于是，对多个 ShuffleMapTask 输出…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 78
博客大数据

Spark- Checkpoint原理剖析

Checkpoint，是Spark 提供的一个比较高级的功能。有的时候，比如说，我们的 Spark 应用程序，特别的复杂，然后从初始的RDD开始，到最后拯个应用程序完成，有非常多的步骤，比如超过20个transformation 操作。而且整个应用运行的时间也特别的长，比如通常要运行1-5小时。在上述的情况下，就比较适合使用checkpoint 功能。因为，对于特别复杂的 Spar…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 106
博客大数据

Spark- 性能优化

由于Spark 的计算本质是基于内存的，所以Spark的性能城西的性能可能因为集群中的任何因素出现瓶颈：CPU、网络带宽、或者是内存。如果内存能够容得下所有的数据，那么网络传输和通信就会导致性能出现频惊。但是如果内存比较紧张，不足以放下所有的数据（比如在针对10亿以上的数据量进行计算时），还是需要对内存的使用进行性能优化的，比如说使用一些手段来减少内存的消耗。 Spark性能优化，其…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 111
博客大数据

Hive- 表

在hive中表的类型：管理表和托管表（外部表）。内部表也称之为MANAGER_TABLE,默认存储在/user/hive/warehouse下，也可以通过location指定；删除表时，会删除表的数据以及元数据；外部表称之为EXTERNAL_TABLE。在创建表时可以自己指定目录位置（LOCATION），数据存储所在的目录；删除表时，只会删除元数据不会删除表数据；创建外部表实例…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 142
Java 博客大数据

JAVA- 数据库连接池原理

第一次Java程序要在MySQL中执行一条语句，那么就必须建立一个Connection对象，代表了与MySQL数据库的连接通过直接发送你要执行的SQL语句之后，就会调用Connection.close()来关闭和销毁与数据库的连接。为什么要立即关闭呢？因为数据库的连接是一种很重的资源，代表了网络连接、IO等资源。所以如果不是用的话就需要尽早关闭，以避免资源浪费。 JDBC的劣势与不足…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 108
博客大数据

HIVE- 数据倾斜

数据倾斜就是由于数据分布不均匀，数据大量集中到一点上，造成数据热点。大多数情况下，分为一下三种情况： 1.map端执行比较快，reduce执行很慢，因为partition造成的数据倾斜。 2.某些reduce很快，某些reduce很慢，也是因为partition造成的数据倾斜。 3.某些map执行很快，某些map执行很慢，这是因为数据本身的分布的不合理性造成的。造成上面reduce…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 82
博客大数据

Hadoop- MR的shuffle过程

step1 input InputFormat读取数据，将数据转换成<key ,value>对,设置FileInputFormat，默认是文本格式（TextInputFormat） step2 map map<KEYIN, VALUEIN, KEYOUT, VALUEOUT> 默认情况下KEYIN:LongWritable,偏移量。VALUEIN:Text，K…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 82
博客大数据

Hive- Hive 按时间定期插入分区表

写个shell脚本Hive 按时间定期插入分区表,由于今天统计的是昨天的数据所以日期减一。 #！/bin/bash DT=`date -d '-1 day' "+%Y-%m-%d"` #如果某天的数据有误需要重跑 if [ $1 ];then DT=$1 fi SQL=" insert overwrite table t…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 81
Python 博客大数据

Python- and & or 的短路原则

条件1 and 条件2 条件1 or 条件2 短路原则对于and 如果前面的第一个条件为假，那么这个and前后两个条件组成的表达式的计算结果就一定为假，第二个条件就不会被计算对于or 如果前面的第一个条件为真，那么这个or前后两个条件组成的表达式的计算结果就一定为真，第二个条件就不会被计算 ...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 111
博客大数据

Storm- Storm作业提交运行流程

用户编写Storm Topology 使用client提交Topology给Nimbus Nimbus指派Task给Supervisor Supervisor为Task启动Worker Worker执行Task ...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 96
博客大数据

Kafka- Kafka架构功能

Kafka是一个高吞吐量的分布式消息系统，一个分布式的发布-订阅消息系统。Kafka是一种快速，可拓展的，设计内在就是分布式的，分区的可复制的提交日志服务。 Apache Kafka与传统消息系统相比，有以下不同：它设计为一个分布式系统，易于向外拓展；它同时为发布和订阅提供高吞吐量；它支持多订阅者，当失败时能自动平衡消费者；它将消息持久化到磁盘，因此可用于批量消费，例如ETL…...
- 牛肉丸没牛肉
- 19年8月18日
- 0
- 0
- 66

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部