Hadoop- 流量汇总程序之如何实现hadoop的序列化接口及代码实现

流量汇总程序需求

统计每一个用户（手机号）锁耗费的总上行流量、下行流量、总流量。

流程剖析

阶段：map

读取一行数据，切分字段，

抽取手机号，上行流量，下行流量

context.write(手机号，bean)

阶段：reduce

汇总遍历每个bean，将其中的上行流量，下行流量分别累加，得到一个新的bean

context.write(手机号，新bean)；

代码实现

1.定义一个phonebean：

package com.Rz_Lee.hadoop.mr.flowsum;
import org.apache.hadoop.io.Writable;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
/**
 * Created by Rz_Lee on 2017/8/15.
 */
public class FlowBean implements Writable{
    private long upFlow;
    private long dFlow;
    private long sumFlow;
    //反序列化时，需要反射调用空参构造函数，所以要显示定义一个
    public FlowBean() {
    }
    public FlowBean(long upFlow, long dFlow) {
        this.upFlow = upFlow;
        this.dFlow = dFlow;
        this.sumFlow = dFlow+upFlow;
    }
    public long getUpFlow() {
        return upFlow;
    }
    public void setUpFlow(long upFlow) {
        this.upFlow = upFlow;
    }
    public long getdFlow() {
        return dFlow;
    }
    public void setdFlow(long dFlow) {
        this.dFlow = dFlow;
    }
    public long getSumFlow() {
        return sumFlow;
    }
    @Override
    public String toString() {
        return upFlow+"\t"+dFlow+"\t"+sumFlow;
    }
    /**
     * 序列化方法
     * @param dataOutput
     * @throws IOException
     */
    public void write(DataOutput dataOutput) throws IOException {
        dataOutput.writeLong(upFlow);
        dataOutput.writeLong(dFlow);
        dataOutput.writeLong(sumFlow);
    }
    /**
     * 反序列化方法
     * 注意：反序列化的顺序和序列化的顺序一致
     * @param dataInput
     * @throws IOException
     */
    public void readFields(DataInput dataInput) throws IOException {
        upFlow = dataInput.readLong();
        dFlow = dataInput.readLong();
        sumFlow = dataInput.readLong();
    }
}

2.实现类：

package com.Rz_Lee.hadoop.mr.flowsum;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
/**
 * Created by Rz_Lee on 2017/8/15.
 */
public class FlowCount {
    static class FlowCountMapper extends Mapper<LongWritable,Text,Text,FlowBean>{
        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            //将一行内容转为String
            String line = value.toString();
            //切分字段
            String[] fields = line.split("\t");
            //取出手机号
            String phoneNbr = fields[1];
            //取出上行和下行流量
            Long upFlow =Long.parseLong(fields[fields.length-3]);
            Long dFlow =Long.parseLong(fields[fields.length-2]);
            context.write(new Text(phoneNbr),new FlowBean(upFlow,dFlow));
        }
    }
    static class FlowCountReducer extends Reducer<Text,FlowBean,Text,FlowBean>
    {
        //<135,bean1><135,bean2><135,bean3>
        @Override
        protected void reduce(Text key, Iterable<FlowBean> values, Context context) throws IOException, InterruptedException {
            long sum_upFlow = 0;
            long sum_dFlow = 0;
            //遍历所有Bean，将其中的上行流量，下行流量分别累加
            for(FlowBean bean:values){
                sum_upFlow+=bean.getUpFlow();
                sum_dFlow+=bean.getdFlow();
            }
            FlowBean resultBean = new FlowBean(sum_upFlow, sum_dFlow);
            context.write(key,resultBean);
        }
    }
    public static void main(String[] args) throws Exception{
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);
        /*conf.set("mapreduce.framework.name","yarn");
        conf.set("yarn.resourcemanager.hostname","srv01");*/
        /*job.setJar("/usr/hadoop/wc.jar");*/
        //指定本程序的jar包所在的本地路径
        job.setJarByClass(FlowCount.class);
        //指定本业务job使用的mapper/reducer业务类
        job.setMapperClass(FlowCountMapper.class);
        job.setReducerClass(FlowCountReducer.class);
        //指定mapper输出数据的KV类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(FlowBean.class);
        //指定最终输出的数据的KV类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(FlowBean.class);
        //指定job的输入原始文件所在目录
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        //指定job的输出结果所在目录
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        //将job中配置的相关参数，以及job所用的java类所在的jar包，提交给yarn去运行
        /*job.submit();*/
        boolean res = job.waitForCompletion(true);
        System.exit(res?0:1);
    }
}

3.数据来源phone.txt：

1363157985123   13726232222 50-FD-07-A4-72-B8:CMCC  120.196.100.82　　i.cnblogs.com       24  27  2586    24681   200
1363157995456   13826547777 5C-0E-88-C7-F2-E0:CMCC  10.197.40.4         4   0   364 0   200
1363157991789   13926438888 20-10-7A-28-CC-0A:CMCC  120.197.100.99          2   4   232 2151    200
1363154400101   13926259999 CC-0E-8B-8B-B1-50:CMCC  120.196.40.4            4   0   440 0   200
1363157993121   18211575555 94-17-AC-CD-E6-18:CMCC-EASY 120.196.100.99  www.bilibili.com    视频网站    20  15  8585    2106    200

4.把Flowcount项目导成jar包，连同数据来源一起上传到HDFS，运行 hadoop jar wordcount.jar 包.类名 /源文件路径 /输出数据文件夹

打开浏览器输入：yarn节点的IP:8088 ，在网页上可以看见整个Job的运行情况。

{{userData.name}}已认证

Hadoop- 流量汇总程序之如何实现hadoop的序列化接口及代码实现

流量汇总程序需求

流程剖析

代码实现

Hadoop- Wordcount程序原理及代码实现

Redis- 内存数据库Redis之安装部署

《世界金融史泡沫、战争与股票市场》

《会计简史：从结绳记事到信息化》

《千年金融史——金融如何塑造文明，从5000年前到21世纪》

《数字货币新论》

读懂Libra

《基于Python的金融分析与风险管理》

{{userData.name}}已认证

流量汇总程序需求

流程剖析

代码实现

推荐阅读:

Hadoop- Wordcount程序原理及代码实现

Redis- 内存数据库Redis之安装部署

Hadoop- Wordcount程序原理及代码实现

Hadoop- 分布式资源管理YARN架构讲解

Hadoop- Hadoop运维小计

Hadoop- Namenode经常挂掉 IPC's epoch 9 is less than the last promised epoch 10

《世界金融史 泡沫、战争与股票市场》

《会计简史：从结绳记事到信息化》

《千年金融史——金融如何塑造文明，从5000年前到21世纪》

《数字货币新论》

读懂Libra

《基于Python的金融分析与风险管理》

《世界金融史泡沫、战争与股票市场》