2021年安徽省大数据与人工智能应用竞赛——MapReduce（数据预处理）题目解答（第二题）

第一题链接2021年安徽省大数据与人工智能应用竞赛——MapReduce（数据预处理）题目解答题目：请使用MapReduce统计 calls.txt中的每个手机号码的，呼叫时长和呼叫次数，被叫时长，被叫次数，并输出格式为手机号码，呼叫时长，呼叫次数，被叫时长，被叫次数；calls.txt 通话记录样例：18620192711,15733218050,1506628174,1506628265

一纸春秋

2812人浏览 · 2021-11-27 00:38:08

一纸春秋 · 2021-11-27 00:38:08 发布

第一题链接
2021年安徽省大数据与人工智能应用竞赛——MapReduce（数据预处理）题目解答

题目：请使用MapReduce统计 calls.txt中的每个手机号码的，呼叫时长和呼叫次数，被叫时长，被叫次数，并输出格式为手机号码，呼叫时长，呼叫次数，被叫时长，被叫次数；

calls.txt 通话记录
样例：18620192711,15733218050,1506628174,1506628265,650000,810000
字段分别为:
呼叫者手机号,接受者手机号,开始时间戳,结束时间戳,呼叫者地址省份编码,接受者地址省份编码

package Demo.mapreduce;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.log4j.BasicConfigurator;

import java.io.IOException;
import java.net.URI;
import java.util.Date;
/**
 * send_time = 发送者手机号
 * receive_time = 接收者手机号
 * talk_time = 通话持续时间
 * send_time = 呼叫时长
 * receive_time = 被叫时长
 * send_count = 呼叫次数
 * receive_count = 被叫次数
 */
public class subject2 {
    public static class demoMapper extends Mapper<LongWritable,Text,Text,Text>{
        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            String line = value.toString();
            String[] split = line.split(",");
            String send_phone = split[0];
            String receive_phone = split[1];
            Date time1 = new Date(Long.parseLong(split[2]) * 1000L);
            Date time2 = new Date(Long.parseLong(split[3]) * 1000L);
            long talk_time = (time2.getTime() - time1.getTime())/1000;

            context.write(new Text(send_phone),new Text("send,"+talk_time));
            context.write(new Text(receive_phone),new Text("receive,"+talk_time));
        }
    }

    public static class demoReducer extends Reducer<Text,Text,Text,Text>{
        @Override
        protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
            int send_time = 0;
            int receive_time = 0;
            int send_count = 0;
            int receive_count = 0;
            for (Text value : values) {
                String string = value.toString();
                String[] split = string.split(",");
                if("send".equals(split[0])){
                    send_time += Integer.parseInt(split[1]);
                    send_count++;
                }else{
                    receive_time += Integer.parseInt(split[1]);
                    receive_count++;
                }
            }
            context.write(new Text(key),new Text(","+send_time+"秒，"+send_count+"次，"+receive_time+"秒，"+receive_count+"次"));

        }
    }

    public static void main(String[] args) throws Exception{
        BasicConfigurator.configure();
        // 配置mapreduce
        Job job = Job.getInstance();
        job.setJobName("zhang");
        job.setJarByClass(subject2.class);
        job.setMapperClass(demoMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Text.class);
        job.setReducerClass(demoReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        //指定路径
        Path input1 = new Path("hdfs://master:9000/data/calls.txt");
        FileInputFormat.addInputPath(job,input1);

        Path output = new Path("hdfs://master:9000/output");//输出路径不能已存在

        //获取文件系统对象fs，利用fs来对hdfs中的文件进行操作
        FileSystem fs = FileSystem.get(new URI("hdfs://master:9000"),new Configuration());
        if(fs.exists(output)){
            fs.delete(output,true);
        }

        FileOutputFormat.setOutputPath(job,output);
        //启动
        job.waitForCompletion(true);
    }
}

结果为
在这里插入图片描述

这题主要的难点在于能不能想到，在Map端写两个 context.write()语句。即传入两个字段的值作为key，同时还要区分value的值

这题要传到reduce端里面的有两个字段，但是这两个字段的值其实是一致的，都是手机号码。因此即使写了两个 context.write() 语句，具体传入的时候也是以一个个的手机号码来送入reduce端的。相同的key值，即相同的手机号会被组合在一起，但是value值需要区分。因为同一个手机号有两个身份，一个身份是呼叫者，对应呼叫时长和呼叫次数。另一个身份是被呼叫者，对应被叫时长和被叫次数。

呼叫次数和和被叫次数，可以通过在reduce端遍历values的数量时用count++的方式来统计

但是map端要传给reduce端，通话时长。因此给value值，也就是通话时长，加上一个前缀。然后在reduce端用equals匹配这个前缀，这样就区分了同一个手机号的呼叫时长与被呼时长

另外注意呼叫时长与被呼时长应该累加，而不是直接输出，因为values里面会有多个通话时间，按照前缀分成两个分区，呼叫时长分区和被呼时长分区，每个分区里面依旧会有多个通话时间的值，此时应该累加得到最终结果。

AI编程社区

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

Claude Code 对接使用教程

【摘要】Claude Code是一款终端AI编程助手，本教程提供最新安装指南。安装前需满足Node.js≥18.0环境，支持macOS/Linux/Windows(WSL)。教程包含：1)Node.js安装方法（各系统详细命令）；2)通过npm全局安装Claude Code；3)关键配置：获取API令牌并设置环境变量；4)启动后的初始化设置。常见问题解答涵盖API密钥错误、离线状态处理等。注意需通

AI编程社区

驾驭AI编程：从Vibe Coder到专业工程师的六大铁律

本文探讨了如何高效利用AI编程工具进行协作开发，提出了六条核心原则：1）严格依赖Git版本控制建立安全网；2）通过"记忆文件"弥补AI的上下文遗忘缺陷；3）培养主动监控AI输出的意识；4）建立自动文档生成机制；5）识别AI"错误螺旋"及时重置；6）采用结构化规划流程。这些原则旨在帮助开发者从被动接受转变为主动掌控，将AI从容易出错的"临时工&quo

AI编程社区

AI原生应用中自然语言处理的数据处理技巧

AI原生应用（AI-Native App）是“以AI为核心架构”的应用，而非“在传统应用中嵌入AI模块”——比如ChatGPT（对话）、GitHub Copilot（代码生成）、Notion AI（内容创作）。这些应用的核心功能完全依赖NLP模型对文本的理解，而数据处理的质量直接决定了模型的性能上限若数据中有大量噪音（如广告、乱码），模型会“学错东西”；若文本未被正确分割（如把“人工智能”分成“人