Day4——电商日志数据分析

文章目录


前言

今天完成电商数据分析第一问:

统计页面浏览量(每行记录就是一次浏览)


一、 项目要求

  1. 统计页面浏览量(每行记录就是一次浏览)

  2. 统计各个省份的浏览量 (需要解析IP)

  3. 日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)

    为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city

二、步骤

1.第一问代码结构

2.代码

创建PageViewDriver类

用于统计网页浏览量

c 复制代码
package mr1;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class PageViewDriver {

    public static void main(String[] args) throws Exception {
        if (args.length != 2) {
            System.err.println("Usage: PageViewDriver <input path> <output path>");
            System.exit(-1);
        }

        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "Page View Count");

        job.setJarByClass(PageViewDriver.class);
        job.setMapperClass(PageViewMapper.class);
        job.setCombinerClass(PageViewReducer.class);
        job.setReducerClass(PageViewReducer.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

创建PageViewMapper类

用于处理输入数据并生成键值对

c 复制代码
package mr1;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;
public class PageViewMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        context.write(new Text("line"), new IntWritable(1));

    }

}

创建PageViewReducer类

对Map阶段的输出进行聚合和处理

c 复制代码
package mr1;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;

public class PageViewReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    private IntWritable result = new IntWritable();
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable val : values) {
            sum += val.get();
        }
        result.set(sum);
        context.write(key, result);
    }
}

3.打JAR包

4.在Hadoop虚拟机运行提交HDFS

总结

这个基于Hadoop的MapReduce程序用于统计网页浏览量。它包含以下组件和功能:

PageViewDriver类是程序的入口点,负责设置作业的配置和运行。

PageViewMapper类是Mapper的实现,将输入数据处理为键值对。

PageViewReducer类是Reducer的实现,对Mapper的输出进行聚合和处理。

Mapper和Reducer的输出键值对类型都是Text和IntWritable。

程序使用Hadoop的FileInputFormat和FileOutputFormat来指定输入路径和输出路径。

通过Job对象的setJarByClass方法设置程序的主类。

通过Job对象的waitForCompletion方法提交作业并等待完成。

相关推荐
左心房的默白,,,15 分钟前
17:FDC数据采集与数据分析基础(EAP进阶)
运维·数据分析·自动化
五度易链-区域产业数字化管理平台16 分钟前
专精特新“小巨人”动态追踪(5月22日-28日)
大数据·人工智能
机器学习之心21 分钟前
基于投影寻踪动态聚类的多指标综合评价方法(PPDC),实验文档+MATLAB代码
matlab·数据挖掘·聚类
小白学大数据33 分钟前
AI 智能爬虫实战:Selenium+Python 自动绕反爬、一键提取数据
爬虫·python·selenium·数据分析
V搜xhliang02461 小时前
告别SPSS卡顿:用AI智能体自动跑回归、生存曲线、生成方法学段落
运维·人工智能·数据挖掘·回归·机器人·自动化·飞书
念恒123061 小时前
计算机系统概述
大数据
RD_daoyi1 小时前
Google SEO第三周:网站站内基础优化——决定排名快慢的核心基建
大数据·人工智能·学习·搜索引擎·百度·googlecloud
段一凡-华北理工大学2 小时前
工业领域的Hadoop架构学习~系列文章12:Hadoop集群监控与运维
大数据·人工智能·hadoop·学习·架构·高炉炼铁·高炉炼铁智能化
可乐ea2 小时前
【知识获取与分享社区项目 | 项目日记第 20 天】search_after 游标分页:解决 Elasticsearch 深分页稳定性问题
java·大数据·elasticsearch·搜索引擎·全文检索
zhongerzixunshi2 小时前
标准化能源管控,赋能企业双碳落地
大数据·人工智能·能源