18 统计网站每日的访问次数

1.将竞赛的数据上传HDFS,查看数据的格式

通过浏览器访问hdfs,查看该文档前面的部分数据

每条数据的字段值之间使用逗号隔开的 ,最终时间是第五个自动,获取第五个字段值的中的年月日。

2.通过Idea创建项目mr-raceData ,基础的配置

修改pom.xml,添加依赖

复制代码
<dependencies>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>3.1.4</version>
    </dependency>
    <dependency>
        <groupId>junit</groupId>
        <artifactId>junit</artifactId>
        <version>4.12</version>
    </dependency>
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-log4j12</artifactId>
        <version>1.7.30</version>
    </dependency>
</dependencies>

在resources目录下,新建log4j.properties

复制代码
log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=D:\\visitcount.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

编写代码后,需要将其打成Jar包,需要修改pom.xml

复制代码
<build>
    <plugins>
        <plugin>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>3.1</version>
            <configuration>
                <source>1.8</source>
                <target>1.8</target>
            </configuration>
        </plugin>
        <plugin>
            <artifactId>maven-assembly-plugin</artifactId>
            <configuration>
                <descriptorRefs>
                    <descriptorRef>jar-with-dependencies</descriptorRef>
                </descriptorRefs>
            </configuration>
            <executions>
                <execution>
                    <id>make-assembly</id>
                    <phase>package</phase>
             
                </execution>
            </executions>
        </plugin>
    </plugins>
</build>

打包使用的插件:

指定打包的方式为jar

编写源代码:

Mapper模块:

Reducer模块:

Driver模块:

最后使用maven打包为Jar,按以下四步参考,clean-->validate-->compile-->package

在当前项目下的target目录下找到打包后的jar文件

将jar文件拷贝到桌面,并上传的master的当前用户目录下

将竞赛日志数据取部分上传到hdfs上

yt@master \~\]$ hdfs dfs -put access_log.txt /bigdata/ ![](https://file.jishuzhan.net/article/1783164874889629697/474133278ac29709d11cdac09dab6ba4.webp) 执行jar文件,实现访问每条访问次数的统计 \[yt@master \~\]$ hadoop jar visitcount-1.0-SNAPSHOT.jar com.maidu.visitcount.DailyAccessCount /bigdata/access_log.txt /output11/ ![](https://file.jishuzhan.net/article/1783164874889629697/780e0fe32c6b5e950947de046cf2131c.webp) 执行完成后,可以查看输出文件,看到最终的统计结果。 查看统计的结果: ![](https://file.jishuzhan.net/article/1783164874889629697/5fdbe1195add647855312320dad687b4.webp) 统计成功。

相关推荐
Bat U11 分钟前
JavaEE|多线程初阶(七)
java·开发语言
掌心向暖RPA自动化3 小时前
如何获取网页某个元素在屏幕可见部分的中心坐标影刀RPA懒加载坐标定位技巧
java·javascript·自动化·rpa·影刀rpa
日取其半万世不竭3 小时前
Minecraft Java版社区服务器搭建教程(Linux,适合新手)
java·linux·服务器
TeamDev3 小时前
JxBrowser 9.0.0 版本发布啦!
java·前端·混合应用·jxbrowser·浏览器控件·跨平台渲染·原声输入
AI人工智能+电脑小能手4 小时前
【大白话说Java面试题】【Java基础篇】第24题:Java面向对象有哪些特征
java·开发语言·后端·面试
AI人工智能+电脑小能手4 小时前
【大白话说Java面试题】【Java基础篇】第25题:JDK1.8的新特性有哪些
java·开发语言·后端·面试
likerhood4 小时前
SLF4J: Failed to load class “StaticLoggerBinder“ 解决
java·log4j·maven
早日退休!!!5 小时前
大模型推理瓶颈七层分析模型
java·服务器·数据库
叶小鸡5 小时前
Java 篇-项目实战-天机学堂(从0到1)-day9
java·开发语言
@#¥&~是乱码鱼啦5 小时前
Spring分层架构:Controller、Service、Mapper数据链路,IOC的真实工作意义
java·spring·架构