2026年广东省职业院校技能大赛中职组"大数据应用与服务"赛项任务书(三)
文章目录
- 2026年广东省职业院校技能大赛中职组"大数据应用与服务"赛项任务书(三)
-
- 项目一:平台搭建与运维
- 项目二:数据获取与处理
- 项目三:业务分析与可视化
- [项目四:AI 大模型应用开发综合实践](#项目四:AI 大模型应用开发综合实践)
-
- [(一)任务一:AI 大模型服务综合部署](#(一)任务一:AI 大模型服务综合部署)
- [(二)任务二:AI 大模型综合应用开发](#(二)任务二:AI 大模型综合应用开发)
- 需要题目答案可联系博主!
需要竞赛样题答案可联系博主!!
项目一:平台搭建与运维
(一)任务一:大数据平台搭建
1.子任务一:基础环境准备
本任务需要使用 root 用户完成相关配置,安装 Hadoop 需要配置前置环境。命令中要求使用绝对路径,具体要求如下:
(1)配置三个节点的主机名,分别为 master、slave1、slave2,然后修改三个节点的 hosts 文件,使得三个节点之间可以通过主机名访问,在 master 上将执行命令 cat /etc/hosts 的结果复制并粘贴至【提交结果.docx】中对应的任务序号下;
(2)将 /opt/software 目录下将文件 jdk-8u391-linux-x64.tar.gz 安装包解压到 /opt/module 路径中,将 JDK 解压命令复制并粘贴至【提交结
果.docx】中对应的任务序号下;
(3)在 /etc/profile 文件中配置 JDK 环境变量 JAVA_HOME 和 PATH 的值,并让配置文件立即生效,将在 master 上 /etc/profile 中新增的内容复制并 粘贴至【提交结果.docx】中对应的任务序号下;
(4)查看 JDK 版本,检测 JDK 是否安装成功,在 master 上将执行命令 java
-version 的结果复制并粘贴至【提交结果.docx】中对应的任务序号下;
(5)创建 hadoop 用户并设置密码,为 hadoop 用户添加管理员权限。在
master 上将执行命令 grep 'hadoop' /etc/sudoers 的结果复制并粘贴至
【提交结果.docx】中对应的任务序号下;
(6)关闭防火墙,设置开机不自动启动防火墙,在 master 上将执行命令 systemctl status firewalld 的结果复制并粘贴至【提交结果.docx】中对应的任务序号下;
(7)配置三个节点的 SSH 免密登录,在 master 上通过 SSH 连接 slave1 和
slave2 来验证。
2.子任务二:Hadoop 完全分布式安装配置
本任务需要使用 root 用户和 hadoop 用户完成相关配置,使用三个节点完成
Hadoop 完全分布式安装配置。命令中要求使用绝对路径,具体要求如下:
(1)在 master 节点中的 /opt/software 目录下将文件
hadoop-3.1.3.tar.gz 安装包解压到 /opt/module 路径中,将 hadoop 安装包解压命令复制并粘贴至【提交结果.docx】中对应的任务序号下;
(2)在 master 节点中将解压的 Hadoop 安装目录重命名为 hadoop,并修改该目录下的所有文件的所属者为 hadoop,所属组为 hadoop,将修改所属者的完整命令复制并粘贴至【提交结果.docx】中对应的任务序号下;
(3)在 master 节点中使用 hadoop 用户依次配置 hadoop-env.sh、 core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、 masters 和 workers 配置文件,Hadoop 集群部署规划如下表,将
yarn-site.xml 文件内容复制并粘贴至【提交结果.docx】中对应的任务序号下;

(二)任务二:数据库服务器的安装与运维
1.子任务一:MySQL 安装配置
本任务需要使用 rpm 工具安装 MySQL 并初始化,具体要求如下:
(1)在 master 节点中的 /opt/software 目录下将
mysql-5.7.25-1.el7.x86_64.rpm-bundle.tar 安装包解压到
/opt/module 目录下;
(2)在 master 节点中使用 rpm -ivh 依次安装 mysql-community-common、 mysql-community-libs、mysql-community-libs-compat、
mysql-community-client 和 mysql-community-server 包,将所有命令复制粘贴至【提交结果.docx】中对应的任务序号下;
(3)在 master 节点中启动数据库系统并初始化 MySQL 数据库系统,将完整命令复制粘贴至【提交结果.docx】中对应的任务序号下。
2.子任务二:MySQL 运维
本任务需要在成功安装 MySQL 的前提下,对 MySQL 进行运维操作,具体要求如下:
(1)配置服务端 MySQL 数据库的远程连接,将新增的配置内容复制粘贴至【提交结果.docx】中对应的任务序号下;
(2)配置 root 用户允许任意 IP 连接,将完整命令复制粘贴至【提交结果.docx】中对应的任务序号下;
(3)通过 root 用户登录 MySQL 数据库系统,查看 mysql 库下的所有表,将完整命令及执行命令后的结果复制粘贴至【提交结果.docx】中对应的任务序号下;
(4)创建 hadoop 用户,设置密码为 qwER12#$,并允许任意 IP 进行连接,将命令和完整结果截图至【提交结果.docx】中对应的任务序号下;
(5)授予 hadoop 用户拥有对所有数据库的插入数据,查询数据,删除数据权限,将命令和完整结果截图至【提交结果.docx】中对应的任务序号下;
(6)在 MySQL 数据库中创建一个名为 hddb 的数据库,并指定 utf8mb4 的字符集和 utf8mb4_unicode_ci 的排序规则,将命令和完整结果截图至【提交结 果.docx】中对应的任务序号下;
(7)创建名为hdadmin 的新用户,并授予 hdadmin 对hddb 数据库的全部权限,将创建用户及授予权限的命令截图至【提交结果.docx】中对应的任务序号下;
(8)刷新权限,并查看 hdadmin 用户的权限信息,将显示权限信息的命令和结果截图至【提交结果.docx】中对应的任务序号下;
(9)查看 MySQL 数据库的全局的默认字符集,将命令和结果截图至【提交结果.docx】中对应的任务序号下;
3.子任务三:数据表的创建及维护
根据以下数据字段在 hddb 数据库中创建天气表(new_weather)。天气表字段如下:
| 字段 | 类型 | 列注释 | 约束 |
|---|---|---|---|
| id | INT | 城市 ID | 主键自增 |
| province_id | INT | 省份 ID | 非空 |
| city_name | VARCHAR(255) | 城市名称 | 非空 |
| zip_code | INT | 邮编 | |
| levels | INT | 城市等级 | |
| climate | VARCHAR(255) | 气候条件 |
将天气表(new_weather)的建表语句截图至【提交结果.docx】中对应的任务序号下;
向 hddb 数据库中的天气表(new_weather)中插入以下记录,并查看天气表的全部记录。将 SQL 语句和执行结果截图至【提交结果.docx】中对应的任务序号下;

为天气表添加气候介绍字段(comment),并查询天气表的结构,将 SQL 语句和结果截图至【提交结果.docx】中对应的任务序号下;
根据/opt/software/mysql 路径下的三份数据库文件(city_info.sql、 province_info.sql、weather.sql),将其导入到数据库 hddb 中。将导入命令和结果截图至【提交结果.docx】中对应的任务序号下;
对导入的三份数据进行以下操作:
(1)编写一个 SQL 查询,查询最高气温超过 30 且天气为多云的所有记录。将
SQL 语句和执行结果截图至【提交结果.docx】中对应的任务序号下;
(2)编写一个 SQL 查询,统计城市阿克苏最高气温超过 17 度的记录,并按照降序排列。将 SQL 语句和执行结果截图至【提交结果.docx】中对应的任务序号下;
(3)编写一个 SQL 查询,统计每个城市当日天气状况为多云的天数,并按照降序排列。将 SQL 语句和执行结果截图至【提交结果.docx】中对应的任务序号下;
(4)查询属于亚热带季风气候,最高气温大于 30 度且风力大于 2 级的城市名称和最高气温。将 SQL 语句和执行结果截图至【提交结果.docx】中对应的任务序号下;
项目二:数据获取与处理
(一)任务一:数据获取与清洗
1.子任务一:数据获取
现有一份气象观测数据集,包含以下字段:记录 ID、观测站 ID、观测日期、观测时间、气温(℃)、相对湿度(%)、降水量(mm)、风速(m/s)、风向、气压(hPa)、天气现象(如晴、雨、雪等)。
数据已存入 weather_observations.csv 文件中,请使用 pandas 读取该文件,并将数据集的前 10 行打印在 IDE 终端的截图复制粘贴至【提交结果.docx】中对应的任务序号下。
2.子任务二:使用 Python 进行数据清洗
从气象数据中心获取的原始数据集,已对观测站 ID 等敏感信息进行了脱敏处理。请使用 pandas 库,按照以下要求对数据进行清洗和整理:
(1)删除"降水量"为空值且"天气现象"不为"雨"或"雪"的无效记录(即疑似缺失的记录),并将结果存储为 cleaned_weather_c1_N.csv,N 为删除的数据条数;
(2)识别并删除物理上不可能的异常记录(如:气温低于-50℃或高于 50℃,气压低于 800hPa 或高于 1100hPa),将结果存储为 cleaned_weather_c2_N.csv,N 为删除的数据条数;
(3)将"观测日期"和"观测时间"两列合并为标准的 YYYY-MM-DD HH:MM:SS格式的"观测时间戳"列,并删除原两列,将结果存储为 cleaned_weather_c3_N.csv,N 为总记录条数(此项无需统计修改量,N 为处理后数据总行数);
(4)删除所有字段完全相同的重复观测记录,并将结果存储为
cleaned_weather_c5_N.csv,N 为删除的数据条数;
请将该 4 个文件名截图,复制粘贴至【提交结果.docx】中对应的任务序号下。
(二)任务二:数据标注
1.子任务一:骑行距离分类标注
使用 Python 编写脚本,根据日最高气温将每日天气情况分为"寒冷"、"凉爽"、"舒适"、"炎热"四类。具体的分类要求如下:
(1)寒冷:日最高气温 < 10℃;
(2)凉爽:10℃ ≤ 日最高气温 < 20℃;
(3)舒适:20℃ ≤ 日最高气温 < 28℃;
(4)炎热:日最高气温 ≥ 28℃。
在数据集中新增一列"气温等级",根据上述标准对每日的天气记录进行标注(需先按"观测日期"和"观测站 ID"分组计算日最高气温),存入 temperature_level.csv 文件中。具体格式如下:
| 观测日期 | 观测站 ID | 日最高气温 | 气温等级 |
|---|---|---|---|
| 2025-01-01 | STATION_001 | 8.5 | 寒冷 |
将 temperature_level.csv 打开后的前若干行直接截图,复制粘贴至【提交结果.docx】中对应的任务序号下。
2.子任务二:时段热度标注
使用 Python 编写脚本,基于"天气现象"和"降水量"字段,对降水类天气的强度进行标注。具体的分类要求如下:
(1)小雨/小雪:天气现象为"雨"或"雪",且降水量 < 10mm;
(2)中雨/中雪:天气现象为"雨"或"雪",且 10mm ≤ 降水量 < 25mm;
(3)大雨/大雪:天气现象为"雨"或"雪",且降水量 ≥ 25mm;
(4)非降水:天气现象为"晴"、"多云"、"阴"等。
在数据集中新增一列"降水强度",根据上述标准对每条观测记录进行标注,存入 precipitation_intensity.csv 文件中。具体格式如下:
| 记录 ID | 观测时间 | 天气现象 | 降水量 **(mm)** 降水强度 |
|---|---|---|---|
| 1001 | 2025-01-01 | 雨 | 15.2 中雨/中雪 |
将 precipitation_intensity.csv 打开后的前若干行直接截图,复制粘贴至
【提交结果.docx】中对应的任务序号下。
(三)任务三:数据统计
1.子任务一:HDFS 文件操作
本任务需要使用 Hadoop、HDFS 命令,具体要求如下:
(1)在 HDFS 根目录下新建目录 /weather_data/input;
(2)修改该目录权限,赋予其 755 权限;
(3)将本地清洗后的最终数据文件 cleaned_weather_c5_N.csv 上传至
HDFS 的该目录下。
请将以上三条操作的完整命令粘贴至【提交结果.docx】中对应的任务序号下。
2.子任务二:计算输入文件中的单词数
有一份从气象报告中提取的关键词文本文件 weather_keywords.txt,每行一个词。本任务要求使用 Hadoop MapReduce 完成词频统计,具体要求如下:
(1)将该文本文件上传至 HDFS 的 /weather_data/keywords 目录下;
(2)使用 Hadoop 提供的 wordcount 示例程序对该文件进行词频统计;
(3)将统计结果输出到 HDFS 的 /weather_data/keyword_count 目录下;
(4)将最终词频统计结果的前十行内容截图粘贴至【提交结果.docx】中对应的任务序号下。
3.子任务三:计算区域平均骑行时长
本任务要求使用 MapReduce 框架,计算每个观测站所在区域(根据观测站 ID
前缀划分,如 STATION_BJ_001 前缀为 BJ)的月平均气温。
(1)编写 MapReduce 程序,输入数据格式为:观测站 ID, 观测时间戳, 气温 STATION_BJ_001,2025-01-01 08:00:00, -2.5
STATION_SH_002,2025-01-01 08:05:00, 5.0
...
(2)Map 函数需要从每条记录中提取 (区域-月份) 作为键(如 BJ-202501),气温作为值;
(3)Reduce 函数需要计算每个 (区域-月份) 组合下的所有气温值的平均值;
(4)将计算结果输出到 HDFS 的 /weather_data/avg_temperature 目录下,输出格式为:
区域-月份 平均气温
BJ-202501 1.2
SH-202501 6.8
...
(5)将程序运行结果的前十行截图粘贴至【提交结果.docx】中对应的任务序号下。
项目三:业务分析与可视化
(一)任务一:数据分析与可视化
1.子任务一:数据分析
气象数据分析是理解气候变化规律、评估观测质量和服务效果的重要手段。在本任务中,您将运用 Python 对气象观测数据进行多维度分析,以获取关键洞察。参赛者需要运用 Pandas 等数据处理和分析库来完成以下任务:
(1)按观测时间统计一天中每个小时的平均温度、最高温度和最低温度,并找出日温差最大的三个时段;
(2)计算不同天气现象(如晴、雨、雪、阴、多云)下的平均温度、平均降水量和平均风速;
(3)分析不同季节(春季:3-5 月,夏季:6-8 月,秋季:9-11 月,冬季:12-2月)的温度与降水量模式差异,计算各季节的平均温度、总降水量;
(4)统计各观测站的日最高气温极值和日最低气温极值,识别出高温区域和低温区域;
(5)分析降水量等级(无降水:0mm,小雨:0-10mm,中雨:10-25mm,大雨:>25mm)与平均相对湿度、平均风速之间的关系;
请将该 5 项统计结果在 IDE 的控制台中格式化打印,并分别截图复制粘贴至
【提交结果.docx】中对应的任务序号下。
2.子任务二:数据可视化
在本任务中,参赛者将使用 pyecharts 库创建直观、互动的图表,以揭示气象数据中的时空模式和关联关系。具体要求如下:
(1)创建时间热力图展示一周内各时段(小时)的温度分布,横轴为星期(周一至周日),纵轴为小时(0-23 时),颜色冷暖表示温度高低;
(2)使用多系列折线图展示一年中(按月份)的温度变化趋势,图中需要包含平均气温、历史同期最高气温和最低气温三条折线,以便进行对比;
(3)制作风向玫瑰图,展示特定区域(如某城市)在特定时期内(如一个季度)的风向频率分布,使用扇区表示风向,半径长度表示该风向出现的频率;
(4)创建散点图分析温度与相对湿度的关系,横轴为温度(℃),纵轴为相对湿度(%),每个点的大小可表示观测时的风速,颜色表示天气现象(晴、雨等);
请将该 4 个可视化图表分别截图复制粘贴至【提交结果.docx】中对应的任务序号下。
(二)任务二:业务分析
在气象服务中,准确评估数据质量、理解气候规律并优化预报服务至关重要。通过分析历史观测数据,可以诊断观测网络效能、验证模型准确性并为服务改进提供依据。本任务要求使用 Python 对气象数据进行深入的业务分析,目的是识别关键指标,并提出基于数据的优化建议。
使用提供的气象数据集,计算以下指标:
(1)气象数据质量评估
•数据完整性:按观测站统计各主要要素(气温、降水量、风速)的有效记录条数占总应记录条数的百分比。
•数据稳定性:计算各观测站日最高气温与日最低气温的月平均差值(日温差),分析其月际波动情况。
•异常值检出率:识别并统计超出历史同期(近五年)平均值±3 倍标准差范围
的记录数量及其占比。
(2)预报准确性对比分析
•温度预报误差:将实际观测温度与前一天发布的预报温度进行对比,计算平均绝对误差(MAE)。
•降水预报准确率:评估对于"有降水"(降水量>0)和"无降水"事件的预报准确率(命中率)。
•趋势一致性:分析预报的温度变化趋势(如升温、降温)与实际观测趋势的一
致天数占比。
(3)服务需求分析
•高温服务需求:统计日最高气温超过 35℃的天数,并分析这些高温日中不同时段(如午后)的平均湿度与风速(用于评估体感热度)。
•降水服务需求:统计中雨及以上降水事件(降水量≥10mm)的持续时长、发生时段(白天/夜间)及伴随的平均风速。
•舒适度区间分析:根据温度(18-26℃)和湿度(40%-70%)定义"人体舒适度区间",统计全年处于该区间的天数比例。
根据上述分析结果,请撰写一份简短的分析报告(300 字以内),内容应包括:
•对当前气象观测数据质量和预报准确性的核心评估结论;
•在数据收集或服务中存在的关键薄弱环节;
•至少三条基于数据分析的具体优化建议(如针对观测网络、预报模型或公众服务),并简述其预期价值。
将分析报告内容复制粘贴至【提交结果.docx】中对应的任务序号下。
项目四:AI 大模型应用开发综合实践
随着人工智能技术的快速发展,越来越多的企业和开发者希望能够使用强大的 AI 模型来处理各类任务,如自然语言处理、文本生成、自动化客服、智能推荐等。在此背景下,利用 Ollama 和 Dify 搭建一个可定制的 AI 系统成为了提升智能应用的重要途径。
通过 在 openEuler 系统上搭建一个基于 Ollama 和 Docker 的 AI 大模型平台,可以通过 Dify 平台将 Ollama 注册为模型供应商,从而实现不同服务应用效果。Dify 是一个轻量级的 AI 平台,能够快速整合模型和应用,允许用户通过简单的配置和管理,调用不同的 AI 模型提供服务。
(一)任务一:AI 大模型服务综合部署
1.子任务一:基本配置
本任务需要使用 root 用户完成相关配置,已提供操作系统镜像及需要配置前置环境,所需软件安装包均在/root/目录下。命令中要求使用绝对路径,具体要求如下:
(1)在 AI-SRV 中将操作系统镜像挂载至/media/cdrom,并实现开机自启。
(2)在 AI-SRV 中完成软件源配置文件的编写,禁用 GPG 校验,并为源数据建立缓存。
2.子任务二:环境搭建
本任务需要使用 root 用户完成相关配置,已提供 ollama 安装包及需要配置前置环境。命令中要求使用绝对路径,具体要求如下:
(1)在 AI-SRV 中为 ollama 配置用户/组,该用户仅用于运行服务,禁止其登录系统,家目录位于/usrlshare/ollama。
(2)在 AI-SRV 中为 root 用户加入附加组 ollama。
(3)在 AI-SRV 中将文件 ollama-linux-amd64.tgz 解压安装至/usr 目录下。
(4)在 AI-SRV 中编写 SystemD 服务配置,使用服务运行专用用户完成启动,无论发生任何意外情况,服务都会进行自动重启(冷却 3 秒),以保证服务可靠运行,服务需要监听所有地址。
(5)在 AI-SRV 中启动 ollama 服务,并完成开机启动配置,最终启动 ollama服务。
(6)在 AI-SRV 中导入 1.5b.tgz 压缩文件模型至 ollama。
(二)任务二:AI 大模型综合应用开发
1.子任务一:Dify 运行环境搭建
本任务需要使用root 用户完成相关配置,已提供安装dify 及需要配置前置环境。命令中要求使用绝对路径,具体要求如下:
(1)在 AI-SRV 中完成 Docker 环境的安装,并查看 Docker 版本信息。
(2)在 AlI-SRV 中将文件 dify-0.14.2.tar.gz 解压至/opt 路径中。
(3)在 AI-SRV 中完成 dify 镜像的导入,相关文件位于 dify-images 目录中,完成后检查镜像列表。
(4)在 AI-SRV 中完成 dify 的启动,并在客户机中访问 AI-SRV 中的 dify web服务。
(5)在客户机中访问 dify,完成用户注册,邮箱为 admin@dify.ai,用户名为 admin,密码为 Qwer1234,注册后登录 dify 管理页面。
(6)在客户机中访问 dify,完成对 ollama 模型提供商的注册。 2.子任务二:气象数据智能助手构建
本任务需要基于前置环境完成,选手须先自行完成配置,具体要求如下:
(1)根据气象数据分析场景需要, 创建空白应用 "Meteorological Data Assistant"。
(2)为用户提供气象数据智能查询功能,其中参数包含:Query(查询内容),支持以下类型的查询:
城市气候查询(如:"查询'广州'的历史平均温度、年降水量")
极端天气统计(如:"查询 2025 年广东省最高气温超过 35℃的天数")天气现象分析(如:"查询'暴雨'事件的发生频率和平均持续时间")区域对比分析(如:"对比珠三角和粤北地区的年平均风速")
气象趋势预测建议(基于历史数据的简单推演)
(3)为确保结果准确性,需要从以下多个维度提供数据支持:
基于 MySQL 数据库中的结构化气象数据( 如 hddb 数据库中的 weather、 city_info 等表)
基于清洗后的 CSV 文件(如 cleaned_weather_c5_N.csv 及相关处理结果)基于大模型的智能解析和推理能力
(4)配置提示词要求:
系统角色设定为 "气象数据分析专家"支持 SQL 查询语句的自动生成和解释
支持自然语言到气象数据分析需求的转换
输出结果需包含数据来源说明(如数据库表、CSV 文件等)
(5)运行应用,测试以下查询场景:
"查询 2025 年广州市每月平均气温和降水量"
"广东省哪个城市在 2025 年出现暴雨次数最多?" "对比深圳和珠海的风向频率分布"
"预测未来一周深圳的天气趋势(基于历史同期数据)"
"查询 2025 年广东省极端高温事件的持续时间和影响范围"
需要题目答案可联系博主!
需要竞赛样题答案可联系博主!!