基于阿里云 DataWorks Data Agent 进行大模型热度分析

在全局 AI 模型呈现爆发式增长的背景下，高效洞察技术趋势已成为开发者和企业决策的关键。以全球最大的 AI 模型托管平台之一 Hugging Face 为例，其公开模型数量已突破 200 万。面对如此庞大且高频更新的数据，如何快速提取出高价值的模型热度、任务分布及社区关注度变化，对传统的数据开发方案提出了挑战。

本文将以分析 Hugging Face 模型趋势数据集（数万条真实快照数据）为例，展示如何利用 DataWorks Data Agent 实现从原始数据接入、清洗、质量控制、工作流编排到可视化分析的端到端自动化流程。

一、数据准备与接入

从 Kaggle 获取 Hugging Face 模型快照数据集，包含三张原始表：

hf_models_snapshot.csv（模型下载快照）：记录近 30 天内下载量最高的模型，适合做下载榜单和任务类型分布分析。
hf_models_trending.csv（模型趋势快照）：记录社区点赞数（Likes）较高的模型，适合分析社区关注度。
hf_recent_models.csv（最新模型表）：记录最新创建的模型，适合做新模型发现。

⚠️ 注意：下载量和点赞量代表的是热度，并不直接等同于模型能力强弱。

通过DataWorks数据上传功能，将几份CSV文件上传到了MaxCompute，并生成了以下三张原始表：

hf_models_snapshot
hf_models_trending
hf_recent_models

二、DataWorks Data Agent 数据开发

基于 DataWorks Data Agent 进行辅助开发，通过自然语言交互即可生成具体的 SQL 代码，一步步完成数据解析、清洗、检测与工作流的搭建。

2.1 字段探查与语义理解

Data Agent 接入 MaxCompute 原始表后，第一步并非盲目编写代码，而是进行字段探查。它能准确识别模型 ID、作者、下载量、点赞数、任务类型等字段的业务含义，并主动指出潜在风险（例如：下载量与点赞数需从字符串转换为数值，日期需转为标准格式）。

2.2 自动化 ETL 数据清洗

基于探查结果，Data Agent 自动生成高效的 SQL 代码，批量执行清洗操作，( 例如：将 downloads 和 likes 转换为数值型；将缺失的 pipeline_tag 统一标记为 unknown；规范化 gated（访问限制）字段分类；自动去除同一天同一个模型的重复记录等。）

最终，Data Agent 输出三张标准化的清洗表，为后续多维分析奠定基础。

2.3 完成数据质量检查

数据质量是数据资产化前提。Data Agent 基于清洗后的表结构，自主生成一套完整的数据质量监控规则，并执行校验。例如：

完整性校验：模型 ID、下载量、点赞数不允许为空；
值域合规性：指标数值必须大于等于 0；
一致性校验： snapshot_date 支持趋势分析，检查是否存在单日重复记录。

在此步骤中，Data Agent 还提供了专业的数据洞察。例如，它在报告中指出 "license 字段存在大比例缺失，不建议将其作为核心维度进行分析"。这种主动发现数据缺陷的能力，能有效规避低质量数据带来的决策偏差。

2.4 自动化 DAG 工作流编排

将清洗 → 检查 → 生成排行榜 → 输出结果表的流程固化为可调度任务链，最终输出 ADS 结果表供 ChatBI 使用。

三、DataWorks ChatBI：零代码交互式分析

业务分析人员及管理层无需掌握 SQL，基于自然语言，即可问数据、看图表、生成分析结论。

例如：

问："近 30 天下载量最高的模型有哪些？"

"不同任务类型的模型下载表现有什么差异？"

DataWorks ChatBI 会在后台自动解析查询意图，自动关联清洗后的结果表，生成包含大盘指标、排行榜单、历史趋势、作者组织分布及任务类型分析的多维可视化报告。甚至还附带了大模型自动生成的行业洞察与行动建议（例如：Qwen 系列模型近期热度极高，建议重点关注；Sentence-Transformers 生态非常活跃等）。

从枯燥的 CSV 文件，到一份"有图、有真相、有深度结论"的分析报告，全程只需几句大白话。这就是DataWorks Data Agent 的数据生产力！

四、NVIDIA NeMo Curator：赋能大规模高质量数据处理

在模型开发全链路中，训练数据质量直接决定模型性能。NVIDIA NeMo Curator 专注于 PB 级大规模数据的预处理，能够针对文本、图像、音视频等多模态数据，提供一整套可扩展的数据处理流水线：

更高准确率：用更少的数据和训练算力，实现更高准确率
更快处理速度：借助 RAPIDS 实现 GPU 加速
可扩展性： 通过跨多个节点扩展，可处理超过 100 PB 的数据
分类模型： 采用 SOTA 分类模型，以微服务形式保障安全性、内容合规性和多样性

NVIDIA NeMo Curator 支持训练数据的优化，DataWorks Data Agent 促进数据的理解与高效利用，两者协同互补，相辅相成。

五、DataWorks Data Agent，为开发者而生

Data Agent，是 DataWorks 平台内的一站式 AI 智能体，包含 Agent 智能体、代码编程助手、ChatBI 以及快捷 AI 操作等核心能力。依托强大的 AI 推理与自然语言交互技术，用户仅需通过对话即可自动化完成数据集成、数据开发与运维、质量治理、数据分析等全周期任务。此刻，DataWorks Data Agent 已完成从"功能模块"到"智能工作流中枢"的全面进化。新版本彻底打破了传统菜单式操作的局限，基于开发者与业务人员的真实习惯，重构为四种独立且无缝切换的交互模式：

Chat UI 模式：零门槛自然语言对话面板，开箱即用，让业务洞察触手可及；
CLI 模式：Web 终端直连，专为极客打造，敲命令、跑任务，效率拉满；
远程控制模式：扫码即连，手机端实时同步会话与执行进度，实现类似 Apple Continuity 的无缝接力，随时随地掌控全局；
IM Channel 模式：深度打通钉钉、飞书与企业微信，无需切换后台，在熟悉的聊天窗口中即可直接调用 Agent 能力。

立即开通，即刻开启你的智能开发分析之旅

DataWorks Data Agent 详细介绍 help.aliyun.com/zh/datawork...

DataWorks Data Agent 体验入口 dataworks.data.aliyun.com/product/age...