OpenCSG重磅开源｜CIMD开源，打造垂类数据集

CIMD 汇集的不是随意爬取的网络文本，而是具有代表性的权威文本。来源主体包括国家法律法规、行业标准、学术期刊、科研院所、行业协会和券商机构，专业深度覆盖铁矿石资源、采选加工、烧结球团、炼铁生产等完整产业链。每条记录都保留 source_details 字段，可以回溯到原始来源。这种权威性使得基于 CIMD 训练的模型在专业深度、行业可信度和实际应用价值上具备更高上限。

完整数据体系：不是文件汇总，而是知识图谱

CIMD 的数据组织不是简单的文件堆积，而是围绕铁矿石及矿冶产业链建立的完整行业数据体系。整个体系包含 9 个一级分类、42 个二级分类和 335 个三级/四级来源节点，覆盖法律文件与法规依据、行业规章与管理办法、政策文件与行业指导、行业标准、专利与知识产权、学术与培训资料、互联网舆情与观点分析、企业经营与运营信息、行业研究与市场报告等核心门类。这种体系化组织为专题扩展、增量采集、行业补数、基准任务设计和数据资产编目提供了结构框架。

元数据完整：从"能用"到"好用"的关键

CIMD 在每条记录中保留了丰富的元数据字段，包括 file_id、data_id、title、source_type、author、original_time、content_time、language、keywords、license_type 和 source_details。使用者可以按来源筛选只使用法律法规或只使用学术论文，按时间过滤获取特定时间段的政策变化，按语言分类进行中英文分离或混合使用，还可以将检索到的文本片段回溯到原始文件。对于长文档检索、来源归因、审计留痕、授权控制、质量抽检和数据资产管理，这类记录级元数据比单纯正文更有操作价值。

数据规模：38 万+记录，覆盖完整产业链

从语言分布来看，中文记录占 60.7%（232,169 条），英文记录占 30.1%（115,113 条），其他语言占 9.2%（35,143 条）。从来源类型来看，期刊论文最多达 116,926 条，其次是国家法律法规 95,394 条、学术出版物 57,492 条、学位论文 38,075 条、社会公众与自媒体舆情 31,178 条、企业基本信息 11,656 条、产能与产量数据 6,282 条、科研院所报告 5,143 条、行业协会报告 4,664 条和国内产业政策 2,393 条。

技术亮点：对标国家数据标准，面向可信流通

CIMD 的数据组织方式与国家数据局和全国数据标准化技术委员会发布的《高质量数据集建设指南》《高质量数据集格式要求》《高质量数据集分类指南》《高质量数据集质量评测规范》以及《国家数据基础设施建设指引》等系列标准保持同向。数据集将标识、来源、分类、时间、授权和来源说明直接放在记录体内，而不是外部台账，使得同一份快照可以直接进入数据目录编制、质量抽检、授权审计、责任追踪和可信流通流程，不需要在语料之外再补一套独立的元数据体系。这种设计使得 CIMD 不仅是一个研究数据集，更是一个符合国家数据基础设施建设方向的行业数据资产。

应用场景：从检索到 Agent 的全链路支撑

CIMD 的设计目标是直接可用于模型与应用，当前公开版本以统一 JSONL 格式发布，可直接进入：

场景一：垂直领域 RAG 系统

以铁矿石产业智能问答助手为例，当用户询问"2024 年铁矿石进口政策有哪些变化"时，系统可以沿着法律法规库、政策文件库、行业研究库到市场数据库的检索路径，基于跨来源证据链生成完整答案并标注来源。统一的 JSONL 格式可以直接接入向量数据库，完整的元数据支持精确过滤和来源归因，跨来源结构天然适配多跳推理。

场景二：行业 Agent 工作流

在矿企合规审查 Agent 的应用中，系统需要评估某矿企的环保合规性。完整的工作流包括检索相关法律法规和政策文件、查询企业经营信息和产能数据、对比行业标准和技术规范、分析舆情和行业研究报告，最终生成合规评估报告。完整的数据体系可以支撑这种复杂推理链，权威来源保证结论可信度，元数据则支持审计和责任追溯。

场景三：领域继续预训练与 SFT

在构建铁矿石产业垂直大模型时，预训练阶段可以使用全量 38 万+记录进行领域知识注入，SFT 阶段基于法规问答、技术问答、市场分析等构建指令数据，评测阶段则使用 CIMD 构建行业基准测试集。中英文混合语料提升多语言能力，跨来源结构增强知识融合能力，完整元数据支持数据筛选和质量控制。

场景四：文档智能与知识抽取

在产业知识图谱构建中，CIMD 可以支持矿企名称、矿区地点、技术术语等实体识别，企业-产能、政策-影响、技术-应用等关系抽取，以及政策发布、产能变化、市场波动等事件抽取。52 种来源类型覆盖完整产业链，丰富的关键词字段辅助标注，时间字段则支持时序分析。

从 Chinese FineWeb 到 CIMD: OpenCSG 的数据战略演进

如果我们回顾 OpenCSG 的数据开源历程，会发现一条清晰的战略演进路径：

第一阶段：通用中文语料（Chinese FineWeb 系列）

这一阶段的目标是为中文大模型提供高质量预训练语料。Chinese FineWeb 被清华大学论文选为 L1 层基础数据，支撑了 CMU H-Net、MiniCPM4 等多个前沿模型，成为中文 AI 研发的必备资源。这一阶段的特点是通用、大规模、高质量。

第二阶段：垂直行业语料（CIMD）

这一阶段的目标是为行业 AI 提供专业知识底座。CIMD 实现了从通用走向垂直、从单一来源走向跨来源整合、从语料库走向知识体系、从研究数据集走向数据资产的创新。这一阶段的特点是专业、权威、体系化、可信。

这种演进反映了 OpenCSG 对 AI 发展趋势的深刻洞察：通用大模型是基础，垂直行业 AI 是未来。

开源承诺：商业友好，推动产业智能化

CIMD 采用OpenCSG 数据集许可协议 （OpenCSG Dataset License Agreement）。在 Hugging Face 和 OpenCSG 平台的仓库 metadata 中，license 字段标注为other，表示本数据集采用平台预设列表之外的自定义许可协议；数据集的实际许可条款以 OpenCSG 数据集许可协议为准。

该协议明确支持商业用途。使用者可以将数据集用于研究、评测、验证、内部开发、模型训练、模型微调、检索增强、质量分析和合规审查等场景。如果计划将本数据集、基于本数据集训练或增强的模型、系统、Agent、API 服务或商业产品用于商业场景，需要遵循该协议的相关条款。OpenCSG 的开源核心理念：既要保护数据来源方的合法权益和知识产权，又要为行业 AI 发展提供必要的数据支撑。通过清晰的授权边界、完善的合规要求和灵活的商业许可机制，CIMD 为企业合规使用行业数据、构建垂直 AI 能力提供了可信路径。

数据获取与使用指南

通过 Git 获取（推荐）

bash 复制代码

git lfs installgitclonehttps://opencsg.com/datasets/OpenCSG/CIMD.gitcdCIMDgit lfs pull

使用 Hugging Face datasets

bash 复制代码

fromdatasetsimportload_datasetdataset = load_dataset( "OpenCSG/CIMD", "state_laws", # 可选子集  split="train",  streaming=True,)

11 个子集说明

使用注意事项

当前统计为解析记录数，不等同于去重后的原始文档数。子集通过 Git LFS 管理，clone 后需执行git lfs pull。不同来源之间可能存在重复、近重复或解析噪声。时间字段可能表示发布时间、内容时间或抽取时间，需结合具体记录判断。用于训练、分发或商用前，需结合来源信息核验实际授权范围。

展望：从铁矿石到更多行业

CIMD 的发布只是 OpenCSG 垂直行业数据战略的第一步。从数据体系的设计来看，这套方法论具有很强的可复制性和可扩展性。它可以复制到能源行业（石油、天然气、新能源）、化工行业（石化、精细化工）、金融行业（银行、证券、保险）、医疗行业（临床、药品、器械）等领域。同时，这套体系还可以在时间维度上持续更新构建时序数据集，在深度维度上增加更多细分领域和专题，在广度维度上扩展到上下游产业链，在质量维度上引入更精细的质量分层。

OpenCSG 正在探索的，是一条从通用 AI 到行业 AI、从语料库到知识体系、从研究数据集到数据资产的完整路径。

结语：行业 AI 的基础设施，从数据开始

当我们谈论 AI 在产业中的落地时，往往聚焦于模型架构、算法优化、算力投入，却容易忽视一个更基础的问题：行业 AI 需要什么样的数据？

CIMD 给出了一个清晰的答案：行业 AI 需要的不是简单的网络爬虫数据，而是权威来源的专业语料；不是单一类型的文本堆积，而是跨来源整合的知识体系；不是只有正文的纯文本，而是带有完整元数据的数据资产；不是封闭的研究数据集，而是商业友好的开源资源。

OpenCSG 通过 CIMD 的开源，正在做一件具有战略意义的事情：为行业 AI 构建数据基础设施。

这不是终点，而是起点。当越来越多的垂直行业拥有像 CIMD 这样的高质量数据集，当数据的组织方式从"文件堆积"升级为"知识体系"，当数据资产的流通从"封闭私有"转向"可信开放"，我们才能真正实现 AI 技术从实验室到产业的跨越。

CIMD 的开源，是行业 AI 从"能说话"到"真懂行"的关键一步。

引用格式：

bash 复制代码

@dataset{opencsg_cimd_2026, title    = {CIMD: A Cross-Source Industry Corpus for Iron Ore, Mining, Metallurgy, Policy, and Market Intelligence}, author    = {OpenCSG}, year     = {2026}, url     = {https://opencsg.com/datasets/OpenCSG/CIMD}, note     = {OpenCSG dataset repository}
}

OpenCSG社区：https://opencsg.com/datasets/OpenCSG/CIMD

hf社区：https://huggingface.co/datasets/opencsg/CIMD

魔搭社区：https://modelscope.cn/datasets/opencsg/CIMD

关于 OpenCSG

OpenCSG是全球领先的开源大模型社区平台，致力于打造开放、协同、可持续生态，AgenticOps是**人工智能领域的一种AI原生方法论，**由OpenCSG（开放传神）提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的一站式托管、协作与共享服务，具备业界领先的模型资产管理能力，支持多角色协同和高效复用。