我开发了一个面向大模型训练的数据集构建平台：DatasetLoom

在做 LLM 微调的过程中，你是否也遇到过这些问题？

我们越来越清楚地意识到：模型的能力上限，取决于训练数据的质量下限。

但现实是，大多数团队还在用"人工+Prompt+Excel"的方式生产数据------效率低、难追溯、难协作。

于是，我做了 DatasetLoom ------ 一个面向 大模型训练 的智能数据集构建平台。

DatasetLoom 的目标不是"全自动生成数据"，而是提供一个端到端、可验证、支持团队协作的数据构建闭环。

整个流程如下：

上传文档 → 2. 智能分块 → 3. 自定义 Prompt 生成问题/回答 → 4. AI 多维度评分 → 5. 人工审核 + 溯源验证 → 6. 导出为 SFT/DPO 数据集

支持上传 PDF、Word、Markdown、TXT 等文本文件，系统会自动按段落、标题或语义进行切分，避免上下文断裂，确保每一块内容都具备独立语义。

你可以根据文档类型配置不同的分块策略以及数据清洗规则

每个数据生成环节都设计了专属的 Prompt 模板，支持完全自定义，确保生成内容符合你的任务需求。

同时支持多个大模型生成结果，便于后续对比评估。

在完成问题生成与 AI 评分后，所有数据会统一归集到 QA 数据集管理界面，支持三种展示模式，满足不同微调任务的需求：

2. 用于 SFT（监督微调）

仅展示每个问题的"主答案"（可手动或自动选定最优回答），形成标准的 instruction → response 格式，可直接导出为 SFT 训练语料。

3. 用于 DPO（偏好对齐）

展示已标注偏好的问答对，每条记录包含同一个问题下的 chosen（优选回答） 与 rejected（劣选回答），支持人工复核与 AI 辅助标注，确保偏好数据高质量、可解释。

可以基于同一份原始文档，高效产出多种类型的训练数据，真正实现"一套数据，多任务复用"。

让每一条生成的数据都可评估、可追溯。系统内置多维度 AI 评分体系，由大模型自动评估输出质量：

生成的回答都会标注其来源段落，点击即可查看原始上下文，真正做到"有据可查"。这一机制极大提升了数据审核效率，尤其适合团队协作场景。

所有经过生成、评分、审核的数据，都可以一键导出为：

真正实现从"原始文档"到"可用语料/数据集"的无缝闭环。

层级	技术
前端	Next.js + React 18 + Tailwind CSS
后端	NestJS + TypeScript + RESTful API
ORM	Prisma（支持 SQLite/MySQL/PostgreSQL/SQL Server）
向量数据库	Qdrant（用于 RAG 检索）
构建系统	Turborepo + pnpm

DatasetLoom 适用于以下典型场景：

bash 复制代码

git clone https://github.com/599yongyang/DatasetLoom.git
cd DatasetLoom
pnpm install
pnpm run dev

也支持 Docker 一键部署，生产环境开箱即用：

bash 复制代码

docker compose up -d --build

如果你也在为高质量训练数据发愁，DatasetLoom 或许能帮上忙。

GitHub: github.com/599yongyang...