数据集制作--easy-dataset

青霄2025-09-29 15:31

一、概述

Easy Dataset 是一个专为创建大型语言模型（LLM）微调数据集而设计的应用程序。它提供了直观的界面，用于上传特定领域的文件，智能分割内容，生成问题，并为模型微调生成高质量的训练数据。
通过 Easy Dataset，您可以将领域知识转化为结构化数据集，兼容所有遵循 OpenAI 格式的 LLM API，使微调过程变得简单高效。

二、安装

2.1、Docker安装

1、克隆仓库
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
2、构建Docker镜像
docker build -t easy-dataset .
3、运行容器
docker run -d -p 1717:1717 -v {YOUR_LOCAL_DB_PATH}:/app/local-db --name easy-dataset easy-dataset
4、打开浏览器，访问 http://localhost:1717

2.2、使用 NPM 安装

克隆仓库：
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
安装依赖：
npm install
启动开发服务器：
npm run build
npm run start
打开浏览器并访问 http://localhost:1717

三、使用方法

3.1、创建项目

在首页点击"创建项目"按钮；
输入项目名称和描述；
添加模型，测试模型

3.2、处理文档

右上角选择模型
在"文献处理"页面上传您的文件（支持 PDF、Markdwon、txt、DOCX）；
查看和调整自动分割的文本片段；
查看和调整全局领域树

3.3、生成问题

基于文本块"批量生成问题"；
查看并编辑生成的问题；
使用标签树组织问题

3.4、创建数据集

基于问题"批量构造数据集"；
使用配置的 LLM 生成答案；
查看、编辑并优化生成的答案

3.5、导出数据集

在数据集管理页面，勾选问题，"导出数据集"按钮；
选择您喜欢的格式（Alpaca 或 ShareGPT）；
选择文件格式（JSON 或 JSONL）；
根据需要添加自定义系统提示；
导出您的数据集

四、参考

easy-dataset/README.zh-CN.md at main · ConardLi/easy-dataset

⁠‌‌‬‌⁠‌⁠‬‌⁠‬‍‌⁠‌‬⁠⁠⁠‬⁠⁠‌‌‌‌Easy Dataset × LLaMA Factory: 让大模型高效学习领域知识 - 飞书云文档

【2025最新】从0打造大模型微调数据集，一键将领域知识转化为结构化数据集，使数据集构造过程变得简单高效！超详细讲解，原理详解+项目实战！_哔哩哔哩_bilibili

上一篇：在 Trae 国际版中添加 Chrome Dev MCP Server（Windows 实战指南）

下一篇：Java 调用高德地图Sig签名遇10007 INVALID_USER_SIGNATURE的解决之道

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 年 AI 大模型 & AI 编程工具实战全总结 092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？10微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新