发布第五天，我的开源项目突破 1.7 K Star！

大家好，我是 ConardLi。

今天跟大家来正式介绍一下我的开源项目：Easy Dataset。

github.com/ConardLi/ea...

3.13 号，我对外发布了第一个版本，到 3.16 Star 数破千，截止目前，已经 1.7K Star。

为啥这个工具一发布就受到广泛的关注和喜爱呢，下面我来具体介绍一下。

目前各行各业都在积极探索微调自己行业的大模型，其实微调的过程不是难事，最难的是数据集准备的环节，高质量领域数据集的构建始终面临多重挑战，所以我之前大模型微调的教程一发出，大家问的最多的就是数据集的问题：

我总结了常见问题就是这些：

目前市面上确实没有一款工具可以满足这样的需求，因此，借助 AI，我大概花了 3 个晚上的时间构建出了 Easy DataSet （github.com/ConardLi/ea...

架构设计

Easy DataSet 以 项目制 为核心单元，贯穿「文献处理-问题生成-答案构建-标签管理-格式导出」全链路：

核心模块：

模型配置中心 ：支持 OpenAI 格式 API（如 DeepSeek、各种三方模型提供商）及本地模型（Ollama），内置模型测试 Playground，支持多模型对比。
智能文献处理 ：采用「章节感知递归分块」算法，基于 Markdown 结构（#/##标题）实现语义级分割，确保单块内容完整（最小/最大长度可配），附带大纲提取与摘要生成。
领域标签体系：AI 自动生成二级领域树（如「Web安全-XSS攻击」），支持手动修正，为每个 QA对绑定精准标签，降低重复率。

数据生成引擎：

格式生态适配：

目前 Easy Dataset 支持客户端、NPM、Docker 三种启动方式，完全在本地处理数据，无需担心数据隐私问题。

为了解决各种本地部署的环境问题，可以直接用客户端启动，支持以下平台：

可以直接到 github.com/ConardLi/ea... 下载适合自己系统的安装包：

本项目基于 Next 构建，所以本地只要有 Node 环境就可以通过 NPM 直接启动，适合开发者，需要调试项目的同学：

bash 复制代码

   git clone https://github.com/ConardLi/easy-dataset.git
   cd easy-dataset

bash 复制代码

   npm install

bash 复制代码

   npm run build
   npm run start

如果你想自行构建镜像，在云服务或者内网环境私有部署，可以使用项目根目录中的 Dockerfile：

bash 复制代码

   git clone https://github.com/ConardLi/easy-dataset.git
   cd easy-dataset

bash 复制代码

   docker build -t easy-dataset .

bash 复制代码

   docker run -d -p 1717:1717 -v {YOUR_LOCAL_DB_PATH}:/app/local-db --name easy-dataset easy-dataset

注意： 请将 {YOUR_LOCAL_DB_PATH} 替换为你希望存储本地数据库的实际路径。

多模型统一管理：支持 OpenAI 标准协议 的模型接入，兼容 Ollama，用户仅需配置 模型名称、API地址、密钥 即可完成适配。内置模型库预填主流厂商端点，支持删除/新增自定义模型，所有配置 本地加密存储，保障数据安全。

任务参数精细化配置：

智能分块引擎：

输入：当前仅支持 Markdown（可以通过 MinerU 等工具自行转换 PDF/Word 等格式），后续会支持更多格式。
处理流程 ：
1. 章节感知分割 ：优先按#/##/###标题切分，保留完整章节
2. 递归字符截断：超长段落按句号→逗号递归切分，确保块长在配置区间
3. 块元数据：自动生成每块摘要（基于模型抽取）、字数统计、关联原始目录

领域标签树构建：