【开源】轻量级 LLM 文本质检工具：精准识别核心概念缺失，支持动态别名 + 反馈闭环

一、引言

随着大语言模型（LLM）在技术文档生成、AI 问答、开源项目说明等场景的广泛应用，LLM 生成内容的 "概念完整性" 成为核心痛点：人工质检效率低、对专业概念的判定易遗漏、无法批量识别 "未实现 / 计划中 / 已实现" 等语义状态。

为此，我开源了一款轻量级 LLM 文本质检工具，基于 Python 开发，无需 GPU、开箱即用，可精准识别文本中核心技术概念的语义状态，支持动态别名匹配、对抗性反问自动生成、反馈闭环优化，完美解决 LLM 生成内容的质检难题。

👉 开源地址：https://gitcode.com/edisao/edisao-pkm-v2-core1

二、核心功能

多维度语义状态判定
自动识别文本中核心概念的 4 种语义状态，告别人工逐条标注：
✅ 已实现：概念明确体现 "完成 / 落地"（如 "实现了幂等性""通过限流保障稳定性"）；
⚠️ 未实现：概念明确体现 "未完成 / 放弃"（如 "未做熔断机制"）；
🔄 计划 / 评估中：概念体现 "待开发 / 规划中"（如 "配置中心还在评估中""计划下周开发库存扣减"）；
❌ 缺失：文本未提及该核心概念。
动态别名智能匹配
基于 jieba 分词实现概念的 "精准匹配 + 别名匹配"，解决 "同义不同名" 判定难题：
支持自定义概念别名（如 "熔断" 匹配 "故障隔离 /circuit breaker"、"限流" 匹配 "rate limit / 流量控制"）；
分词级匹配，避免 "服务注册" 误匹配 "服务发现" 等边界情况。
对抗性反问自动生成
针对 "未实现 / 计划中 / 缺失" 的概念，自动生成标准化反问，辅助人工核验：
示例："微服务的核心概念「分布式追踪」未被提及 ------ 是否实现或考虑过「分布式追踪」？"；
覆盖所有异常状态概念，无需人工编写反问话术。
反馈闭环优化
支持用户输入质检结果反馈，后续可基于反馈调整匹配规则：
反馈内容自动保存至edisao_feedback.yaml；
可通过调整词库权重（word_weights.json）优化判定精度。
批量 / 单文本质检
支持单文本快速质检（测试场景）、文件夹批量质检（生产场景），适配不同使用需求。
三、使用场景
LLM 生成技术文档质检
对 GPT / 文心一言等生成的微服务 / RAG / 订单系统等技术文档，批量检查核心概念的完整性，避免 "漏写 / 错写关键特性"。
AI 问答内容审核
针对客服机器人 / AI 助手生成的技术问答内容，核验是否覆盖核心知识点，确保回答的完整性。
开源项目文档校验
开源项目维护者可快速校验 README / 使用文档是否覆盖核心功能概念，提升文档质量。
企业内部 AI 内容合规检查
中小团队可低成本实现 AI 生成内容的 "概念完整性" 合规检查，替代人工逐条审核。
四、适用人群
AI 产品运营 / 内容审核人员：无需编程基础，开箱即用完成 LLM 内容质检；
技术文档工程师：快速校验文档核心概念完整性，提升产出效率；
开源项目维护者：低成本优化项目文档，降低用户理解成本；
编程新手：学习 "分词匹配 / 语义判定 / 配置化开发" 等 NLP 入门知识点；
中小团队研发 / 测试人员：辅助校验需求文档 / 技术方案的概念完整性。
五、运行环境
系统兼容
Windows（Win10/11）、Linux（CentOS/Ubuntu）、macOS；
无需 GPU，普通办公 PC 即可流畅运行。
技术依赖
Python 版本：3.8 及以上（兼容 3.14 等新版本）；
核心依赖库（仅 3 个，轻量化）：
bash
运行
pip install jieba pyyaml requests
六、快速上手（5 分钟跑通）
克隆仓库
bash
运行
git clone https://gitcode.com/edisao/edisao-pkm-v2-core1.git
cd edisao-pkm-v2-core1
安装依赖
bash
运行
pip install jieba pyyaml requests
运行测试
bash
运行
python run.py
默认测试文本为微服务 / RAG / 订单系统相关内容；
运行后自动输出质检结果 + 对抗性反问，按提示输入反馈即可完成闭环。
自定义规则（可选）
修改synonym.txt：添加 / 删除概念别名（格式：概念:别名1,别名2,别名3）；
修改word_weights.json：调整语义词权重（如新增 "计划下周开发" 为模糊词、"通过" 为正向词）；
修改rules.yaml：新增 / 删除需要质检的核心概念（如新增 "分布式锁""缓存击穿" 等）。
七、功能详解
动态别名配置（synonym.txt）
示例配置：
txt
熔断:故障隔离,circuit breaker,熔断器
服务注册:注册中心,registry,nacos注册
限流:rate limit,流量控制,限流策略
核心概念为冒号前的内容，冒号后为别名；
支持中英文别名，分词时自动匹配。
语义权重配置（word_weights.json）
示例配置：
json
{
"positive": {"实现了": 1.0, "已做": 1.0, "通过": 1.0}, // 已实现正向词
"negative": {"未做": 1.0, "没做": 1.0, "暂不支持": 1.0}, // 未实现负向词
"fuzzy": {"评估中": 1.0, "计划实现": 1.0, "计划下周开发": 1.0} // 计划中模糊词
}
权重值（如 1.0）表示匹配优先级，值越高判定越精准；
可自定义新增语义词，适配不同业务场景。
核心概念配置（rules.yaml）
示例配置：
yaml
微服务:
description: 微服务架构核心要素
concepts:
服务注册: \[\]
服务发现: \[\]
熔断: \[\]
限流: \[\]
按 "领域→概念" 层级配置，支持新增任意领域（如 "大数据""前端"）。
八、总结
这款 LLM 文本质检工具的核心优势在于：轻量、易扩展、开箱即用，无需复杂的机器学习模型，仅通过 "分词匹配 + 语义规则" 即可解决 80% 的 LLM 内容质检场景需求。
工具亮点
零成本：Python 轻量依赖，普通 PC 即可运行；
高适配：支持自定义概念 / 别名 / 语义规则，适配任意行业；
全闭环：从质检→反问→反馈→优化，一站式解决问题。

如果该工具对你有帮助，欢迎到 GitCode 仓库点星、提 Issue，一起完善这个轻量化质检工具～