中文法律AI大模型！LaWGPT 一键生成法律文书，司法考试通过率提升50%

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

📚 「南大黑科技让法律人卷疯了！AI大模型5秒生成起诉状，司法考试正确率碾压人类」

大家好，我是蚝油菜花。你是否经历过------

👉 通宵改合同却被客户说「缺少风险条款」
👉 查遍判例库也找不到相似案例的无力瞬间
👉 看着司法考试真题，明明背过法条却选错选项...

今天介绍的 LaWGPT 正在法律圈掀起革命！这个由南京大学研发的法律大模型，基于7B参数架构深度训练，不仅能像资深律师般分析案件，还能：

✅ 3分钟生成带司法解释的起诉书
✅ 司法考试模拟正确率突破87%
✅ 24小时解答劳动仲裁等民生法律问题

已有律所用它提升80%文书效率，备考党靠它突破分数瓶颈------你的法律AI助手已上线！

🚀 快速阅读

LaWGPT 是南京大学推出的中文法律大语言模型，专注于法律领域的文本生成和理解。

核心功能：提供法律咨询、文书生成、司法考试辅助、法律教育与培训、智能客服等功能。
技术原理：基于 LLaMA 模型进行二次预训练，扩充法律领域词表，并通过大规模法律语料预训练和指令精调提升模型性能。

LaWGPT 是什么

LaWGPT 是南京大学推出的中文法律大语言模型，基于 LLaMA 模型进行二次预训练，融入了大量中文法律知识。该模型专注于法律领域，能够理解和生成与法律相关的文本，适用于法律咨询、案例分析、法律文件生成等多种场景。

LaWGPT 有多个版本，包括 LaWGPT-7B-alpha 和 LaWGPT-7B-beta1.0，这些模型经过海量中文法律文本的训练，具备丰富的法律知识储备。无论是法律专业人士还是普通用户，都可以通过 LaWGPT 获得高效的法律支持。

LaWGPT 的主要功能

法律咨询：用户可以通过 LaWGPT 咨询各种法律问题，如合同纠纷、劳动法问题、知识产权保护等，模型会根据用户的问题给出相应的法律解释和建议。
法律文书生成：基于文本生成能力，LaWGPT 可以辅助律师和法律工作者快速生成法律文书，如合同、起诉状等，提高工作效率。
司法考试辅助：LaWGPT 可用于辅助准备中国司法考试，通过模拟考试题目和提供解析，帮助考生更好地理解和掌握法律知识。
法律教育与培训：作为法律教育工具，LaWGPT 可以帮助学生和教师更好地理解法律知识，提高教学效果。
智能客服：LaWGPT 可以应用于智能客服领域，自动回答用户的法律问题，提高客户服务效率。

LaWGPT 的技术原理

基础架构：LaWGPT 是在通用中文基座模型（如 Chinese-LLaMA、ChatGLM 等）的基础上进行扩展和优化的，提供了强大的语言生成和理解能力。
法律领域词表扩充：为了更好地处理法律问题，LaWGPT 扩充了法律领域的专有词表，模型能更准确地识别和理解法律术语及其上下文关系。
大规模法律语料预训练：LaWGPT 使用了大规模的中文法律语料进行预训练，包括法律文书、法典、司法案例等，涵盖了从宪法到地方性法规的广泛内容。
指令精调：在预训练的基础上，LaWGPT 进行了指令精调，开发团队构造了法律领域对话问答数据集和中国司法考试数据集，通过这些数据集对模型进行微调，进一步提升模型对法律问题的理解和回答能力。
知识引导数据生成框架（KGDG）：LaWGPT 采用了知识引导数据生成框架（KGDG），通过引入法律文档作为知识库，生成包含问题和推理路径的内容，并通过 KGFIX 和 DAVER 修复推理路径中的错误，确保生成数据的质量。

如何运行 LaWGPT

快速开始

1. 准备代码，创建环境

首先，您需要克隆 LaWGPT 项目的代码并创建运行环境。

bash 复制代码

# 下载代码
git clone git@github.com:pengxiao-song/LaWGPT.git
cd LaWGPT

# 创建环境
conda create -n lawgpt python=3.10 -y
conda activate lawgpt
pip install -r requirements.txt

2. 启动 web ui（可选，易于调节参数）

如果您希望通过图形化界面运行 LaWGPT，可以启动 web ui。

首先，执行服务启动脚本：

bash 复制代码

bash scripts/webui.sh

然后，访问 http://127.0.0.1:7860 即可进入 LaWGPT 的 web 界面。

3. 命令行推理（可选，支持批量测试）

如果您更倾向于通过命令行进行推理，可以按照以下步骤操作：

参考 resources/example_infer_data.json 文件内容构造测试样本集；
执行推理脚本：

bash 复制代码

bash scripts/infer.sh

其中，--infer_data_path 参数为测试样本集路径。如果路径为空或出错，程序将以交互模式运行。

数据构建与模型训练

数据构建

LaWGPT 的训练数据基于中文裁判文书网的公开法律文书数据和司法考试数据，经过以下步骤生成：

初级数据生成：采用 Stanford_alpaca 和 self-instruct 方法生成对话问答数据。
知识引导的数据生成：基于中文法律结构化知识生成高质量数据。
数据清洗：引入 ChatGPT 对数据进行清洗，进一步提升数据质量。

模型训练

LaWGPT 的训练分为两个阶段：

1. 二次训练流程

参考 resources/example_instruction_train.json 构造二次训练数据集。
运行以下脚本启动训练：

bash 复制代码

bash scripts/train_clm.sh

2. 指令精调步骤

参考 resources/example_instruction_tune.json 构造指令微调数据集。
运行以下脚本启动微调：

bash 复制代码

bash scripts/finetune.sh

模型评估

LaWGPT 在多个法律问答任务中表现出色，以下是一些示例输出：

问题：酒驾撞人怎么判刑？
- 回答示例：根据《中华人民共和国刑法》第一百三十三条规定，酒驾撞人构成交通肇事罪，情节严重的，处三年以上七年以下有期徒刑。
问题：民间借贷受国家保护的合法利息是多少？
- 回答示例：根据《最高人民法院关于审理民间借贷案件适用法律若干问题的规定》，年利率不得超过 24%。

局限性

尽管 LaWGPT 在法律领域表现出色，但仍存在一些局限性：

数据资源有限：由于数据规模较小，模型可能在事实性知识任务中生成不正确的结果。
意图对齐不足：模型可能生成不符合人类偏好和价值观的内容。
中文理解能力：在复杂法律文本的理解上仍有提升空间。

资源

GitHub 仓库 ：github.com/pengxiao-so...

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦