【项目实训】法律文书智能摘要系统6

本开发周期内,团队围绕系统的核心业务能力与底层技术架构取得了重大进展。我们不仅完成了面向用户的批量处理法规知识库 等关键功能模块,还从底层重构了AI助手的长程记忆机制 ,并夯实了文本处理管线用户认证体系。各项开发工作均按计划推进,系统在自动化效率、专业深度、智能连贯性和安全性方面均实现了质的飞跃。

一、 各模块开发进度详述

1. 法律文本智能摘要系统(核心业务模块)

  • 负责人/团队: jyx

  • 主要完成功能:

    • 批量摘要生成与历史记录: 实现了批量任务异步处理、进度跟踪、失败重试等功能。并引入了基于SQLite的持久化存储,支持任务的手动保存、查看与删除管理。

    • 法规知识库集成: 构建了完全本地化的法规知识库,实现了毫秒级条文检索,并集成了LLM智能问答能力,可自动补查并缓存未覆盖的查询。

    • 阅读与批注体验优化: 修复了原文高亮不显示的长期问题,优化了高亮样式,支持无文字纯高亮批注和高亮/下划线样式切换。同时,移除了冗余的分析面板,将法规查询集成至左侧悬浮面板,提升了阅读沉浸感。

  • 关键技术实现:

    • 后端: BatchTaskManager后台任务管理、FastAPI REST API、SSE流式推送、SQLite持久化。

    • 前端: BatchSummaryDialog.vueSavedRecords.vue等组件、Pinia状态管理、全局样式修复v-html高亮问题。

  • 核心交付物:

    • batch_summarizer.py, batch_summary.py

    • BatchSummaryDialog.vue, DocumentsListView.vue

    • SavedRecords.vue, 数据库新增saved_batch_tasks等表

  • 进度评估: 95% (核心功能已完成,待对接官方法规API作为备选数据源)

2. AI助手长程记忆系统(A-MEM落地)

  • 负责人/团队: lxj

  • 主要完成功能:

    • 核心算法落地: 成功复现了NeurIPS 2025论文《A-MEM》的核心三步算法,包括笔记构建、关联生成与记忆演化。

    • 工程化适配: 通过Monkey-Patch解决了与DeepSeek大模型的API兼容性问题,并将记忆模式从"会话级"升级为"全局级",实现了跨对话的知识共享。

    • 知识提取引擎(创新): 开发了智能知识提取模块,不再存储原始对话,而是由LLM自动萃取结构化的事实、证据、法条等知识点存入记忆库,大幅提升了记忆的信噪比和检索质量。

    • 可视化界面: 开发了MMMemoryView.vue页面,使用ECharts图库直观展示记忆图谱,支持节点点击、详情查看和力导向布局探索。

  • 关键技术实现: ChromaDB向量数据库、DeepSeek API适配、LLM结构化知识提取、ECharts图谱可视化。

  • 核心交付物:

    • legal_memory.py (A-MEM集成与适配层)

    • mmem.py (记忆管理API)

    • MMMemoryView.vue (记忆图谱前端)

  • 进度评估: 已完成 (已投入生产试用,待长期观察记忆演化效果)

3. 智能文本切片管线(基础数据层)

  • 负责人/团队: zzx

  • 主要完成功能:

    • 语义感知切片: 实现了基于文本块类型(特别是标题)的智能分割策略,确保法律文书章节的完整性。

    • 动态长度控制与重叠机制: 可按配置的字符数阈值(默认512)进行切分,并保留上一片段末尾内容(默认64字符)作为重叠,避免语义断裂。

    • 丰富元数据保留: 在生成的ChunkInfo结构中完整保留了页码、边界框、原始块索引等信息,为后续的检索溯源和原文定位提供了关键支持。

  • 关键技术实现: Python文本处理、可配置参数设计 (config.py)。

  • 核心交付物:

    • chunking.py (核心切片逻辑)

    • ChunkInfo 数据模型

  • 进度评估: 已完成 (已集成至文档上传处理管线)

4. 独立登录认证系统(安全与用户层)

  • 负责人/团队: wzr

  • 主要完成功能:

    • 完整的认证流程: 实现了独立的用户注册、登录、JWT Token颁发与验证功能。

    • 前后端集成: 后端基于FastAPI和JWT实现无状态认证,前端使用Pinia管理认证状态,并配置了路由守卫,实现了未登录拦截和登录后自动跳转。

    • 密码安全: 使用bcrypt对用户密码进行加密存储。

  • 关键技术实现: JWT、bcrypt、FastAPI依赖注入、Pinia、Vue Router守卫。

  • 核心交付物:

    • auth.py, user.py, auth_service.py, jwt_utils.py

    • auth.ts (Pinia store), LoginView.vue

  • 进度评估: 已完成 (基础功能已完备,权限管理(RBAC)规划为下一迭代)

二、 问题与解决方案总结

问题描述 所属模块 解决方案
DeepSeek API不支持response_format=json_schema A-MEM适配 采用Monkey-Patch,将schema内嵌至prompt,改用json_object模式。
ChromeDB实例冲突(文档检索与A-MEM) 系统集成 将文档向量检索改为PersistentClient,A-MEM保持ephemeral模式。
v-html插入的<mark>高亮元素样式不生效 前端批注 添加全局<style>块,并辅以内联样式,确保样式穿透和生效。
路由守卫未生效 前端认证 为需要登录的路由显式添加meta: { requiresAuth: true }配置。

三、 下一步工作计划

  1. 知识图谱演进:在现有法规知识库基础上,探索构建更复杂的法律知识图谱,实现法条、案例、观点的关联推理。

  2. 角色管理:在认证系统基础上,完成基于角色的访问控制(RBAC),实现律师、法官、助理等不同角色的权限隔离。

  3. 系统联调与测试:启动各模块间的集成测试,特别是A-MEM记忆与摘要生成的联动场景。

  4. 用户文档与部署:编写用户手册和系统部署文档,准备生产环境发布。

四、小结

本开发周期内,团队围绕法律文本智能摘要系统的核心业务与底层架构取得了全面突破。在应用层,我们实现了批量摘要生成与历史记录管理,大幅提升多文档处理效率;集成了完全本地化的法规知识库,支持毫秒级检索与LLM智能补查;并优化了阅读批注体验,修复高亮问题并新增下划线样式。在系统层,独立登录认证模块正式上线,实现了基于JWT的用户注册、登录与路由守卫。至此,系统已具备从文档解析、智能切片、向量检索到批量摘要、法规查询、用户认证的完整闭环能力。

在技术创新方面,团队成功复现了NeurIPS 2025的A-MEM长程记忆算法,并通过Monkey‑Patch适配DeepSeek模型,独创的知识提取引擎能从对话中自动萃取结构化知识而非存储原始消息,显著提升了记忆的信噪比与检索质量。智能文本切片模块采用语义感知策略,保留完整元数据,为精准溯源奠定基础。下一步,我们将持续推进知识图谱构建、基于角色的权限管理以及系统联调测试,确保生产环境的稳定与高效。

相关推荐
小白学大数据5 小时前
Scrapling:极简高效的 Python 智能爬虫框架
开发语言·爬虫·python·数据分析
辣椒思密达5 小时前
Python爬虫中如何正确配置住宅IP代理?新手避坑指南
c语言·python
ZhiqianXia5 小时前
流畅的Python笔记
笔记·python
财经资讯数据_灵砚智能6 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年5月20日
人工智能·python·信息可视化·自然语言处理·ai编程·灵砚智能
布吉岛的石头6 小时前
Java 程序员第 18 阶段:实战Agent工作流:Java搭建自动化业务智能体
java·python·自动化
Jurio.6 小时前
使用.py脚本下载并加载开源大模型LLMs
python·ai·llama
张哈大6 小时前
解密Function Calling:AI Agent工具调用的标准化核心
人工智能·python·ai
子榆.6 小时前
CANN ATC编译器:模型从Python到达芬奇指令走了多远
开发语言·python·neo4j
lookaroundd6 小时前
llm-compressor 普通量化调用链分析
python·算法