【项目实训】法律文书智能摘要系统6

本开发周期内,团队围绕系统的核心业务能力与底层技术架构取得了重大进展。我们不仅完成了面向用户的批量处理法规知识库 等关键功能模块,还从底层重构了AI助手的长程记忆机制 ,并夯实了文本处理管线用户认证体系。各项开发工作均按计划推进,系统在自动化效率、专业深度、智能连贯性和安全性方面均实现了质的飞跃。

一、 各模块开发进度详述

1. 法律文本智能摘要系统(核心业务模块)

  • 负责人/团队: jyx

  • 主要完成功能:

    • 批量摘要生成与历史记录: 实现了批量任务异步处理、进度跟踪、失败重试等功能。并引入了基于SQLite的持久化存储,支持任务的手动保存、查看与删除管理。

    • 法规知识库集成: 构建了完全本地化的法规知识库,实现了毫秒级条文检索,并集成了LLM智能问答能力,可自动补查并缓存未覆盖的查询。

    • 阅读与批注体验优化: 修复了原文高亮不显示的长期问题,优化了高亮样式,支持无文字纯高亮批注和高亮/下划线样式切换。同时,移除了冗余的分析面板,将法规查询集成至左侧悬浮面板,提升了阅读沉浸感。

  • 关键技术实现:

    • 后端: BatchTaskManager后台任务管理、FastAPI REST API、SSE流式推送、SQLite持久化。

    • 前端: BatchSummaryDialog.vueSavedRecords.vue等组件、Pinia状态管理、全局样式修复v-html高亮问题。

  • 核心交付物:

    • batch_summarizer.py, batch_summary.py

    • BatchSummaryDialog.vue, DocumentsListView.vue

    • SavedRecords.vue, 数据库新增saved_batch_tasks等表

  • 进度评估: 95% (核心功能已完成,待对接官方法规API作为备选数据源)

2. AI助手长程记忆系统(A-MEM落地)

  • 负责人/团队: lxj

  • 主要完成功能:

    • 核心算法落地: 成功复现了NeurIPS 2025论文《A-MEM》的核心三步算法,包括笔记构建、关联生成与记忆演化。

    • 工程化适配: 通过Monkey-Patch解决了与DeepSeek大模型的API兼容性问题,并将记忆模式从"会话级"升级为"全局级",实现了跨对话的知识共享。

    • 知识提取引擎(创新): 开发了智能知识提取模块,不再存储原始对话,而是由LLM自动萃取结构化的事实、证据、法条等知识点存入记忆库,大幅提升了记忆的信噪比和检索质量。

    • 可视化界面: 开发了MMMemoryView.vue页面,使用ECharts图库直观展示记忆图谱,支持节点点击、详情查看和力导向布局探索。

  • 关键技术实现: ChromaDB向量数据库、DeepSeek API适配、LLM结构化知识提取、ECharts图谱可视化。

  • 核心交付物:

    • legal_memory.py (A-MEM集成与适配层)

    • mmem.py (记忆管理API)

    • MMMemoryView.vue (记忆图谱前端)

  • 进度评估: 已完成 (已投入生产试用,待长期观察记忆演化效果)

3. 智能文本切片管线(基础数据层)

  • 负责人/团队: zzx

  • 主要完成功能:

    • 语义感知切片: 实现了基于文本块类型(特别是标题)的智能分割策略,确保法律文书章节的完整性。

    • 动态长度控制与重叠机制: 可按配置的字符数阈值(默认512)进行切分,并保留上一片段末尾内容(默认64字符)作为重叠,避免语义断裂。

    • 丰富元数据保留: 在生成的ChunkInfo结构中完整保留了页码、边界框、原始块索引等信息,为后续的检索溯源和原文定位提供了关键支持。

  • 关键技术实现: Python文本处理、可配置参数设计 (config.py)。

  • 核心交付物:

    • chunking.py (核心切片逻辑)

    • ChunkInfo 数据模型

  • 进度评估: 已完成 (已集成至文档上传处理管线)

4. 独立登录认证系统(安全与用户层)

  • 负责人/团队: wzr

  • 主要完成功能:

    • 完整的认证流程: 实现了独立的用户注册、登录、JWT Token颁发与验证功能。

    • 前后端集成: 后端基于FastAPI和JWT实现无状态认证,前端使用Pinia管理认证状态,并配置了路由守卫,实现了未登录拦截和登录后自动跳转。

    • 密码安全: 使用bcrypt对用户密码进行加密存储。

  • 关键技术实现: JWT、bcrypt、FastAPI依赖注入、Pinia、Vue Router守卫。

  • 核心交付物:

    • auth.py, user.py, auth_service.py, jwt_utils.py

    • auth.ts (Pinia store), LoginView.vue

  • 进度评估: 已完成 (基础功能已完备,权限管理(RBAC)规划为下一迭代)

二、 问题与解决方案总结

问题描述 所属模块 解决方案
DeepSeek API不支持response_format=json_schema A-MEM适配 采用Monkey-Patch,将schema内嵌至prompt,改用json_object模式。
ChromeDB实例冲突(文档检索与A-MEM) 系统集成 将文档向量检索改为PersistentClient,A-MEM保持ephemeral模式。
v-html插入的<mark>高亮元素样式不生效 前端批注 添加全局<style>块,并辅以内联样式,确保样式穿透和生效。
路由守卫未生效 前端认证 为需要登录的路由显式添加meta: { requiresAuth: true }配置。

三、 下一步工作计划

  1. 知识图谱演进:在现有法规知识库基础上,探索构建更复杂的法律知识图谱,实现法条、案例、观点的关联推理。

  2. 角色管理:在认证系统基础上,完成基于角色的访问控制(RBAC),实现律师、法官、助理等不同角色的权限隔离。

  3. 系统联调与测试:启动各模块间的集成测试,特别是A-MEM记忆与摘要生成的联动场景。

  4. 用户文档与部署:编写用户手册和系统部署文档,准备生产环境发布。

四、小结

本开发周期内,团队围绕法律文本智能摘要系统的核心业务与底层架构取得了全面突破。在应用层,我们实现了批量摘要生成与历史记录管理,大幅提升多文档处理效率;集成了完全本地化的法规知识库,支持毫秒级检索与LLM智能补查;并优化了阅读批注体验,修复高亮问题并新增下划线样式。在系统层,独立登录认证模块正式上线,实现了基于JWT的用户注册、登录与路由守卫。至此,系统已具备从文档解析、智能切片、向量检索到批量摘要、法规查询、用户认证的完整闭环能力。

在技术创新方面,团队成功复现了NeurIPS 2025的A-MEM长程记忆算法,并通过Monkey‑Patch适配DeepSeek模型,独创的知识提取引擎能从对话中自动萃取结构化知识而非存储原始消息,显著提升了记忆的信噪比与检索质量。智能文本切片模块采用语义感知策略,保留完整元数据,为精准溯源奠定基础。下一步,我们将持续推进知识图谱构建、基于角色的权限管理以及系统联调测试,确保生产环境的稳定与高效。

相关推荐
namexingyun3 分钟前
开源前端生态如何成为 AI UI 生成的“燃料“:shadcn/ui、Tailwind CSS、Storybook 技术价值全解剖
java·前端·人工智能·python·ui·开源·ai编程
通信仿真爱好者7 分钟前
第【17】期--考虑硬件损伤和不完美CSI的RIS-MISO系统的深度强化学习联合优化-python完整代码+参考文献
python·深度强化学习·ris
装不满的克莱因瓶13 分钟前
自然语言处理常见任务——从文本理解到生成式AI的完整任务体系
人工智能·pytorch·python·深度学习·ai·自然语言处理
游戏开发爱好者817 分钟前
iPhone真机调试有哪些方法?一次定位推送权限问题时整理出来的几种方案
ide·vscode·ios·objective-c·个人开发·swift·敏捷流程
ptc学习者17 分钟前
python 中描述符@property property 大概的样子
开发语言·python
zmzb010319 分钟前
Python课后习题训练记录Day129
开发语言·python
秋941 分钟前
Python工程师面试常问提问和回答(AI工程化方向 · 2026版)
人工智能·python·面试
炎武丶航44 分钟前
LeNet-5深度学习详解:从手写数字识别到代码实战
人工智能·python·深度学习·机器学习·ai·cnn·lenet
sitellla44 分钟前
Pydub:用 Python 处理音频,不写废话
开发语言·python·其他·音视频
TechWayfarer1 小时前
云服务器地域怎么选:用离线IP数据库识别用户来源并优化部署
服务器·数据库·python·tcp/ip·数据分析