Agent案例-智能文档问答助手

智能文档问答助手学习笔记

1. 案例背景与目标

1.1 问题背景

在实际工作中，我们经常需要处理大量的技术文档、研究论文、产品手册等PDF文件。传统的文档阅读方式效率低下，难以快速定位关键信息，更无法建立知识间的关联。

1.2 学习目标

本案例基于Datawhale的Happy-LLM教程PDF文档，构建一个基于Gradio的Web应用，展示如何使用RAGTool和MemoryTool构建完整的交互式学习助手。

1.3 功能目标

智能文档处理：使用MarkItDown实现PDF到Markdown的统一转换，基于Markdown结构的智能分块策略，高效的向量化和索引构建
高级检索问答：多查询扩展（MQE）提升召回率，假设文档嵌入（HyDE）改善检索精度，上下文感知的智能问答
多层次记忆管理：工作记忆管理当前学习任务和上下文，情景记忆记录学习事件和查询历史，语义记忆存储概念知识和理解，感知记忆处理文档特征和多模态信息
个性化学习支持：基于学习历史的个性化推荐，记忆整合和选择性遗忘，学习报告生成和进度追踪

2. 系统架构与设计思路

2.1 执行流程

整个系统形成了一个完整的闭环：

将PDF文档处理后的信息记录到记忆系统
检索结果也会记录到记忆系统
记忆系统提供完整功能（添加、检索、整合、遗忘）
整合RAG和Memory提供智能路由
收集所有统计信息生成学习报告

PDF文档 → 加载到RAG知识库 → 向文档提问 → 记录学习笔记
↑ ↓
└────────────────── 生成学习报告 ←───────────┘

2.2 技术架构

整个应用分为三个核心部分：

核心助手类（PDFLearningAssistant）：封装RAGTool和MemoryTool的调用逻辑
Gradio Web界面：提供友好的用户交互界面
其他核心功能：笔记记录、学习回顾、统计查看和报告生成

3. 核心助手类实现

3.1 类的初始化

核心类PDFLearningAssistant封装了RAGTool和MemoryTool的调用逻辑。

python 复制代码

class PDFLearningAssistant:
    """智能文档问答助手"""
    
    def __init__(self, user_id: str = "default_user"):
        """初始化学习助手
        Args:
            user_id: 用户ID，用于隔离不同用户的数据
        """
        self.user_id = user_id
        self.session_id = f"session_{datetime.now().strftime('%Y%m%d_%H%M%S')}"

        # 初始化工具
        self.memory_tool = MemoryTool(user_id=user_id)
        self.rag_tool = RAGTool(rag_namespace=f"pdf_{user_id}")

        # 学习统计
        self.stats = {
            "session_start": datetime.now(),
            "documents_loaded": 0,
            "questions_asked": 0,
            "concepts_learned": 0
        }

        # 当前加载的文档
        self.current_document = None

设计决策：

通过user_id参数实现用户级别的记忆隔离
通过rag_namespace参数实现知识库的命名空间隔离（使用f"pdf_{user_id}"作为命名空间）
使用session_id追踪单次学习会话
stats字典记录关键的学习指标

3.2 加载PDF文档

python 复制代码

def load_document(self, pdf_path: str) -> Dict[str, Any]:
    """加载PDF文档到知识库
    Args:
        pdf_path: PDF文件路径
    Returns:
        Dict: 包含success和message的结果
    """
    if not os.path.exists(pdf_path):
        return {"success": False, "message": f"文件不存在: {pdf_path}"}

    start_time = time.time()

    # 【RAGTool】处理PDF: MarkItDown转换 → 智能分块 → 向量化
    result = self.rag_tool.execute(
        "add_document",
        file_path=pdf_path,
        chunk_size=1000,
        chunk_overlap=200
    )

    process_time = time.time() - start_time

    if result.get("success", False):
        self.current_document = os.path.basename(pdf_path)
        self.stats["documents_loaded"] += 1

        # 【MemoryTool】记录到学习记忆
        self.memory_tool.execute(
            "add",
            content=f"加载了文档《{self.current_document}》",
            memory_type="episodic",
            importance=0.9,
            event_type="document_loaded",
            session_id=self.session_id
        )

        return {
            "success": True,
            "message": f"加载成功！(耗时: {process_time:.1f}秒)",
            "document": self.current_document
        }
    else:
        return {
            "success": False,
            "message": f"加载失败: {result.get('error', '未知错误')}"
        }

工作原理：

使用RAGTool的add_document操作处理PDF
触发完整流程：MarkItDown转换 → 智能分块 → 向量化
文档加载成功后，使用MemoryTool记录到情景记忆（因为这是一个具体的、有时间戳的事件）

4. 核心功能详解

4.1 智能问答功能

python 复制代码

def ask(self, question: str, use_advanced_search: bool = True) -> str:
    """向文档提问
    Args:
        question: 用户问题
        use_advanced_search: 是否使用高级检索（MQE + HyDE）
    Returns:
        str: 答案
    """
    if not self.current_document:
        return "⚠️ 请先加载文档！"

    # 【MemoryTool】记录问题到工作记忆
    self.memory_tool.execute(
        "add",
        content=f"提问: {question}",
        memory_type="working",
        importance=0.6,
        session_id=self.session_id
    )

    # 【RAGTool】使用高级检索获取答案
    answer = self.rag_tool.execute(
        "ask",
        question=question,
        limit=5,
        enable_advanced_search=use_advanced_search,
        enable_mqe=use_advanced_search,
        enable_hyde=use_advanced_search
    )

    # 【MemoryTool】记录到情景记忆
    self.memory_tool.execute(
        "add",
        content=f"关于'{question}'的学习",
        memory_type="episodic",
        importance=0.7,
        event_type="qa_interaction",
        session_id=self.session_id
    )

    self.stats["questions_asked"] += 1

    return answer

高级检索流程：

多查询扩展（MQE）：通过LLM生成语义等价但表述不同的查询，提升召回率30%-50%
假设文档嵌入（HyDE）：生成假设答案文档，桥接查询和文档的语义鸿沟，改善检索精度

4.2 学习笔记管理

python 复制代码

def add_note(self, content: str, concept: Optional[str] = None):
    """添加学习笔记"""
    self.memory_tool.execute(
        "add",
        content=content,
        memory_type="semantic",
        importance=0.8,
        concept=concept or "general",
        session_id=self.session_id
    )
    self.stats["concepts_learned"] += 1

设计选择：使用语义记忆存储学习笔记，因为笔记是抽象的概念知识，需要长期保存。

4.3 学习回顾功能

python 复制代码

def recall(self, query: str, limit: int = 5) -> str:
    """回顾学习历程"""
    result = self.memory_tool.execute(
        "search",
        query=query,
        limit=limit
    )
    return result

4.4 学习统计功能

python 复制代码

def get_stats(self) -> Dict[str, Any]:
    """获取学习统计"""
    duration = (datetime.now() - self.stats["session_start"]).total_seconds()
    return {
        "会话时长": f"{duration:.0f}秒",
        "加载文档": self.stats["documents_loaded"],
        "提问次数": self.stats["questions_asked"],
        "学习笔记": self.stats["concepts_learned"],
        "当前文档": self.current_document or "未加载"
    }

4.5 学习报告生成

python 复制代码

def generate_report(self, save_to_file: bool = True) -> Dict[str, Any]:
    """生成学习报告"""
    memory_summary = self.memory_tool.execute("summary", limit=10)
    rag_stats = self.rag_tool.execute("stats")

    duration = (datetime.now() - self.stats["session_start"]).total_seconds()
    report = {
        "session_info": {
            "session_id": self.session_id,
            "user_id": self.user_id,
            "start_time": self.stats["session_start"].isoformat(),
            "duration_seconds": duration
        },
        "learning_metrics": {
            "documents_loaded": self.stats["documents_loaded"],
            "questions_asked": self.stats["questions_asked"],
            "concepts_learned": self.stats["concepts_learned"]
        },
        "memory_summary": memory_summary,
        "rag_status": rag_stats
    }

    if save_to_file:
        report_file = f"learning_report_{self.session_id}.json"
        with open(report_file, 'w', encoding='utf-8') as f:
            json.dump(report, f, ensure_ascii=False, indent=2, default=str)
        report["report_file"] = report_file

    return report

学习报告内容：

会话基本信息
学习指标统计
记忆系统摘要
RAG知识库状态

5. Web界面与用户体验

5.1 页面设计

Gradio界面设计注重用户体验，提供了以下功能区域：

1. 初始化区域

显示系统状态（数据库连接、模型加载等）
提供初始化按钮

2. 文档加载区域

PDF文件上传功能
加载状态显示
文档信息展示

3. 智能问答区域

问题输入框
高级检索选项（MQE、HyDE）
答案显示区域
参考来源展示
相似度分数显示

4. 学习笔记区域

笔记内容输入框
概念选择下拉菜单
笔记列表显示

5. 学习统计区域

会话时长
加载文档数量
提问次数
学习笔记数量

6. 学习报告区域

生成报告按钮
报告内容预览
报告下载功能

5.2 交互流程

用户打开应用，点击"初始化助手"
上传PDF文档，点击"加载文档"
在问答区域输入问题，点击"提问"
查看答案和参考来源
可选：添加学习笔记
可选：查看学习统计和生成学习报告

6. 技术亮点与创新

6.1 RAG与Memory的协同

智能路由机制：

简单问题（如"我之前问过什么？"）→ 直接使用Memory
文档相关问题（如"PDF中的某个概念"）→ 使用RAG
复杂问题（需要上下文）→ 结合RAG和Memory

学习历程追踪：

每个操作都会记录到相应的记忆类型
形成完整的学习轨迹
支持学习报告生成和学习历程回顾

6.2 高级检索策略

MQE（多查询扩展）：提升召回率30%-50%
HyDE（假设文档嵌入）：改善检索精度
混合检索：向量检索+图检索+语义推理

6.3 智能记忆管理

工作记忆：管理临时会话信息
情景记忆：记录学习事件和查询历史
语义记忆：存储概念知识和用户偏好
感知记忆：处理文档特征和多模态信息

7. 部署与运行

7.1 安装依赖

bash 复制代码

pip install "hello-agents[all]==0.2.0"
python -m spacy download zh_core_web_sm
python -m spacy download en_core_web_sm

7.2 配置环境

bash 复制代码

# Qdrant向量数据库
QDRANT_URL=https://your-cluster.qdrant.tech:6333
QDRANT_API_KEY=your_qdrant_api_key_here

# Neo4j图数据库
NEO4J_URI=neo4j+s://your-instance.databases.neo4j.io
NEO4J_USERNAME=neo4j
NEO4J_PASSWORD=your_neo4j_password_here

# 嵌入服务配置
EMBED_MODEL_TYPE=dashscope
EMBED_MODEL_NAME=
EMBED_API_KEY=

7.3 启动应用

bash 复制代码

python 11_Q&A_Assistant.py

访问 http://localhost:7860 即可使用。

8. 学习要点与扩展

8.1 学习重点

RAG与Memory的结合：理解两者如何协同工作
智能文档处理：掌握PDF到Markdown的转换流程
高级检索策略：理解MQE和HyDE的原理和使用场景
记忆系统的应用：学会如何使用四种记忆类型
Web应用开发：了解Gradio界面设计和交互逻辑

8.2 扩展方向

功能扩展

支持更多文档格式：Word、Excel、PPT等
多语言支持：除中文外，支持其他语言
文档对比功能：支持多个文档的对比检索
知识图谱可视化：语义记忆的可视化展示

性能优化

分块策略优化：根据文档类型调整分块大小
检索效率优化：改进向量检索和图检索的性能
内存管理优化：优化工作记忆的TTL机制

部署优化

Docker部署：提供容器化部署方案
多用户支持：支持多个用户同时使用
云端部署：AWS、阿里云等云平台部署

8.3 思考与讨论

如果要设计一个企业知识库问答系统，你会如何扩展这个应用？
如何处理超大PDF文档（1000页以上）的分块和检索？
如何设计一个自动问答质量评估机制？
如何集成更多的记忆类型（如空间记忆、情感记忆）？

总结

本案例展示了如何使用HelloAgents框架构建一个完整的智能文档问答助手。通过RAG技术，我们解决了文档检索的准确性和效率问题；通过记忆系统，我们实现了学习历程的追踪和个性化服务。这个应用不仅提供了基本的问答功能，还支持学习笔记、学习统计和学习报告生成，形成了一个完整的学习闭环。

这个案例充分体现了HelloAgents框架的优势：

模块化设计：各个组件可以独立使用或组合使用
可扩展性：支持功能和性能的持续优化
易用性：简化了复杂任务的实现过程
智能性：结合了最新的AI技术，提供智能化的服务

Agent案例-智能文档问答助手

智能文档问答助手学习笔记

目录

1. 案例背景与目标

1.1 问题背景

1.2 学习目标

1.3 功能目标

2. 系统架构与设计思路

2.1 执行流程

2.2 技术架构

3. 核心助手类实现

3.1 类的初始化

3.2 加载PDF文档

4. 核心功能详解

4.1 智能问答功能

4.2 学习笔记管理

4.3 学习回顾功能

4.4 学习统计功能

4.5 学习报告生成

5. Web界面与用户体验

5.1 页面设计

1. 初始化区域

2. 文档加载区域

3. 智能问答区域

4. 学习笔记区域

5. 学习统计区域

6. 学习报告区域

5.2 交互流程

6. 技术亮点与创新

6.1 RAG与Memory的协同

6.2 高级检索策略

6.3 智能记忆管理

7. 部署与运行

7.1 安装依赖

7.2 配置环境

7.3 启动应用

8. 学习要点与扩展

8.1 学习重点

8.2 扩展方向

功能扩展

性能优化

部署优化

8.3 思考与讨论

总结