NLP CH10 问答系统复习

1. 专家系统

特点

  • 问题聚焦:限定在特定领域。
  • 数据结构化:使用结构化的领域知识。
  • 数据库支持:后台有一个数据库,保存系统可提供的各种数据。
  • 查询机制:用户提问时,系统将问题转换为 SQL 查询语句,从数据库中检索数据并提供给用户。

构建系统的关键

  1. 结构化数据库:构建一个特定领域的完备结构数据库。
  2. 查询转换:能够准确、高效地将问题转化为查询语言形式的查询。

局限性

  • 应用范围有限:通常只能用于限定领域。

2. 检索式问答系统

特点

  • 开放领域:问题领域不受限。
  • 基于非结构化数据:主要依赖Web数据。
  • 检索内容简短:通常为词或词组。

处理框架


流水线方式
  • 主要框架 :主要为Document Retriever 和 Document Reader两步
  • 典型研究
    • DrQA:基于维基百科的流水线问答系统,结合文档检索与阅读理解。
  • 答案重排序
    • 基于"多片段证据聚合"的方法(Wang等,ICLR 2018),结合不同片段的证据进行答案重排序。
端到端方式
  • Retriever-Reader联合学习
    • 研究动机:通过联合学习整合检索与阅读任务,减少中间步骤对性能的影响。
    • 方法:利用BERT等神经网络,训练问题-答案对而非完整文档数据。
    • 典型研究
      • ORQA(Latent Retrieval for Weakly Supervised QA):通过"逆向填空任务"预训练检索器,提升检索效率。
  • 基于预训练的Retriever-Free方法
    • 直接使用大规模预训练模型(如GPT-2, T5)记忆知识,从模型中直接生成答案,无需文档检索。
  • 小结 :在非结构化数据上的大规模预训练模型在不需要检索外部知识的情况下,在开放域QA上获得了和有监督方法匹敌的效果。模型效果很大程度上受模型规模的影响。

3. 社区问答系统

任务定义:根据用户所提问题,找到社区中与之相应的答案

特点

  • 丰富的元数据:包括用户类型、问题类型、问题发布时间等。
  • 文本长度较长:问题和答案通常包含大量噪声。
  • 答案质量差异大

优势

  • 个性化与开放域:能够解决个性化、开放域、异构、精确的问题。
  • 高质量理解与回答:社区用户相比机器能够更精准理解问题并提供高质量回答。
  • 知识积累:不断积累丰富的知识。

处理框架


  1. 问题分析
    • 理解问题。
    • 提取关键实体。
    • 构建问题语义表示。
  2. 信息检索部分
    • 检索与问题类似的问题对。
    • 返回问题的答案或相似问题列表。
  3. 答案抽取部分
    • 从检索结果中抽取答案。
    • 评估答案的质量。

具体研究方法

传统方法
  • 统计特征匹配。
  • CNN/RNN特征匹配。
最新方法
  • 答案摘要生成
    • 通过Bi-LSTM等模型生成问题引导的答案摘要,过滤噪声。
    • 代表性研究:Joint Learning of Answer Selection and Answer Summary Generation(AAAI 2020)。
  • 用户上下文建模
    • 研究用户历史回答,结合当前问题与用户相关性。
    • 代表性研究:Attentive User-Engaged Adversarial Neural Network(AAAI 2020)。
  • 融合信息
    • 通过引入外部知识(如话题信息、用户背景)改善Q-A匹配质量。

4. 知识库问答系统

主要任务

  • 知识库问答任务:给定自然语言问题,通过对问题进行语义理解和解析, 利用知识库进行查询、推理得出答案。
  • 问题描述:根据给定问题,在知识图谱中检索/推理相关实体作为答案

实现方法

  1. 语义解析(Semantic Parsing)
    • 将自然语言问题解析为逻辑形式,再转化为查询语句对知识库进行查询。
  2. 信息抽取(Information Extraction)
    • 从问题中提取实体,构建知识子图,对候选答案进行分类筛选。
  3. 向量建模(Vector Modeling)
    • 将问题和候选答案向量化,使用点积计算相关性得分,筛选最终答案。
  4. 新方向
    • 结合文本和知识图谱,构建异构图(如GRAFT-Net),引入非结构化文本知识。
    • 基于图神经网络(GNN)进行知识表示学习和推理。

最新研究方向

  • 融合知识的大模型问答(Knowledge-Augmented LLM)
    • 将知识图谱信息注入到大语言模型的提示(prompt)中。
    • 研究代表
      • Knowledge-Augmented Language Model Prompting。
      • Graph Neural Prompting with Large Language Models。

优势与局限

优势
  • 准确性:人工构建的知识库确保了答案的准确性。
  • 多步推理:知识图谱的图结构支持多步推理问答。
  • 常识覆盖:常识或"简单"问题容易在知识图谱中找到答案。
局限性
  • 知识覆盖有限:只能回答依据知识图谱中存在的问题,涉及的实体与关系有限。
  • 实时更新困难:知识图谱无法实时更新,影响回答的时效性。
相关推荐
SQingL8 分钟前
NLP三大特征抽取器(CNN/RNN/TF)
rnn·自然语言处理·cnn
cxr8282 小时前
智能体(Agent)如何具备自我决策能力的机理与实现方法
人工智能·自然语言处理
亲持红叶9 小时前
Chapter4.3:Implementing a feed forward network with GELU activations
人工智能·python·gpt·自然语言处理·transformer
橙狮科技10 小时前
提示词工程教程:任务分解
人工智能·搜索引擎·自然语言处理·面试·职场和发展
Power202466612 小时前
NLP论文速读|基于主动检索的渐进多模态推理
人工智能·深度学习·机器学习·自然语言处理·nlp
橙狮科技1 天前
提示词工程教程:提示词安全
人工智能·安全·自然语言处理
MichaelIp1 天前
LLM大模型RAG内容安全合规检查
人工智能·python·安全·语言模型·自然语言处理·chatgpt·word2vec
青松@FasterAI1 天前
【NLP高频面题 - 分布式训练篇】ZeRO主要为了解决什么问题?
人工智能·深度学习·自然语言处理·分布式训练·nlp面试
lu_rong_qq1 天前
【LLM】一文了解 NLP 里程碑模型 BERT
人工智能·自然语言处理·bert