附录
建议的问答系统
在建议的框架中,问答过程是单步的。首先,根据查询使用 RAG 从文档库中检索相关知识。随后,将此上下文与问题一起输入到语言模型中以生成响应。返回答案的第一个字符所需的时间在 1 到 3 秒之间。图 5 显示了 QA 流程的一个示例。
csharp
选择数据集:德州仪器 输入您的问题:比较 AFEx8201 和 TPS281C100x 的功能,有什么区别? 回答:根据提供的知识,以下是 AFEx8201 和 TPS281C100x 的比较:AFEx8201 功能:• 它有一个 12 位 SAR ADC,可以跨不同输入(包括外部和内部节点)多路复用测量值以进行设备诊断。
• ADC 参考其从 VREFIO 引脚电压的转换,并具有用于定时信号的片上振荡器。
• 具有一个可以感应最多两个外部输入以及内部设备信号的监控系统。
• 它还包括可编程超范围警报和温度传感器警报功能。
◦ 当芯片温度超过 85°C 时,会触发热警告警报。
◦ 当温度超过 130°C 时设置热错误警报。
• 可以配置警报以设置 ALARM 引脚并在 ALARM_STATUS 寄存器中指示,并通过 ALARM _ACT 寄存器配置操作。
TPS281C100x 特性:• TPS281C100x 是用于工业控制系统的单通道智能高侧开关。
• 它支持宽工作范围(高达 60V DC),并且具有低 RON 以最大限度地减少功耗。
• 该设备集成了多种保护功能,包括热关断、输出钳位和电流限制。
• 可调电流限制电路,可以更好地处理大电容负载等负载的浪涌电流或最大限度地减少过载电流。
• 它提供准确的负载电流感应,有助于诊断预测性维护。
• 该器件提供两种不同尺寸的封装选项: ◦ 14 引脚,5.00 mm x 4.40 mm HTSSOP ◦ 12 引脚,4.00 mm x 4.00 mm WSON 主要区别: • AFEx8201 专注于 ADC 功能和带警报的温度监控,更适合监控和传感应用。
• TPS281C100x 设计用于电源切换,具有集成保护功能和负载电流诊断功能,更适合在工业应用中控制功率流和管理输出负载。
• 它们具有不同的封装类型和尺寸,这可能会影响选择,具体取决于它们所针对的应用中的空间和布局约束。
图 5:德州仪器数据集
上的查询-回答示例
分层元数据增强 我们创造性地使用级联文档结构在数据处理过程中进行文本增强,如图 6 所示,该技术与现有的 RAG 方法无缝集成,并引起了领先的 RAG 项目的关注。此外,在 LLM 高度关注的领域(如医疗保健和法律),医疗指南和法律文件都采用结构化格式,我们的级联元信息增强方法表现出很强的可靠性,具有显著的实用性。
图 6:级联元数据嵌入过程。此步骤涉及从根开始识别每个段的分层元数据路径,然后将此信息扩充到段中。
响应中的图像引用
我们的方法创新地扩展了 MDQA 框架,通过从文档中检索图像并将这些图像合并到响应中,如图 7 所示。对于图像,我们开发了一个名为 PDFImageSearcher 的工具,它是开源的,用于从文档中提取位图和 SVG 矢量图像,以及用于检索图像的 API。它利用图像周围的文本、图像标题和可选的视觉语言模型为每个图像生成一个描述文件。每个文档 DM 将有一个图像集合 DG = {I1(File1, Desc1), I2(File2, Desc2), ...}。
csharp
选择数据集:Chipanalog 输入您的问题:请描述CA-IF1042的芯片结构,并给出器件信息和简化的芯片结构图
解答:根据所提供的知识,CA IF1042的芯片结构包含以下元素:
•模式选择
•逻辑输出
•TXD-显性超时(TXD DTO)
•TSD(热关断)
•UVLO(欠压锁定)
•TXD(发送数据输入)
•STB(待机控制输入)
•RXD(接收器数据输出)
•GND(接地)
•CANL(CAN低)
•CANH(CAN高)
•VCC(电源)
•NC(无连接)或VIO(用于电平转换的输入/输出电源电压,仅适用于带"V"后缀的变体,
例如CA-IF1042LVS-Q1)器件信息如下:
•部件编号:CA-IF1042LS-Q1和CA-IF1042LVS-Q1
•封装:SOIC8
•封装尺寸(标称值):4.9mm x 3.9mm简化的芯片结构图如右图所示。
图 7:通过图像参考的示例查询回答
表格增强
传统的基于块的 RAG 方法并不专门解决表格问题。我们的实验表明,准确回忆表格信息存在困难,主要是因为表格中的数值在语义编码中通常表现为噪声。一个示例问题是:"这部手机的电池电量是 13,000 mah 吗?"。实际上,我们需要匹配电池而不是数字,并使用检索到的数字进行事实核查。我们假设表格的语义值源自其定义,包括整体描述、标题和行/列标签,如图 8 所示。因此,在嵌入表格时,我们只关注这些语义元素,将表格视为类似于文本知识。
图 8:表格嵌入。嵌入期间省略数据字段以减少噪音。但如果检索到,这些数据字段将保留以提供 LLM 的上下文
图像增强
我们利用图像的包装上下文,并可以进一步利用视觉语言生成模型来创建描述性标题,以概括图像的显著特征。然后嵌入这些标题,让模型用图形来回答。图 9 中显示的图像增强
图 9:图像嵌入。应用视觉语言模型生成图像语义的文本描述,然后将其合并到片段中。
数据字段删除对表格检索的影响
我们研究了在嵌入阶段从表格中删除数据字段对 RAG 方法的影响。如表 3 和图 10 所示,删除数据字段会增加嵌入空间中上下文和问题的内积,并减少它们在该空间中的距离。
图 10:通过删除表的数据字段实现嵌入移位
表 3:问题与表格内容嵌入的内积
评估指标
在实验部分,我们提出了三个指标来评估 MDQA 方法的性能:准确度、充分性和对数秩指数。准确度是指答案的正确率,正确得 1 分,不正确得 0 分,部分正确得 0.5 分,适用于简答题和多项选择题。充分性评估答案是否清晰且信息丰富。为了计算这个指标,标注者对用各种方法生成的同一问题的答案进行排名。假设有 K 种方法,如果方法 i 的排名为 ri ,(i ∈ [1, K]),则其充分性得分计算为 (K + 1) − ri,得分范围为 1 到 K。因此,排名越高,充分性得分就越高,表明答案质量越好。 Log-rank指数使用下降曲线评估RAG方法在上下文检索中的回忆能力,如图11所示。
图 11:说明具有不同 γ 的对数秩指数 B.3 数据集描述 我们引入五个不同的数据集,每个数据集都表现出独特的特征。 a)。Texas 说明书手册 该数据集由冗长的单个文档组成,但文档数量较少。 b)。Chipanalog 手册 该数据集的单个文档长度较短,但包含的文档数量较多。第一和第二个数据集共享相似的文档结构和内容。 c)。关于模拟电路设计的教科书 该文档长度极长,结构差异显著,并包含公式和图像。 d)。财务报告 该数据集包含格式相同、由于模板相同而内容特别相似的冗长文档,并包含大量冗长的表格和数据,对分析和比较问答提出了巨大挑战。 e)。肝病医学指南 该数据集包含有关肝病的详细文档,具有包括症状、治疗和预后在内的结构化部分。该数据集富含医学术语,通常包含图表和患者护理说明,对于需要深入医学知识和特定信息检索的查询非常有价值。
表 6 提供了这些数据集在多个维度上的详细比较。
问题库示例
在 4 中,我们展示了每种问题类型的示例问题。
不同模型的比较 参见表 5,我们展示并比较了不同模型生成的输出。
表 4:问题库示例 B.5 大型语言模型的整合 在我们的框架中,我们主要将 OpenAI 的 gpt-4-1106-preview 应用于 markdown 格式化和问答。并使用 OpenAI 的预训练 API text-ada-002 进行文本嵌入。
LLM 类型输入长度的比较分析
在表 7 中,我们比较了 GPT4、Moonshot 和 ChatGLM-Pro 三种模型在不同上下文长度下的准确率。 此比较有助于评估模型随 token 长度变化的性能变化。
文档中的分布探索
在本节中,我们证明 HCA 通过加强段之间以及问题和段之间的凝聚力来重塑嵌入空间中文档段的分布,从而提高软分区效果。重要的是,例如,与 PDFTriage 的获取工具相比,它提高了 RAG 算法的检索准确性,而无需对算法本身进行任何修改,从而避免了与硬剪枝相关的潜在信息丢失。 我们通过二维平面上的 PCA 和 tSNE 可视化定量分析分布运动。前三个实验侧重于观察 HCA 对文档段分布的影响。最后一个实验更具体地检查了给定问题-上下文对(目标段)在嵌入空间中的向量表示的空间分布。
HCA 如何改善单个文档内的凝聚力?
我们选择了一个文档并应用了三种嵌入处理方法:使用 HCA、原始段和不使用 HCA,然后使用 PCA 和 tSNE 比较了三组嵌入向量。图 13 (a) 和 (b) 中所示的结果表明,HCA 的实现导致了更紧凑的分布。这些发现表明,我们的方法可以增强 RAG 算法对目标域的关注。
HCA 如何改善多文档之间的凝聚力
我们分析了数据集中的五篇文档,以比较它们在有和没有 HCA 的情况下的分布。在多文档场景中,每个文档内的片段自然形成一个聚类。因此,我们可以检查这些聚类的分布。如图 14 所示,来自同一数据集的文档表现出固有的相似性,导致分布重叠并增加检索复杂性。然而,用 HCA 处理的数据显示出显著的簇内凝聚力,有效地创建了文档的软分区,从而绕过了与 Llamaindex 等硬分区方法相关的信息修剪。
表 5:不同方法的答案
表 6:数据集概览
表 7:不同 Token 长度的模型准确率
图 12:数据集规模的统计信息:虽然典型的 RAG 应用程序对包含少于 100 个块的数据集进行操作,但 MasQA 数据集与其他 MDQA 数据集相比要大得多,这突显了挑战和实际意义。
图 13:单个文档内的凝聚力。 (a)该图说明了 PCA 可视化。 (b)该图描绘了 t-SNE 可视化。
图 14:多文档之间的凝聚力。
HCA 如何改善同源部分内的凝聚力
我们对数据集中的所有段向量进行可视化;然后我们突出显示此数据集中所有文档中的同源部分,例如,每个手册中的所有"应用程序"部分。如图 15 所示,观察到使用 HCA 处理后,不同文档中的相似段变得更加聚类,从而有助于回答跨文档问题。
图 15:同源部分之间的凝聚力。
HCA 如何改善上下文响应的凝聚力
我们选择一个问题-上下文对。问题的嵌入在可视化平面上被标记。随后,还绘制了使用和不使用 HCA 处理的上下文,以观察它们相对于问题的位置和距离。如图 16 所示,我们的方法显著缩短了嵌入空间中上下文和问题之间的距离,大大提高了检索准确性。这一发现证实了我们方法的 Log-Rank 指数的显著改进。
图 16:语境响应中的凝聚力