ChatClimate:让对话式人工智能立足于气候科学

摘要

大型语言模型(Large Language Models, LLMs)在问答任务中已取得显著进展,但幻觉(hallucination,指生成虚假或不准确信息的现象)和信息过时等问题依然存在。这些问题在气候变化等领域尤为关键,因为在这类领域中,及时获取可靠信息至关重要。一种解决方案是让这些模型能够访问外部的、科学准确的信息源,以提升其知识储备与可靠性。在此项研究中,我们通过让 GPT-4 访问政府间气候变化专门委员会(Intergovernmental Panel on Climate Change, IPCC)第六次评估报告(Sixth Assessment Report, IPCC AR6)(该报告是气候变化领域最全面、最新且最可靠的信息源,详见 "数据可用性" 章节),对 GPT-4 的性能进行了增强。我们还发布了对话式人工智能原型ChatClimate(可通过网址 www.chatclimate.ai 访问),并在三种不同设置下验证其解答复杂问题的能力:仅使用 GPT-4(无外部信息辅助);ChatClimate(完全依赖 IPCC AR6 报告);混合式 ChatClimate(结合 IPCC AR6 报告与 GPT-4 的内部知识)。经专家对回答的评估显示,混合式 ChatClimate 人工智能助手的回答准确率更高,这也凸显了我们所提解决方案的有效性。

研究动机

近年来,大型预训练语言模型(Large pre-trained Language Models, LLMs)已成为自然语言处理(Natural Language Processing, NLP)领域事实上的标准。LLMs 彻底改变了各类任务中的文本处理方式,在自然语言理解与生成方面取得了重大进展⁠1-4。诸如 LLaMA⁠5、T0 ⁠6、PaLM⁠7、GPT-3⁠ 1 等模型,以及经指令微调的模型(如 ChatGPT⁠8、GPT-4⁠9、HuggingGPT⁠10),已展现出在多个领域生成类人文本的卓越能力,涵盖语言翻译、文本摘要、问答等任务,并已成为众多领域的常规工具⁠11。

大型语言模型(LLMs)在闭卷问答(closed-book Question Answering, QA)任务中同样表现出色。闭卷问答任务要求模型在无任何上下文支撑的情况下回答问题⁠12。像 GPT-3/3.5 这类大型语言模型,在零样本、单样本和少样本设置下的多项选择问答(multiple choice question answering, MCQA)任务中,均取得了亮眼成果⁠13。近年来的研究已将 GPT-3⁠ 等大型语言模型用作隐性知识库,这类模型中存储着回答问题所需的必要知识⁠14。

然而,大型语言模型(LLMs)存在两个主要问题:一是幻觉现象⁠15,二是训练结束后信息会过时⁠16。这些问题在气候变化等领域尤为棘手 ------ 该领域亟需关于气候系统变化、当前影响、气候变化预估风险及解决方案范畴的准确、可靠且及时的信息。因此,提供带有权威参考文献与引用来源的准确、最新回答至关重要。若这类回答准确无误,便能助力人们理解气候变化的规模与紧迫性,并推动适当缓解策略的落地实施。

加强政府机构与科学界之间的沟通,有助于促进各国代表团与政策制定者之间开展更有效的对话。通过确保信息来源和回应的准确性,可建立一个便捷的、基于聊天形式的辅助反馈循环。该反馈循环能够推动相关领域的决策走向科学化(或:基于充分信息的决策)。例如,政府可向聊天机器人咨询对报告中特定表述的反馈,或请求提供支持某一主张的文献资料。此前的研究也强调了准确且最新信息的重要性⁠17-19。

通过克服信息过时和幻觉这两大难题,大型语言模型(LLMs)可用于从海量文本中提取相关信息,并为决策提供辅助。然而,训练大型语言模型的计算成本高昂,还存在其他负面影响(例如,参见文献 20、21)。为避免持续训练的需求,一种解决方案是为大型语言模型提供外部信息源(即 "长期记忆")。这种 "长期记忆" 能持续更新大型语言模型的知识储备,减少错误信息或过时信息的传播。已有多项研究探索了外部数据源的应用,此类应用可使大型语言模型的输出更具真实性⁠22。

研究贡献。在本文中,我们介绍了自主研发的原型系统 ChatClimate(网址:www.chatclimate.ai)------ 这是一款对话式人工智能(conversational AI),旨在通过利用政府间气候变化专门委员会(Intergovernmental Panel on Climate Change,以下简称 IPCC)第六次评估报告(Sixth Assessment Report,简称 IPCC AR6)⁠23-26,提升大型语言模型(LLMs)在气候变化领域的信息真实性与时效性。该系列报告对气候系统、气候变化影响,以及与适应(adaptation)、缓解(mitigation)和气候韧性发展(climate-resilient development)相关的解决方案,提供了最新且最全面的评估。有关本研究中所使用的 IPCC AR6 报告详细清单,请参见 "数据可用性"(Data Availability)章节。为评估大型语言模型在气候变化领域提供准确答案及引用来源的性能,我们向该对话式人工智能(以下简称聊天机器人)提出了 13 个具有挑战性的问题。

研究发现。我们提出的方法有望为决策者和公众提供关于气候变化的可靠信息,最终助力制定更具科学性的决策(或:基于充分信息的决策)。该方法凸显了整合外部数据源对提升大型语言模型(LLMs)在气候变化等专业领域性能的价值。通过将 IPCC 第六次评估报告(IPCC AR6)中的最新气候信息融入大型语言模型,我们旨在构建能够为气候变化相关问题提供更准确、更可靠答案的模型。尽管我们的工具能有效降低复杂气候报告的理解门槛,让更广泛的受众接触到这些信息,但必须明确的是,该工具无意替代或参与决策过程 ------ 无论是通用决策还是定制化决策。它仅作为辅助性资源,助力提取和总结关键信息,从而为气候变化领域复杂且多维度的科学决策过程提供支持,但无法取而代之。降低气候报告的获取与理解难度,有助于制定更有效的政策。例如,更易理解最坏情景(或:极端情景),就能针对性采取更精准的行动以防范此类情景发生。总而言之,ChatClimate 旨在提升气候信息的可及性、提高报告查阅效率,而非越界涉足政策制定或决策领域。

结果与讨论

聊天机器人与实验问题。我们开展了三组实验,向混合模式 ChatClimate、独立模式 ChatClimate 以及 GPT-4 这三类聊天机器人提出了 13 个问题(见表 1)。随后,由 IPCC 第六次评估报告(IPCC AR6)的作者组成的团队对这些回答的准确性进行了评估。值得注意的是,我们这款原型系统(指 ChatClimate)具备为表述提供信息来源的能力,这一能力可推动 "信息反馈(trickle-back)" 这一重要过程 ------ 而在 IPCC 报告相关场景中,各国政府及其他利益相关方通常会有此类信息反馈需求。

回答评估(准确率评分)。已有多项研究聚焦于人机(人类与聊天机器人)交互的有效性⁠27-30。此类评估涉及多个维度,包括回答的相关性、清晰度、语气、风格、响应速度、一致性、个性化程度、错误处理能力以及用户满意度等。然而,本研究仅考察聊天机器人在准确率这一维度的表现。

翻译结果

答案的专家交叉核验。总体而言,混合模式ChatClimate给出的回答比独立模式ChatClimate和GPT-4的回答更准确。为简洁起见,我们已在表2中对问题1(Q1)和问题2(Q2)的答案进行了详细分析,仅重点阐述问题3至问题13(Q3--Q13)的核心要点。

例如,在问题1(Q1)中,我们向各聊天机器人询问"是否仍有可能将全球升温幅度控制在1.5°C以内"。混合模式ChatClimate与独立模式ChatClimate均提及,要将升温幅度控制在1.5°C以下,需在不同时间段内减少的二氧化碳((CO_{2}))排放量;而GPT-4的回答则更为笼统。为核验ChatClimate类机器人生成回答的准确性,我们对这两个系统(混合模式与独立模式ChatClimate)提供的参考文献进行了交叉核验。结果发现,如附图1(Figs. 1)和附图2(Figs. 2)所示,ChatClimate类机器人始终会为其表述提供信息来源------这对于验证机器人回答的真实性至关重要。

在问题2(Q2)中,我们向各机器人询问"人类社会可能在何时达到1.5°C升温幅度"。基于人类采取的气候缓解措施,三个机器人均提及了2030年至2052年这一时间段。回答的一致性表明,这一时间段也已包含在 GPT-4 的训练数据中(例如,2021 年 8 月发布的 IPCC 第六次评估报告第一工作组报告(IPCC AR6 WGI),或 2018 年发布的《IPCC 全球升温 1.5°C 特别报告》)。

提示工程对回答的影响。提示(Prompting)是一种引导大型语言模型(LLMs)生成期望输出的方法⁠6、31。要使大型语言模型(LLMs)在自然语言处理(NLP)任务中达到最佳性能,合理设计提示至关重要。

这一目标既可以通过人工设计实现⁠32,也可以通过自动生成完成⁠33。提示工程的主要目标是在不同的自然语言处理(NLP)任务中优化大型语言模型(LLMs)的性能⁠33。为阐明提示工程的影响,我们展示了两个精心设计的提示(见方框 1 和方框 2),以及它们针对问题 2(Q2)所对应的检索答案。这些示例旨在凸显提示设计的差异如何显著影响检索到的信息(见表 3)。

此外,我们还展示了如何通过调整检索超参数,从长期记忆中提取额外知识。我们分别检索了与用户查询向量最接近的 10 个和 15 个向量。通过这种方式,GPT-4 在获取外部信息时能够获得更多数据,进而提供更准确的回答。在表 4 中,我们呈现了相关结果,结果显示:在 K-15 场景下(即检索与用户查询向量最接近的 15 个向量),GPT-4 能够获取并提供关于 "受气候变化影响最严重区域" 的更全面信息。这一结果凸显了提示工程的重要性。

问答场景 Q3-13 的专家交叉核验。我们在补充材料(表 S1--S11)中提供了 Q3-Q13 的详细结果。需要重点说明的是,独立模式 ChatClimate 在解决幻觉问题方面效果更显著。这一版本的答案完全源自 IPCC 第六次评估报告(IPCC AR6)。例如,我们在问题 13(Q13)中提出:"苏格兰的冰川会融化吗?"。GPT-4 与混合模式 ChatClimate 均出现了幻觉现象。其中,混合模式 ChatClimate 给出的回答为:"是的,苏格兰的冰川非常有可能融化。在所有排放情景下,冰川预计将持续消融(极高可信度),这一趋势适用于多个地区的冰川,例如北极和南极的冰川(高可信度)(来源:IPCC AR6 第一工作组报告第 8 章,第 68 页)。尽管参考资料中并未明确提及苏格兰,但冰川融化的整体趋势适用于全球冰川,包括苏格兰的冰川(内部知识)。" 该回答错误暗示苏格兰当前存在冰川,而有据可查的是,苏格兰目前并无任何冰川 ------ 该国的冰川已于数千年前融化,末次冰期结束时(约 1.4 万年前),当地最后的冰层也已消失⁠34。然而,独立模式 ChatClimate 给出了准确回答:"现有信息不足以具体回答关于苏格兰冰川的问题。" 独立模式之所以会有这样的表现,核心原因在于其配置 ------ 该模式下的大型语言模型(LLM)被设定为不使用内部知识,仅依赖 IPCC AR6 报告生成答案。此外,我们认为自动化事实核查方法(例如,参见文献 35、36)可在后续处理环节进一步帮助解决幻觉问题:在这一环节中,我们首先会在将聊天机器人的回答返回给用户之前,对其进行自动化事实核查。

个性化生成式预训练 Transformer(Personalized-GPTs)或多代生成式预训练 Transformer(GPT-n)、风险管理。特定领域的聊天机器人与对话式人工智能(AI)工具让人们能便捷获取准确信息。然而,需认识到外部数据源可能存在潜在风险,例如信息不准确或存在偏见。本研究针对气候变化领域开发并部署了特定领域聊天机器人,对比了三种聊天机器人场景后发现:在 13 个样本问题中,混合模式 ChatClimate 的回答准确率更高。我们在内部对这些回答进行了评估,这一过程得益于合著者们的专业知识。由于训练大型语言模型(LLMs)消耗的资源庞大⁠9,通过为其提供 "长期记忆"(外部信息源)并结合提示工程,使其与外部世界相整合,有望以更少的资源实现更优效果。然而,构建 "长期记忆" 需谨慎行事。本研究采用 IPCC 第六次评估报告(IPCC AR6)这一全面且可靠的信息源,为大型语言模型搭建外部记忆模块,这凸显了此类数据库对提升聊天机器人回答准确性的重要意义。尽管目前存在相关争议 ------ 有人主张暂停大型语言模型的训练数月,直至制定出完善的监管规则,但我们认为,对大型语言模型的训练、微调过程进行监管,并将其整合到实际应用中,是十分必要的。具体而言,在针对聊天机器人的监管规则中,应纳入外部数据库整合与提示工程的相关考量。此外,利用海量数据训练大型语言模型(LLM)可能会产生极高的碳足迹,而我们对 GPT-4 等大型语言模型中隐含的碳足迹知之甚少⁠37。不过,对已训练完成的大型语言模型进行推理运算及使用,其能源消耗则相对较低。

数据库设置:多数据库访问权限。借助 ChatClimate 的研究结果,我们展示了如何利用更新的信息对检索增强型大型语言模型(LLMs)进行更新。然而,检索系统的设计对问答系统的有效性起着关键作用,尤其是在需要专业知识的场景下。为阐明该设计层面的影响,我们对多种数据库配置方案进行了细致分析。通常情况下,我们将检索到的信息限定为前 K 个结果 ------ 这些结果是根据查询向量与气候数据库(即 IPCC 第一工作组(WGI)、第二工作组(WGII)、第三工作组(WGIII)报告及 2023 年综合报告)中向量的最高相似度指标筛选得出的。尽管该方法能确保检索到足够回答问题的信息,但其仍可进一步定制优化。例如,若需在查询结果中包含特定报告或额外数据层,我们的系统具备独特的灵活性。我们无需使用单一的集中式数据库,而是可将其拆分为多个专业数据库。这种设计支持将查询分别定向至每个数据库,进而生成更精准、更贴合具体场景的响应。

为验证该方法的有效性,我们设计了三个独立数据库:第一个聚焦于政府间气候变化专门委员会(IPCC)报告,第二个仅包含 IPCC 综合报告,第三个则纳入了世界气象组织(WMO)的最新出版物(见表 5)。需要说明的是,此举仅为证明在 IPCC 第六次评估报告(IPCC AR6)周期基础上补充最新科学成果,可如何提升信息检索效果,我们并非宣称已纳入所有新报告。本研究中尚未涵盖诸多其他信息源(详见 "局限性与未来工作" 章节的 "进一步开发" 部分),且我们在研究过程中仅以 IPCC AR6 报告为核心依据。

局限性和未来工作

幻觉预防。模型幻觉仍是自然语言处理(NLP)领域中一个突出且尚未解决的问题。尽管我们已通过使用外部数据库、最新参考文献及提示工程,努力避免大型语言模型(LLMs)产生幻觉,但该过程仍需人工监督。例如,对参考文献进行交叉核验,可确保模型不会生成幻觉内容。关于幻觉缓解的相关问题,已有文献对此展开了更详尽的探讨⁠15、38。在未来的研究工作中,我们将分析 ChatClimate 产生幻觉的可能性,并计划将监督过程自动化,以减少人工投入。

ChatClimate 语义搜索的充分性与完整性。用户问题回答的准确性,以及这些回答和从外部来源检索到的文本的充分性与完整性,取决于多个因素。这些因素包括 top-k 超参数、提示(Prompt)以及数据源。ChatClimate 基于检索到的 top-k 个相关文本块来回答问题。因此,语义搜索忽略某个问题所需关键文本块的可能性较低。在本研究中,我们论证了相较于存储所有数据的单一集中式数据库,采用分布式数据库并进行检索的重要性。然而,这仍是我们未来工作中一个重要的开放性研究方向。在未来的工作中,我们计划重点提升检索信息的质量,具体而言,将通过分析 "足以回答问题的检索信息" 与 "为获得更全面回答所需的完整检索信息" 二者之间的差异来实现。未来工作中我们还将考虑的另一个方面,是文本块大小对检索结果的影响。这一主题的研究将聚焦于检索时采用段落级拆分,而非句子级拆分。

当前版本的 ChatClimate 不支持从表格中进行查询,也不支持对图表的解读。这是自然语言处理(NLP)领域一个持续探索的研究方向 ------ 在该方向下,搜索的范围不再局限于文本数据,还涵盖了图像、表格数据以及数据解读。在未来的工作中,我们将开发一款多模态大型语言模型(LLM),用户可在该模型中上传图像,还能基于报告中已有的表格和图表提出问题。我们欢迎在该领域的相关贡献。

思维链(Chain of Thoughts, COTs)。本研究尚未通过测试不同提示(Prompt)来充分挖掘思维链(COTs)的潜力。不过,我们预计应用思维链将提升系统输出的准确性,这一点已纳入我们未来的研究计划中。

大型语言模型(LLMs)响应评估。我们承认,对响应的评估并非本研究的核心重点,本研究仅依靠专家知识来评估模型性能。此外,还需开展进一步研究,以全面阐述评估流程 ------ 包括标注者间一致性、查询生成的更透明解释等方面。

事实核查。为大型语言模型(LLMs)提供访问各类可信资源的途径,可提升模型开展事实核查的能力,并向用户提供有充分依据的信息。在正在进行的研究中,我们正探索自动化事实核查方法的潜力(例如,参见文献 35、36)。为此,我们正在构建一个权威且准确的知识库,该知识库可用于对特定领域的主张⁠39 或大型语言模型生成的响应进行事实核查。在该知识库中,我们还将利用 IPCC 第六次评估报告(IPCC AR6)中的表述,对与气候变化及其他环境问题相关的主张进行验证或反驳。

进一步开发。我们持续对 ChatClimate 进行优化,并欢迎社区通过我们的网站 www.chatclimate.ai 提供反馈,以提升其问答能力。我们的目标是提供准确、可靠的气候变化相关信息,且认为 ChatClimate 这类特定领域聊天机器人在实现该目标过程中发挥着关键作用。通过自动化整合科学文献中的新信息来保持 ChatClimate 的时效性,这一点至关重要。为确保 ChatClimate 始终具备相关性与准确性,我们计划开展定期更新。具体而言,这些更新将与 IPCC(政府间气候变化专门委员会)等机构发布的综合性全球评估报告保持同步。具体而言,一旦第七次评估报告周期(Assessment Report 7th cycle)发布任何报告,相关信息都将被整合到我们的数据库中,以完善 ChatClimate 的知识库。

结论

本研究展示了在问答应用场景中,如何缓解当前最先进的大型语言模型(LLMs,如 GPT-4)存在的部分局限性。我们通过让大型语言模型能够获取其训练截止日期之后的数据,证明了模型性能的提升;同时也验证了利用领域专业知识进行合理的提示工程,能使大型语言模型表现更优。这些结论是通过将 GPT-4 的回答与我们的混合模式 ChatClimate 和独立模式 ChatClimate 模型的回答进行对比得出的。

总之,研究表明:当能够获取外部信息(即 IPCC 第六次评估报告,IPCC AR6)时,混合模式 ChatClimate 在回答准确性方面的表现优于 GPT-4 和独立模式 ChatClimate。其性能更优的原因在于整合了时效性强的特定领域数据,这一做法解决了大型语言模型中常见的幻觉问题和信息过时问题。该结果凸显了为特定领域定制模型的重要性。本研究的主要发现总结如下:

  1. 通过让大型语言模型(LLMs)能够获取其训练阶段之后的知识,并指导这些模型如何利用该知识,可改善其存在的幻觉与信息过时问题。
  2. ChatClimate的核心设计理念------为大型语言模型(LLMs)提供长期记忆与外部数据------无论当前主流的生成式预训练Transformer(GPT)模型是哪一版本,均始终成立。这是因为大型语言模型的训练数据总有截止日期,而在该日期之后仍会有报告(或其他PDF文件)发布,即便无法对大型语言模型本身进行更新,ChatClimate也能为用户提供获取这些文件的有效途径。相关文献⁠22、40中也提出了类似观点。
  3. 借助合理的提示工程与知识检索机制,大型语言模型(LLMs)能够准确提供回答的信息来源。
  4. 在知识检索与语义搜索过程中,超参数调优对提示工程具有重要作用。为验证这一点,我们在问题与数据库的语义搜索中,测试了选取与问题最相关的5个(K-5)、10个(K-10)和15个(K-15)知识片段的效果。
  5. 对大型语言模型(LLMs)的训练、微调及其在应用中的整合进行监管十分必要。具体而言,在针对聊天机器人的监管规则中,应纳入外部数据库整合与提示工程的相关考量。我们强调,对特定领域聊天机器人的输出结果进行监管至关重要。在这类领域中,用户可能缺乏足够知识来验证回答或交叉核验参考文献,这使得有偏差的数据或经刻意设计的提示词可能对终端用户造成危害。
  6. 我们这款人工智能驱动的工具(ChatClimate)让更广泛的群体能够获取气候信息,或可帮助决策者与公众理解气候变化相关问题。然而,该工具旨在补充------而非替代------专业的本地知识与定制化解决方案,而这些知识与方案对于高效决策至关重要。
  7. 重新训练大型语言模型(LLMs)的计算成本极高,进而会产生大量二氧化碳(CO₂)排放。相比之下,模型推理过程的资源消耗则较低。在我们提出的检索增强框架中,大型语言模型频繁重训练的必要性大幅降低,因此,通过重训练来整合新信息的需求也随之减少。在评估实际二氧化碳排放量时,我们参考了生成式预训练Transformer(GPT)系列模型;但OpenAI尚未披露该系列模型训练流程的任何相关信息⁠9。尽管如此,我们仍倡导大型语言模型领域采用"气候友好型"工作流程,以解决这一问题。
  8. 我们的研究发现不仅凸显了在问答(QA)任务中利用气候领域信息的重要性,还强调了在人工智能驱动的文本处理领域持续开展研发工作的必要性。
相关推荐
学习路上_write4 小时前
神经网络初次学习收获
人工智能·python
zstar-_4 小时前
DeepSeek-OCR可能成为开启新时代的钥匙
人工智能·ocr
墨利昂4 小时前
自然语言处理NLP的数据预处理:从原始文本到模型输入(MindSpore版)
人工智能·自然语言处理
wb043072014 小时前
如何开发一个 IDEA 插件通过 Ollama 调用大模型为方法生成仙侠风格的注释
人工智能·语言模型·kotlin·intellij-idea
apocalypsx4 小时前
深度学习-卷积神经网络基础
人工智能·深度学习·cnn
Aevget4 小时前
界面控件DevExpress WPF v25.2新功能预览 - 聚焦AI功能提升
人工智能·wpf·界面控件·devexpress·ui开发·.net 10
F_D_Z4 小时前
扩散模型对齐:DMPO 让模型更懂人类偏好
人工智能·扩散模型·kl散度·双阶段训练·散度最小化偏好优化
ezl1fe4 小时前
第一篇:把任意 HTTP API 一键变成 Agent 工具
人工智能·后端·算法
算家计算4 小时前
OpenAI推出首款浏览器,能否撼动全球超30亿用户的Chrome?
人工智能·openai·资讯