LLM用于科学假设生成:探索与挑战

科学假设包含待验证的预测、解释和见解,是科学发现的关键前期步骤。围绕如何产生新的科学假设,美国斯坦福大学曾经提出Bit-Flip方法[1]:即首先识别出研究领域中现有方法普遍含有的假设(这是Bit部分),然后提出与该假设不同的新的思路(这是Flip部分)。以下是Bit-Flip方法的一个示例:

  • Bit部分:早期的机器翻译将待翻译的整个语句映射到一个向量上;
  • Flip部分:针对待翻译语句(特别是长语句)中的不同部分和不同信息,分别进行编解码,以提高翻译质量。

Bit-Flip方法的更多示例可以参考有关文档[1]。

Bit-Flip方法+LLM

大语言模型(LLM)能够针对文献进行理解,也能够生成新的文字内容。将LLM与上述的Bit-Flip方法相结合,来生成新的科学假设,应该是个不错的想法。近期发布的一篇论文[2]就围绕这一思路,介绍了作者们所进行的探索。

这篇论文提出了一个名为HypoGen的数据集,其中包含了从大量学术论文中提取的Bit、Flip、以及其它数据项;经过HypoGen数据集微调后的LLM,在推理时可以根据输入的Bit信息,生成新颖的见解、以及思考过程的描述。具体而言:

  • 作者们根据计算机科学领域的大量会议论文,使用OpenAI的o1模型,提取出5000多组Bit、Flip、Spark、以及Chain-of-Reasoning信息,形成HypoGen数据集,其中,Bit和Flip信息的定义如上文所述,Spark信息包含的是一篇论文核心见解的摘要,Chain-of-Reasoning信息包含的是根据一篇论文的全文生成的、从Bit到Flip思考过程的描述;
  • HypoGen数据集可以在Hugging Face上获取[3];
  • 经过HypoGen数据集微调后的LLaMA模型,在推理时可以根据输入的Bit信息,生成Spark和Chain-of-Reasoning信息。

上述论文[2]在评估生成结果时采用了三类方法:

  • 自动指标‌评估‌:采用困惑度(Perplexity,衡量生成结果的流畅性和连贯性)、IAScore(衡量生成结果与相应论文作者提出的研究想法之间的对齐程度)、以及想法独特性指数(Idea Distinctiveness Index,衡量生成的多个想法之间的语义多样性)进行评估;
  • LLM评估‌:使用Anthropic的Claude 3.7 Sonnet-Thinking模型来评估生成结果的新颖性与可行性,并进一步汇总成生成结果的总体评估;
  • 人工评估‌:人工验证LLM评估。

在对测试数据集的测试中,以上三类评估显示:

  • 自动指标‌评估方面:相对于微调前的模型,经过HypoGen数据集微调后的LLaMA模型所生成的结果与相应论文作者提出的研究想法对齐得更好,但在想法独特性指数上有所下降,揭示出模型的对齐性与想法的语义多样性之间可能存在负相关的关系;
  • LLM评估方面:经过HypoGen数据集微调后的LLaMA模型所生成的结果在总体上优于1-Shot方法,但生成结果的新颖性与可行性之间显示出负相关的关系;
  • 人工评估方面:小规模的人工评估与LLM评估在结果上基本一致,进一步证实了经过Bit、Flip、Spark、以及Chain-of-Reasoning数据微调后的模型在结果生成质量上的提升。

展望

LLM用于科学假设的生成,其实已经积累了不少研究[4]。然而该领域仍处于早期,诸多问题,包括生成结果的事实准确性‌、生成结果的评估方法、生成过程的透明性、跨学科的泛化能力等等,有待更多的探索。

参考文献

1\] [web.stanford.edu/class/cs197...](https://link.juejin.cn?target=https%3A%2F%2Fweb.stanford.edu%2Fclass%2Fcs197c%2Fslides%2F02-literature-search.pdf "https://web.stanford.edu/class/cs197c/slides/02-literature-search.pdf") \[2\] Sparks of Science: Hypothesis Generation Using Structured Paper Data [arxiv.org/abs/2504.12...](https://link.juejin.cn?target=https%3A%2F%2Farxiv.org%2Fabs%2F2504.12976 "https://arxiv.org/abs/2504.12976") 使用许可协议:CC BY. [creativecommons.org/licenses/by...](https://link.juejin.cn?target=https%3A%2F%2Fcreativecommons.org%2Flicenses%2Fby%2F4.0%2F "https://creativecommons.org/licenses/by/4.0/") \[3\] [huggingface.co/datasets/Un...](https://link.juejin.cn?target=https%3A%2F%2Fhuggingface.co%2Fdatasets%2FUniverseTBD%2Fhypogen-dr1 "https://huggingface.co/datasets/UniverseTBD/hypogen-dr1") \[4\] A Survey on Hypothesis Generation for Scientific Discovery in the Era of Large Language Models [arxiv.org/abs/2504.05...](https://link.juejin.cn?target=https%3A%2F%2Farxiv.org%2Fabs%2F2504.05496 "https://arxiv.org/abs/2504.05496") 使用许可协议:CC BY. [creativecommons.org/licenses/by...](https://link.juejin.cn?target=https%3A%2F%2Fcreativecommons.org%2Flicenses%2Fby%2F4.0%2F "https://creativecommons.org/licenses/by/4.0/") 封面图:Kindel Media、pexels.com

相关推荐
Blossom.1182 分钟前
机器学习在智能供应链中的应用:需求预测与物流优化
人工智能·深度学习·神经网络·机器学习·计算机视觉·机器人·语音识别
Gyoku Mint9 分钟前
深度学习×第4卷:Pytorch实战——她第一次用张量去拟合你的轨迹
人工智能·pytorch·python·深度学习·神经网络·算法·聚类
zzywxc78711 分钟前
AI大模型的技术演进、流程重构、行业影响三个维度的系统性分析
人工智能·重构
点控云12 分钟前
智能私域运营中枢:从客户视角看 SCRM 的体验革新与价值重构
大数据·人工智能·科技·重构·外呼系统·呼叫中心
zhaoyi_he20 分钟前
多模态大模型的技术应用与未来展望:重构AI交互范式的新引擎
人工智能·重构
葫三生1 小时前
如何评价《论三生原理》在科技界的地位?
人工智能·算法·机器学习·数学建模·量子计算
m0_751336392 小时前
突破性进展:超短等离子体脉冲实现单电子量子干涉,为飞行量子比特奠定基础
人工智能·深度学习·量子计算·材料科学·光子器件·光子学·无线电电子
拓端研究室3 小时前
视频讲解:门槛效应模型Threshold Effect分析数字金融指数与消费结构数据
前端·算法
随缘而动,随遇而安5 小时前
第八十八篇 大数据中的递归算法:从俄罗斯套娃到分布式计算的奇妙之旅
大数据·数据结构·算法
美狐美颜sdk5 小时前
跨平台直播美颜SDK集成实录:Android/iOS如何适配贴纸功能
android·人工智能·ios·架构·音视频·美颜sdk·第三方美颜sdk