LLM用于科学假设生成:探索与挑战

科学假设包含待验证的预测、解释和见解,是科学发现的关键前期步骤。围绕如何产生新的科学假设,美国斯坦福大学曾经提出Bit-Flip方法[1]:即首先识别出研究领域中现有方法普遍含有的假设(这是Bit部分),然后提出与该假设不同的新的思路(这是Flip部分)。以下是Bit-Flip方法的一个示例:

  • Bit部分:早期的机器翻译将待翻译的整个语句映射到一个向量上;
  • Flip部分:针对待翻译语句(特别是长语句)中的不同部分和不同信息,分别进行编解码,以提高翻译质量。

Bit-Flip方法的更多示例可以参考有关文档[1]。

Bit-Flip方法+LLM

大语言模型(LLM)能够针对文献进行理解,也能够生成新的文字内容。将LLM与上述的Bit-Flip方法相结合,来生成新的科学假设,应该是个不错的想法。近期发布的一篇论文[2]就围绕这一思路,介绍了作者们所进行的探索。

这篇论文提出了一个名为HypoGen的数据集,其中包含了从大量学术论文中提取的Bit、Flip、以及其它数据项;经过HypoGen数据集微调后的LLM,在推理时可以根据输入的Bit信息,生成新颖的见解、以及思考过程的描述。具体而言:

  • 作者们根据计算机科学领域的大量会议论文,使用OpenAI的o1模型,提取出5000多组Bit、Flip、Spark、以及Chain-of-Reasoning信息,形成HypoGen数据集,其中,Bit和Flip信息的定义如上文所述,Spark信息包含的是一篇论文核心见解的摘要,Chain-of-Reasoning信息包含的是根据一篇论文的全文生成的、从Bit到Flip思考过程的描述;
  • HypoGen数据集可以在Hugging Face上获取[3];
  • 经过HypoGen数据集微调后的LLaMA模型,在推理时可以根据输入的Bit信息,生成Spark和Chain-of-Reasoning信息。

上述论文[2]在评估生成结果时采用了三类方法:

  • 自动指标‌评估‌:采用困惑度(Perplexity,衡量生成结果的流畅性和连贯性)、IAScore(衡量生成结果与相应论文作者提出的研究想法之间的对齐程度)、以及想法独特性指数(Idea Distinctiveness Index,衡量生成的多个想法之间的语义多样性)进行评估;
  • LLM评估‌:使用Anthropic的Claude 3.7 Sonnet-Thinking模型来评估生成结果的新颖性与可行性,并进一步汇总成生成结果的总体评估;
  • 人工评估‌:人工验证LLM评估。

在对测试数据集的测试中,以上三类评估显示:

  • 自动指标‌评估方面:相对于微调前的模型,经过HypoGen数据集微调后的LLaMA模型所生成的结果与相应论文作者提出的研究想法对齐得更好,但在想法独特性指数上有所下降,揭示出模型的对齐性与想法的语义多样性之间可能存在负相关的关系;
  • LLM评估方面:经过HypoGen数据集微调后的LLaMA模型所生成的结果在总体上优于1-Shot方法,但生成结果的新颖性与可行性之间显示出负相关的关系;
  • 人工评估方面:小规模的人工评估与LLM评估在结果上基本一致,进一步证实了经过Bit、Flip、Spark、以及Chain-of-Reasoning数据微调后的模型在结果生成质量上的提升。

展望

LLM用于科学假设的生成,其实已经积累了不少研究[4]。然而该领域仍处于早期,诸多问题,包括生成结果的事实准确性‌、生成结果的评估方法、生成过程的透明性、跨学科的泛化能力等等,有待更多的探索。

参考文献

1\] [web.stanford.edu/class/cs197...](https://link.juejin.cn?target=https%3A%2F%2Fweb.stanford.edu%2Fclass%2Fcs197c%2Fslides%2F02-literature-search.pdf "https://web.stanford.edu/class/cs197c/slides/02-literature-search.pdf") \[2\] Sparks of Science: Hypothesis Generation Using Structured Paper Data [arxiv.org/abs/2504.12...](https://link.juejin.cn?target=https%3A%2F%2Farxiv.org%2Fabs%2F2504.12976 "https://arxiv.org/abs/2504.12976") 使用许可协议:CC BY. [creativecommons.org/licenses/by...](https://link.juejin.cn?target=https%3A%2F%2Fcreativecommons.org%2Flicenses%2Fby%2F4.0%2F "https://creativecommons.org/licenses/by/4.0/") \[3\] [huggingface.co/datasets/Un...](https://link.juejin.cn?target=https%3A%2F%2Fhuggingface.co%2Fdatasets%2FUniverseTBD%2Fhypogen-dr1 "https://huggingface.co/datasets/UniverseTBD/hypogen-dr1") \[4\] A Survey on Hypothesis Generation for Scientific Discovery in the Era of Large Language Models [arxiv.org/abs/2504.05...](https://link.juejin.cn?target=https%3A%2F%2Farxiv.org%2Fabs%2F2504.05496 "https://arxiv.org/abs/2504.05496") 使用许可协议:CC BY. [creativecommons.org/licenses/by...](https://link.juejin.cn?target=https%3A%2F%2Fcreativecommons.org%2Flicenses%2Fby%2F4.0%2F "https://creativecommons.org/licenses/by/4.0/") 封面图:Kindel Media、pexels.com

相关推荐
暮冬-  Gentle°13 分钟前
C++中的命令模式实战
开发语言·c++·算法
勾股导航18 分钟前
大模型Skill
人工智能·python·机器学习
卷福同学2 小时前
【养虾日记】Openclaw操作浏览器自动化发文
人工智能·后端·算法
春日见3 小时前
如何入门端到端自动驾驶?
linux·人工智能·算法·机器学习·自动驾驶
光锥智能3 小时前
从自动驾驶到 AI 能力体系,元戎启行 GTC 发布基座模型新进展
人工智能
luoganttcc3 小时前
自动驾驶 世界模型 有哪些
人工智能·机器学习·自动驾驶
潘高3 小时前
10分钟教你手撸一个小龙虾(OpenClaw)
人工智能
禁默3 小时前
光学与机器视觉:解锁“机器之眼”的核心密码-《第五届光学与机器视觉国际学术会议(ICOMV 2026)》
人工智能·计算机视觉·光学
深小乐3 小时前
不是DeepSeek V4!这两个神秘的 Hunter 模型竟然来自小米
人工智能
图图的点云库3 小时前
高斯滤波实现算法
c++·算法·最小二乘法