综述翻译：Embodied Science: Closing the Discovery Loop withAgentic Embodied AI

摘要

人工智能在预测科学属性方面展现出卓越能力，然而科学发现本质上仍是一项受实验周期支配、具有物理性和长时程特征的探索工作。当前大多数计算方法与这一现实脱节，将发现视为孤立的、面向特定任务的预测，而非与物理世界的持续交互。本文提出具身科学 这一范式，将科学发现重构为智能体化推理与物理执行紧密耦合的闭合循环。我们设计了统一的感知 - 语言 - 行动 - 发现（PLAD）框架，具身智能体通过该框架感知实验环境、基于科学知识进行推理、实施物理干预，并将实验结果内化为认知，以此推动后续探索。该方法将计算推理建立在可靠的物理反馈基础上，弥合了数字预测与实证验证之间的鸿沟，为生命科学和化学领域的自主发现系统提供了发展路线。

1 引言

人工智能正在重塑科学知识的产生与应用方式⁽¹⁾。过去十年间，数据驱动的模型在诸多曾被认为难以解决的问题上取得了突破性进展，从精准的蛋白质结构预测⁽²⁾⁽³⁾，到分子属性预测⁽⁴⁾⁻⁽⁶⁾、生成式设计⁽⁷⁾⁽⁸⁾和合成规划⁽⁹⁾的学习模型均在此列。这些成果，加之能实现跨模态表征统一的基础模型的兴起⁽¹⁰⁾⁻⁽¹²⁾，正推动科学人工智能（AI4S）从一系列专用预测模型，向更通用的科学引擎演进⁽¹³⁾。

但核心的矛盾依然存在：科学发现并非单次推理问题。重大突破通常源于与物理世界的长时程、迭代式交互，是一个包含假说形成、实验设计、实际约束下的实验执行、结果分析和模型修正的持续循环过程⁽¹⁴⁾⁽¹⁵⁾。即便预测模型性能优异，若系统无法确定下一步行动、无法感知仪器信号，或无法将决策可靠转化为可执行的实验室操作，发现过程仍会陷入停滞。

近期的研究成果清晰展现出这一不匹配性，形成了两极分化的研究格局。一方面，基于大语言模型（LLM）的智能体⁽¹⁶⁾⁻⁽²⁰⁾通过语言介导的推理、规划和工具使用拓展了认知范围，常能将高层级的科学研究意图转化为实验方案、代码和工作流程；另一方面，自动化和机器人实验室⁽²¹⁾⁽²²⁾实现了可靠的具身执行，能在定义明确的实验空间内完成持续实验和闭环优化。这种分化印证了一个普遍的实证结论：当前人工智能对科学的影响仍集中在认知增强领域，尤其体现在数据处理和模式识别方面，而下一步的关键则是拓展感知和实验能力，从而能够在现有数据集之外，寻找并获取新的证据形式⁽²³⁾。

至关重要的是，这种分化并非简单的模块集成缺口，无法通过 "连接" 各模块消除。两类研究方向分别基于主流框架对科学发现进行了不同维度的优化：认知层面的研究能力强大，但与仪器层面的证据和物理约束结合薄弱；执行层面的研究鲁棒性强，但往往围绕预设目标和流程边界进行优化。若不将科学发现重构为端到端的闭合循环，单纯的增量升级（如更强大的规划器、更先进的机器人或更大规模的模型）只会加剧碎片化，而非解决问题。

因此，科学发现的自主性是耦合系统的固有属性，若感知、认知、行动这三项结构要求中的任意一项脱离系统，实现持续探索所需的能力拓展便无从谈起⁽²³⁾。在感知层面，科学证据由仪器产生，而非数据集 ------ 原始光谱、色谱图、显微成像流、传感器日志、校准轨迹，以及捕捉漂移、故障和实验背景的元数据，都是科学证据的载体。基于整理后的表格数据训练的模型，往往缺乏解析这些多模态、非理想信号的能力，也无法完成目标导向的感知（如出现异常时自适应放大、重新测量、校准或切换模态）。

在认知层面，大多数科学人工智能系统针对定义明确的任务进行优化（如预测结构、排序候选物、回归属性），但长时程发现需要持续的目标管理、不确定性下的实验推理，以及考虑突发情况和成本的规划⁽²⁴⁾。这不仅要求系统能选择下一个实验，还需确定测量对象、干预时机，以及如何根据不断积累的证据修正假说。

在行动层面，科学发现的关键在于对现实世界的干预⁽²⁵⁾。许多科学人工智能流水线在给出候选建议后便终止流程，而真实的实验室研究需要精准、可验证的行动：操控试剂、配置仪器、执行实验方案、遵守安全约束，以及从故障中恢复。若无法将推理可靠落地为实际行动，所谓的 "建议" 永远无法转化为真正的发现。

本文提出，具身科学应成为长时程自主科学发现的基础范式。在具身科学中，人工智能不再仅仅分析数据或提出行动建议，而是作为闭合循环的一部分直接参与实验流程，通过耦合仪器信号感知、基于知识的推理和物理干预，拓展感知和实验能力。在这一范式下，科学进步源于与真实实验环境的持续交互，而非对静态数据集的一次性计算。这一视角将人工智能驱动的发现重构为探索驱动的过程，假说、实验策略和操作行为通过与物理世界的反复交互共同演进。

2 具身科学与智能体化具身人工智能的界定

人工智能驱动的科学发现正从基于工具的增强，向科学方法的系统级重构转型。为避免术语概念偏差，本文对支撑该研究视角的两个核心概念 ------具身科学 和智能体化具身人工智能 进行界定，并将长时程自主科学发现定义为二者旨在实现的实际应用目标。

2.1 具身科学

定义：具身科学是一种将科学发现视为具身的、长时程的闭合循环过程的范式。人工智能被整合到真实的实验流程中，通过感知仪器生成的信号、基于科学知识推理、执行实验室干预，参与发现的完整周期。因此，科学进步源于与物理世界的持续交互，而非对静态数据集的孤立计算。

具身在科学探索中的核心意义 ：本文所指的具身，并非实验室自动化的另一种表述，而是让人工智能驱动的发现具备可落地性的关键：实验规划能转化为实验室中的物理干预，干预的结果则以仪器反馈的形式返回系统。具身能力使系统能够将研究意图付诸现实、观察实际实验结果，并据此调整后续决策，而非机械执行固定的实验方案。

2.2 智能体化具身人工智能

具身科学明确了科学发现所需的过程模式，而智能体化具身人工智能则界定了实现这一模式所需的人工智能系统类型。

定义：智能体化具身人工智能是一种持久的信息物理科学智能体，将科学认知、实验感知和实验室行动耦合在单一的闭环控制器中，并在明确的可行性和安全约束下运行。

该系统具备三项核心属性：

智能体化自主性：在长时程研究中管理目标、在不确定性和成本约束下进行规划，并根据实验结果修正策略的能力；
实验循环中的具身性：能对接原始仪器数据流、设备运行状态和动作原语，使推理过程贴合实验室实际；
长时程持久性：具备记忆、溯源、监控和故障恢复能力，保障跨实验周期的连续性，而非将每次实验视为独立环节。

2.3 长时程自主科学发现

由于 "自主性" 的定义常较为模糊，本文采用操作性判定标准 ：若一个系统能在最少人工干预的情况下，在较长时间内完成多轮端到端的发现循环（假说→实验设计→物理执行→结果解读→假说修正），同时保持可重复性、可溯源性和安全性，则认为该系统实现了长时程自主科学发现。

这一标准远高于当前大多数相关研究的展示水平：它要求闭环在单次实验之外持续运行，能在仪器漂移、实验结果随机性和不确定性累积的情况下保持自主操作，同时保障可重复性、可溯源性和安全性。

3 现有研究格局分析：以推理为核心和以执行为核心的范式

为弥合计算推理与物理实验之间的鸿沟，科学智能体和具身人工智能已成为实现更高程度自主科学发现的重要研究方向。但在实际研究中，现有成果大多分化为两种局部实现形式：以推理为核心的系统 ，侧重假说生成和硅基（虚拟）探索；以执行为核心的平台，能在定义明确的流程边界内实现自主、高通量的实验。两类研究各自在发现过程的单一环节表现优异，但本质上与其他环节相互脱节。本文将分析当前的研究格局，并指出这些局限性是结构性的，而非可通过增量升级解决的问题。

3.1 无具身的科学认知：脱离物理行动的推理

长期以来，人工智能通过数据驱动的建模和预测为科学研究提供支持，这一发展轨迹常与数据密集型科学的第四范式相关联⁽²⁶⁾。近年来，其作用进一步拓展为以认知为核心的科学智能体，旨在将人工智能从被动的分析工具升级为主动的推理主体。

如表 1 所示，这类方法的共同范式为：主要基于整理后的数据集运行、强调基于语言的科学推理，且不具备物理具身性，实验执行和验证均由人类完成。

该范式下的研究可分为四类：第一类聚焦任务分解与规划，ChemCrow⁽²⁷⁾、Biomni⁽²⁸⁾、SciToolAgent⁽²⁹⁾和 ToolUniverse⁽³⁰⁾等系统利用大语言模型协调领域专用工具，为合成规划、反应优化或生物医学分析动态构建工作流程。其优势在于能解构复杂科学任务、协调异构计算资源，但运行边界本质上局限于认知层面 ------ 实验行动被抽象为工具调用，物理执行仍由外部完成。

第二类侧重假说生成与问题空间探索，Virtual Lab⁽³¹⁾、Robin⁽³²⁾和 AI Co-scientist⁽³³⁾等平台通过协调证据收集、假说修正和针对特定研究问题的迭代讨论，模拟协作式科学推理的部分特征。这类系统超越了单纯的任务执行，走向探索性研究，但探索范围仍局限于文献、数据库和仿真环境，假说需由人类专家手动评估，而非通过自主实验证伪，导致核心的科学循环不完整。

第三类将科学发现框架化为硅基环境中的迭代搜索与优化，AlphaEvolve⁽³⁴⁾、DeepScientist⁽³⁵⁾和 InternAgent⁽³⁶⁾⁽³⁷⁾等系统将科学进步形式化为反馈驱动的过程，基于计算评估迭代修正假说或程序。该范式虽引入了明确的迭代和反馈概念，但反馈信号仅来自计算算法的执行。由于缺乏物理具身性和与物质世界交互的能力，这类系统难以在更广泛的科学领域实现泛化，生成的候选方案往往无法在物理实验中取得成功。

最后，部分研究致力于硅基环境中的端到端研究，以 AI Scientist⁽³⁸⁾和 Kosmos⁽³⁹⁾为代表，将以认知为核心的智能体拓展至自动化论文撰写和报告领域。尽管这类系统看似实现了从问题提出、方法设计、实验执行到论文撰写的研究闭环，但其范围仍局限于计算领域，缺乏物理具身性，无法与实际的实验环境交互，导致该闭环与物质世界的复杂性本质脱节。

尽管研究方向多样，以推理为核心的科学智能体存在一个根本性的结构局限 ：若无法在真实实验环境中实现具身执行，假说便无法通过与物理世界的持续交互进行自主验证、证伪或修正。其反馈过程间接、滞后，或完全依赖计算，最终形成认知封闭------ 推理过程缺乏实验支撑，逐渐陷入停滞。因此，这类方法难以支撑长时程自主科学发现，而后者恰恰需要反复的、具身的假说验证与修正循环。

3.2 以执行为核心的具身性：脱离科学理解的行动

与以认知为核心的科学智能体研究并行发展的，是实验物理执行领域的具身自动化技术，该领域已取得显著进展⁽⁴⁷⁾。如表 1 所示，以执行为核心的具身系统能对接原始仪器信号，主要依靠启发式或统计方法进行决策，并实现与物理世界的直接交互。但这类系统通常认知深度不足：虽擅长执行实验，却缺乏基于机制的推理和假说驱动的研究能力。

以执行为核心的研究可分为四类：最基础的是单步骤、绑定仪器的系统，自动化液体处理设备、机器人移液平台和称重系统均属于此类。它们能以高精度和可重复性实现独立的实验操作，但每个动作的执行均与更广阔的科学背景脱节。因此，这类系统是自动化实验的基础设施，能可靠执行预设的单步骤动作，却无法分析实验结果、结合实验背景进行推理，或超出明确指令调整行为。

更先进但仍受执行边界限制的是多步骤、基于方案的自动化系统，Chemputer⁽⁴⁰⁾和 FLUID⁽⁴¹⁾等平台将实验流程编码为机器可执行的工作流，能自动化实现复杂的多阶段实验方案。与单步骤系统相比，该方法将自动化从独立动作拓展至协同的多阶段实验执行，但即便执行覆盖多个阶段，系统仍无法分析中间结果、结合实验背景推理，或在出现意外结果时偏离预设工作流。

集成度最高的是闭环、反馈驱动的平台，包括 A-Lab⁽⁴²⁾、RoboChem⁽⁴³⁾和 CRESt⁽⁴⁴⁾等。这类平台将机器人执行与在线表征、统计优化方法（如贝叶斯优化、进化搜索）相结合，能在长期实验中展现出出色的自主性，根据观测结果调整参数，在高维空间中实现局部优化。但该闭环主要基于数值反馈运行，而非科学表征：当实验失败或产生异常结果时，系统仅通过参数调整进行适应，而非反事实推理或假说修正。

随着大语言模型的引入，机器人系统开始模糊以执行为核心的自动化与认知规划之间的边界，利用大语言模型设计实验工作流，并驱动具身实验室系统完成物理执行⁽⁴⁵⁾⁽⁴⁶⁾。尽管取得了这一进展，大语言模型的集成主要提升了工作流设计和控制的灵活性，并未赋予系统持续的、长时程的科学智能体能力。实验结果仅用于修正单个任务，形成的是片段化、面向特定任务的推理，而非累积的、由发现驱动的迭代。

尽管集成度不断提升，以执行为核心的系统在具身层面仍面临两个持续性局限：其一，大多数平台依赖固定或轨道式操作器，与预设的实验室布局紧密耦合，虽保障了可靠性，却限制了其在异构仪器和可重构环境中的物理灵活性；其二，这类系统的开发、校准和维护需要大量人工投入，调试工作流、调整执行逻辑以适配新实验场景均需耗费大量人力。

为缓解上述约束，研究人员通过移动具身形式 和基于数字孪生的仿真拓展了以执行为核心的自主性：移动机器人技术⁽⁴⁸⁾⁽⁴⁹⁾通过物理连接空间分布的仪器，突破了刚性具身的局限，将可执行的工作流范围拓展至固定工作单元之外；与此同时，MATTERIX⁽⁵⁰⁾等数字孪生框架通过实现虚拟验证和仿真到现实的迁移⁽⁵¹⁾，解决了工程层面的瓶颈，降低了部署自动化实验工作流的成本和风险。

但这两项进展均严格局限于执行层面：它们提升了实验执行的灵活性和可靠性，却无法让系统解读实验结果、修正科学假说，或进行基于机制的推理。从这个角度而言，移动机器人和数字孪生仅解决了执行层面的瓶颈，并未触及科学认知层面的问题。

因此，以执行为核心的具身系统往往是强大的执行引擎，而非真正的 "科学家" 。其决策由预设的目标函数和固定的参数空间引导，难以在限定范围之外的任务中实现泛化。尽管这类系统能在受限领域内实现高效优化，却无法积累可迁移的科学认知。实验被视为执行并评分的试错过程，而非提出、检验和修正假说的主动探索。这种行动与理解之间的鸿沟，造成了科学进步的假象：局部性能得到提升，但发现过程与科学理解始终脱节。

3.3 为何增量升级不足以解决问题

上述局限性无法通过单一维度的升级消除：更强大的语言推理能力无法自动保障流程的正确性、仪器感知能力和安全执行；更先进的机器人技术也无法自动实现假说驱动的研究、证据整合和科学泛化。

长时程自主性要求感知、语言层面的推理、具身行动和累积式发现之间实现统一的系统级耦合⁽⁵²⁾⁽⁵³⁾。这就需要一个闭环框架，将自主性视为端到端的系统属性，而非单一组件的升级。

4 感知 - 语言 - 行动 - 发现（PLAD）框架：面向科学发现的闭环智能体化具身人工智能

本文认为，智能体化具身人工智能是实现长时程自主科学发现的关键技术路径。为此，我们提出感知 - 语言 - 行动 - 发现（PLAD）闭环范式（图 2），作为该技术的总体实现框架。

与支撑通用具身智能的视觉 - 语言 - 行动（VLA） ⁽⁵⁴⁾范式不同（其核心目标是理解开放环境、生成语言描述并执行物理动作），PLAD 框架将科学发现作为核心目标，其设计因此贴合科学研究在认知结构、感知对象和行动形式上的独特需求。

在 PLAD 框架中，科学发现被建模为持续运行的闭环过程：智能体感知实验环境（感知）、在科学语言和知识的支撑下进行推理与规划（语言）、通过真实实验室中的具身行动执行实验（行动），并将实验结果内化为新的科学认知（发现），而这些认知又会推动新一轮的探索。下文将详细介绍 PLAD 范式的各组成部分。

4.1 感知：作为科学感官延伸的仪器

感知是智能体通过仪器感知科学环境的能力，这些仪器突破了人类的感知极限。在具身科学中，仪器不仅是数据记录工具，更扮演着人工科学感官的角色，决定了物理世界的哪些维度可被观测，以及实验信息的组织形式。科学感知包含两种互补的仪器感知形式：

第一，仪器提供仪器介导的物理观测，将潜在的物理现象转化为可观测的信号，包括显微成像、冷冻电镜重构、光谱测量等高维信号，以及其他模态的特定输出。这类观测能揭示实验系统的结构、动态或组成属性，而这些属性是人类裸眼无法感知的。

第二，仪器定义仪器化的实验状态，对实验的操作和流程背景进行编码，包括实验进度指标、设备状态，以及电子实验记录本或实验室信息系统中保存的结构化记录。这类信号不直接捕捉物理现象，而是将实验的动态状态形式化，使智能体能跟踪实验执行、检测偏差，并协调多步骤工作流。

两种感知形式相结合，使具身智能体不仅能感知实验中发生的现象，还能明确实验在整个科学研究过程中的定位，为闭环推理和行动奠定坚实基础。

4.2 语言：融合模型、知识与工具的推理

语言是智能体的科学大脑，负责科学推理、结果解读和实验规划。在 PLAD 框架中，该组件以大语言模型⁽¹⁸⁾⁽¹⁹⁾为核心，这里的大语言模型是一个广义的基础模型类别，包含能对异构科学输入进行推理的多模态大语言模型⁽¹¹⁾⁽¹²⁾⁽⁵⁵⁾。

尽管大语言模型提供了通用的推理能力，但可靠的科学智能无法仅由模型单独实现，而是源于模型、专业知识和任务专用工具的结构化融合，从而在通用性和专业性之间实现动态平衡。

在模型层面 ，用于科学任务的大语言模型需超越自然语言理解，能解读感知环节产生的多模态科学输入，包括实验数据、仪器输出和结构化记录。此外，大语言模型的深度推理能力⁽⁵⁶⁾使其能对复杂的仪器数据进行持续推理，同时完成假说推断和实验规划。这种能力让模型能整合异构证据、检验中间结论，并针对不同的解释、实验条件或机制假说进行反事实推理。

这就对模型设计提出了一系列面向科学场景的要求，包括：为光谱、图像和时间序列设计模态感知的编码方式；为化学、生物或材料表征设计专用的分词方案；从架构上支持长上下文推理。模型的训练流程还可结合科学文献与仪器生成的数据，使大语言模型习得与实证科学实践相契合的长链推理模式。

知识为通用大语言模型的推理提供了专业的基础和约束，使其贴合领域实际。这类知识既包括非结构化的科学文献，也包括数据库、科学知识图谱（Sci-KGs）⁽⁵⁷⁾等结构化资源。科学知识图谱以三元组形式系统编码科学概念及其相互关系，将结构化数据库与非结构化文本知识整合，提供更全面、稳定的推理基础。此外，知识图谱还能融合多模态信息（如组学数据、成像数据、计算仿真的动态轨迹），为科学推理提供丰富的上下文支撑。

重要的是，"基础" 和 "约束" 并非抽象属性，而是通过具体机制落地实现⁽⁵⁸⁾：在训练阶段，结构化知识可转化为推理监督信号，例如通过知识图谱到语料库的转化方法 ⁽⁵⁹⁾，将图谱结构转化为长链科学推理数据，生成高可靠性的学习信号；在推理阶段，通过检索增强生成（RAG）⁽⁶⁰⁾⁽⁶¹⁾整合文献、数据库和知识图谱，为模型提供权威的上下文，约束模型输出，提升不确定性下推理的稳定性。通过这种方式，知识为模型赋予了通用大语言模型单独无法实现的精准度、一致性和领域深度。

工具是实现专业性的另一重要维度，将推理过程拓展为可执行的操作。通过调用网络搜索、数据库查询、计算模型执行等工具，大语言模型能主动获取外部证据、完成专业分析，并验证中间假说。与大语言模型的通用推理能力不同，工具编码了专家流程和形式化方法，能在定义明确的科学任务中保证准确性和可靠性，有效将领域专业知识外化为准验证的操作。

模型 - 知识 - 工具的融合，实现了通用性与专业性的动态平衡：通用大语言模型提供跨领域的适应性、上下文理解能力和类比推理能力；专业知识和工具则保障了任务的精准度、深度和可靠性。在 PLAD 框架中，智能体能根据任务需求动态调整对三者的依赖程度，从而可靠地解读科学数据、进行基于机制的推理，并设计出既跨领域灵活适配、又能在特定科学场景中稳定落地的实验方案。

4.3 行动：物理世界中的具身执行

行动是具身智能体的科学躯体，代表其通过实验执行对物理世界进行干预的能力。在 PLAD 框架中，行动的核心是智能体物理操控材料、仪器和实验过程的能力，从而将科学推理落地为现实。

具身执行可根据一个核心维度进行分类：智能体运行的物理约束程度 。基于这一维度，具身形式可分为两类：以自主性为代价换取可靠性的空间约束型具身 ，以及以执行确定性为代价追求灵活性的空间无约束型具身。

空间约束型具身 在预设的机械边界内运行，与实验室基础设施紧密耦合，主要包括两种形式：固定式操作器 和线性轨道式操作器⁽⁶²⁾。固定式操作器是部署在各实验工位的固定机械臂，能自动化完成分液、样品上下料、仪器操作等定义明确的人工操作，其有限的工作范围保障了高精度、稳定性和可重复性，但也使其仅能在独立的实验阶段完成步骤级执行。

线性轨道式操作器则将机械臂安装在米级轨道上，连接合成、表征等多个功能工位，突破了固定式操作器的局限。这种配置能实现协同的多步骤实验工作流，在预设流水线中完成持续的高通量执行，大幅拓展了实验覆盖范围，同时保持了执行的可靠性。但两种形式均受固定布局和预设轨迹的约束，优先保障鲁棒性和安全性，牺牲了自主性，难以适配非结构化或快速变化的实验室场景。

与之相对，空间无约束型具身 无需预设轨迹或固定工作范围，主要包括集成了机械臂和移动轮的移动操作器 ，以及人形机器人⁽⁴⁸⁾⁽⁴⁹⁾。这类具身形式能在复杂的实验室空间中导航、运输样品和耗材，并与分布式环境中的各类仪器交互，其物理自由度赋予了系统更高层级的自主性，行为模式也更贴近人类研究人员。

但这种灵活性也带来了运动规划和执行可靠性方面的挑战，尤其在设备密集、流程复杂的安全关键型实验室场景中。

两类具身形式定义了互补的具身行动模式⁽⁶³⁾⁽⁶⁴⁾：空间约束型系统为常规实验提供了稳定、可靠的基础；空间无约束型系统则实现了异构实验室场景中的灵活性和集成性。其中，人形机器人具备独特的长期发展优势：它能直接在为人类设计的实验室布局、工具和方案中运行，最大限度减少了环境重构的需求，是实现通用实验室自主性的重要发展方向。

长时程自主科学发现的实现，需要整合约束型具身的可靠性和无约束型具身的适应性，而 PLAD 框架中的行动环节，正是连接推理过程与持续物理实验的桥梁。

4.4 发现：将执行结果内化为科学认知

发现是智能体将具身行动的结果内化为科学认知的过程。该过程并非将实验结果视为孤立的观测值，而是将执行反馈抽象为可迁移的科学理解。在 PLAD 框架中，发现环节将探索问题转化为新的认知，例如酶功能的精细化解读、反应路径的推断，或构效关系的更新。

通过将这些认知反馈至后续的推理和行动环节，发现实现了研究目标的持续修正，为长时程自主科学发现提供了支撑。

4.5 PLAD 框架的应用实例

本文以酶设计 和化学反应优化为代表性实例，说明 PLAD 框架如何在不同的实验场景中落地（图 3）。尽管二者的科学问题和实验模态不同，但 PLAD 框架为整合感知、推理和行动，构建闭环发现过程提供了统一的组织架构。

4.5.1 酶设计

在酶设计中，感知环节主要处理仪器生成的蛋白质结构输出（如冷冻电镜、X 射线晶体学结果）、功能和动力学测量数据（如米氏常数Km、催化常数kcat、时间分辨的活性曲线），以及稳定性和表达性的实验指标（如热稳定性、表达量、纯化收率）等输入。

语言环节的核心是构建酶的构效关系假说，推断哪些结构变化可能带来功能提升。例如，判断酶活性的增强是源于底物结合构象的优化，还是整体稳定性的提升；区分酶活性的丧失是由活性位点的直接扰动导致，还是由远端突变引发的构象不稳定性造成。基于这些推断，环节会提出设计策略，如优先对活性位点残基进行突变，或转而修饰二级结构界面以提升稳定性。

这一推理过程由计算和分析工具支撑，包括蛋白质结构预测、分子动力学仿真（评估突变对构象稳定性和动态性的影响），以及数据库查询（分析进化保守性或同源变体分布）。

行动环节将推理结果转化为具体的具身实验执行，通过控制生物铸造厂的实验设备生成突变体文库，并协调高通量的蛋白表达、纯化和活性筛选。通过多轮迭代循环，构效关系假说在长期实验中不断被检验和修正。

发现环节则将实验结果内化为酶设计的通用规则，包括活性 - 稳定性的权衡规律、突变的有效靶点等，为后续的酶设计循环提供指导。

4.5.2 化学反应优化

在化学反应优化中，感知环节侧重动态的过程级信号，包括光谱表征数据（如核磁共振、红外光谱）和时间分辨信息（如反应进程曲线、副产物生成轨迹）。这些信号共同反映了反应路径、中间态和操作稳定性的时间演化规律。

语言环节的核心是基于机制的化学推理，研究溶剂、添加剂、配体结构如何调控氧化加成、迁移插入、还原消除等关键基元反应步骤。当出现不理想的实验结果（如对映选择性降低、副产物增多）时，推理重点将从全局参数调整转向靶向的假说修正：特定副产物的生成可能预示着竞争性反应路径的存在，进而推动研究人员对反应物进行结构修饰，或加入添加剂以抑制 / 阻断该竞争路径。

这一推理过程同样由计算工具支撑，包括量子化学建模、动力学分析（评估不同条件下的相对能量、能垒高度和选择性趋势）。

行动环节将推理结果转化为具身实验执行，通过自动化工作站或移动机器人化学家执行靶向的反应实验，对机制假说进行实证验证，并抑制非目标反应路径。通过这种具身干预，基于机制的探索能在长期实验循环中持续推进。

发现环节则将实验结果内化为对反应路径的深层理解，包括基元反应的调控规律、竞争路径的抑制策略等，这些认知超越了单纯的参数调优，能为后续的同类反应优化提供通用指导。

5 挑战与设计考量

本节将识别制约 PLAD 闭环长时程运行的稳定性、可靠性和安全性的核心挑战，并提出相应的设计解决方案，确保系统能持续、累积、可信地运行（图 4）。

5.1 科学数据的推理挑战

对科学数据进行推理是弥合感知与语言环节的核心。实验中的感知输入通常是复杂、含噪的信号，如液相色谱 - 质谱（LC-MS）光谱、核磁共振（NMR）和红外（IR）光谱、时间分辨的反应动力学曲线、显微成像图和仪器状态日志。对这些数据的解读高度依赖领域专业知识和实验的上下文细节。

以液相色谱 - 质谱数据为例：光谱并非简单的 "产物指纹"，而是多种物理化学过程的叠加结果，包括离子化效率的差异、基质效应、多样的碎裂路径、异构体的共洗脱，以及信噪比随时间的动态变化。因此，色谱峰的出现、消失或强度变化，并不一定与反应进程或目标产物的生成相关；要实现准确解读，需将保留时间、同位素分布模式、碎片离子特征和实验条件整合为一个连贯的分析体系。

类似地，科学仪器通过过程信号和运行状态表征反应过程，研究人员通常会根据温度、压力、流速等参数，以及传感器读数或视觉线索（如图像捕捉到的相转变、颜色变化），判断反应是否停滞或偏离预期轨迹。但这类判断同样需要对底层反应机制和实验方案的深度理解。

解决这一挑战，需要模型设计 和工具辅助推理 的协同发展：在架构层面，大语言模型需适配科学场景，能处理实验数据的结构或时间属性，使推理能直接基于仪器生成的表征进行，而非仅依赖语言描述。这类适配科学场景的大语言模型通常被称为科学大语言模型（Sci-LLMs）⁽¹¹⁾。

即便经过上述适配，大语言模型也难以原生覆盖科学数据分析的所有维度，可靠的解读还需依赖工具调用------ 模型与专业计算工具协同工作，完成精准的分析流程，同时保持对高层级科学推理的控制。

模型推理和工具辅助推理的实现，均高度依赖合理的训练范式：智能体化强化学习已被证明能有效训练模型的深度推理和上下文工具使用能力，使智能体能在持续的推理和规划过程中，完成工具的调用、结果的解读和整合。

上述设计和训练策略相结合，支撑了长时程自主发现闭环中原始实验信号的分析。

5.2 具身执行的可靠性挑战

科学场景中具身执行的核心挑战是执行可靠性：在复杂的实验室环境和严格的安全约束下，实验行动能否正确、一致、可重复地执行。

科学实验的执行并非由单一、标准化的机器人完成，而是依托多种物理载体，包括固定式 / 移动操作器、人形机器人等。要在异构的具身形式中保障执行可靠性，进一步提升了科学环境中实现自主性的难度。

除了具身形式的多样性，科学实验本身还要求一系列精准、高度专业化的操作技能，如液体分液、粉末称重、装置抓取、样品转移和仪器对接。更重要的是，真实的实验往往涉及危险化学品、高温、高压或生物安全风险，使得依赖物理试错的学习方法难以规模化应用。

解决这些挑战的核心，是基于数字孪生环境的仿真到现实迁移方法⁽⁵¹⁾：数字孪生不仅能对实验室布局、仪器几何结构进行系统建模，还能精准刻画不同具身形式与实验机制的交互动态。

在科学场景中，数字孪生的核心价值不仅在于几何或运动层面的仿真精度，更在于对实验机制的准确还原。例如，通过对传热过程建模，虚拟环境中的温度变化能精准反映物理实验中的热行为，确保在仿真环境中开发的执行策略在真实实验中依然有效⁽⁵⁰⁾。

利用仿真环境进行大规模、低成本的训练和试错，结合人类演示和机器人执行生成的高质量轨迹数据，能逐步缩小虚拟与现实的差距，实现从仿真训练到实际部署的平稳迁移。

5.3 长时程知识的累积挑战

长时程自主性的本质，是认知与执行在多轮实验循环中持续的双向闭合 。科学发现并非一系列孤立的实验，而是一个累积式的知识构建、修正和拓展过程。

首先，长时程自主性对记忆管理提出了严格要求⁽⁶⁵⁾：智能体必须在较长的时间尺度上，持续记录、组织和回溯历史假说、实验设计和观测结果，确保过往经验能可靠地指导未来的决策。而仅依靠大语言模型的上下文窗口或非结构化的实验日志，无法保障这种连续性。

其次，长时程发现要求实验结果被系统分析并内化为动态演进的科学知识：新生成的结果不应仅作为瞬时观测值或孤立的性能指标，而需整合到智能体的内部状态中。这种整合确保了过往的成功、失败和异常结果能产生持续影响，从而实现累积式的发现，而非重复性的试错。

解决这些挑战的核心策略，是引入知识图谱作为结构化的表征框架⁽⁶⁶⁾：在记忆层面，知识图谱将碎片化的实验记录、假说和结论转化为结构化表征，支持跨时间尺度的检索、比较和推理；在发现层面，新识别的科学规律、因果关系或异常行为，可作为新的节点或关系融入知识图谱，使科学理解得以持续拓展和修正。

总体而言，长时程知识累积是整个闭环系统稳定、有效运行的系统性要求：只有当科学知识能在实验循环中持续累积、结构化组织和动态修正时，具身智能体才能超越短期优化，真正承担起长时程自主科学发现的任务。

5.4 科学基础设施的标准化挑战

在大多数实验室中，实验设备、感知仪器和执行模块通常作为独立系统运行。科学仪器通过将实验过程转化为可观测信号，拓展了发现的感知边界，其状态和输出需要被持续采集，以支撑推理过程。

但在实际研究中，测量数据、设备状态和操作日志通常仅本地记录，或仅以低层级信号的形式对外暴露，导致感知信息无法持续传递至 "科学大脑"，推理结果也无法可靠地贴合动态的实验状态。

这一挑战在涉及多步骤流程和协同具身行动的复杂实验场景中更为突出：要执行这类工作流，智能体需要协调异构的机器人和操作器，而若缺乏对行动和系统状态的统一表征，高层级的实验规划便无法系统地分解为可执行的具身行为。

上述因素共同造成了感知、推理、行动之间的结构性脱节，成为闭环自主性实现的根本性瓶颈。

要突破这一瓶颈，需要对实验组件的表征和交互方式进行系统性重构 ，而基础设施的标准化 是解决该问题的关键：通过对分布式的实验组件定义统一的、智能体能解读的抽象表征⁽⁶⁷⁾⁽⁶⁸⁾，实现基础设施的标准化。

网络连接使异构的仪器、传感器和执行系统能对外暴露其状态和输出，而标准化 则将这种原始的连接能力，升级为智能体能操作的功能。例如，科学上下文协议（SCP）⁽⁶⁷⁾为科学资源（包括工具、模型、数据集、物理仪器）的暴露和协调提供了标准化方法，将异构的实验室连接能力转化为智能体可操作的功能。

通过对实验行动、感知观测、故障 / 异常状态的表征进行标准化，协议使智能体能在不同仪器和实验场景中，解读、比较和组合各类交互行为。这让行动和观测成为 PLAD 闭环中可复用、可验证的基本单元，支撑长时程循环中的可溯源性、可组合性和累积式发现。

5.5 安全与风险的治理挑战

安全是长时程自主科学探索的根本性挑战。PLAD 框架的一个显著特征是，实验行动具有具身性和不可逆性：物理干预会永久改变材料、仪器和环境的状态，错误的行动无法像失败的计算一样回滚。

而 PLAD 框架的迭代性进一步放大了风险：迭代过程可能导致自主性失控，使系统逐步突破隐含的安全边界。这些因素大幅增加了实验中的安全隐患，包括执行不安全的实验流程、产生危险的实验结果等，例如在极端温度 / 压力下操作、在验证范围外使用有毒试剂，或生成超出实验边界、具有化学 / 生物 / 环境风险的产物。

PLAD 框架中的安全治理，依赖于知识驱动的约束 和模型驱动的风险评估 的协同配合：显性的安全知识 源于实验室规范、仪器技术指标、危险数据库和实验手册，定义了自主探索的禁止边界，这些约束编码了已知的危险和不可逾越的限制，确保假说生成和实验规划始终在经过验证、可审计的范围内进行。

但长时程自主科学发现往往会遭遇无法提前穷尽定义的风险 ：随着 PLAD 框架的迭代，危险可能源于上下文的交互、偏差的累积，或向极端条件的逐步推演。因此，还需要模型驱动的安全监控，对这类依赖上下文、突发的风险进行评估。

安全感知的守护模型会结合历史和实验上下文，对候选实验规划进行评估，判断原本单独允许的一系列行动，是否会共同导致系统接近不安全的状态。

6 结论

具身科学将科学发现重构为长时程的闭环过程，推理在这一过程中通过与物理世界的持续交互，不断落地、修正和丰富。这一视角揭示了当前科学人工智能领域的结构性局限：提升语言推理能力能拓展认知广度，推进实验室自动化能提高实验通量，但二者单独均无法满足自主发现的核心要求 ------ 在长时程研究中迭代生成、检验、证伪和修正假说的能力。

脱离具身性，推理易陷入自我指涉；脱离科学认知，执行易沦为盲目的优化。

PLAD 框架为弥合这一鸿沟提供了组织原则：通过将感知、语言、行动和发现整合为耦合的系统，PLAD 框架将自主性从短期性能优化，提升至累积式的科学理解------ 系统不仅能从成功中学习，还能从失败、异常和不确定性中汲取经验。

要实现这一愿景，需要在基础模型、仪器感知、协议编译与控制、科学基础设施、评估标准和安全治理等多个领域实现协同发展。当前的核心问题，已不再是人工智能能否为科学研究提供辅助，而是如何将科学发现设计为具身的、长时程的过程，并确保该过程在自主性提升的同时，始终保持可信性。