OriGene：一种可自进化的虚拟疾病生物学家，实现治疗靶点发现自动化

治疗靶点的发现仍是药物研发中一个关键却依赖直觉的瓶颈，通常需要疾病生物学家费力地将各种生物医学数据整合为可测试的假设，以进行实验验证。OriGene是一个自进化的多智能体系统，其功能类似于虚拟疾病生物学家，能够系统地、大规模地识别具有原创性和机制依据的治疗靶点。

OriGene协调专门的智能体对多种模态的数据进行推理，包括遗传数据、蛋白质网络、药理学特征、临床记录和文献证据等，从而生成并优先排序靶点发现假设。通过自进化框架，OriGene不断整合人类和实验反馈，迭代优化其核心思维模板、工具组合和分析协议，进而随着时间的推移提高准确性和适应性。为全面评估其性能，作者建立了TRQA基准，该基准包含1900多个专家级问答对，涵盖广泛的疾病和靶点类别。OriGene在准确性、召回率和稳健性方面一直优于人类专家、领先的研究智能体，以及最先进的大型语言模型。

关键的是，OriGene提名了先前未被充分研究的肝癌治疗靶点（GPR160）和结直肠癌治疗靶点（ARG2）。

OriGene: A Self-Evolving Virtual Disease Biologist Automating Therapeutic Target Discovery

OriGene通过自进化的多智能体推理实现治疗靶点发现的自动化

OriGene是一个自进化的多智能体系统，可作为虚拟疾病生物学家，旨在大规模识别具有原创性和机制依据的治疗靶点。如图1A所示，OriGene整合了多源生物医学数据以及基础生物学、疾病生物学、药理学和竞争格局等领域的知识。其自我进化框架在一个紧密关联的工作流程中协调多个专门的智能体，包括协调器、规划器、推理器、评论器和报告器。这些智能体将复杂的生物学查询转化为结构化的假设和可操作的见解，确保推理过程的透明度，以便专家进行审查和协作。

收到目标研究问题后，协调器智能体会在特定领域思维模板的指导下，对问题进行分析并系统地将其分解为聚焦的子问题。这些思维模板是从目标研究文献中提炼出的结构化逻辑框架，能够确保问题分解过程的科学性和严谨性，并遵循该领域的最佳实践。

对于每个子问题，规划器智能体会自主决定调用哪些专业生物医学数据库、计算工具或分析策略，通过动态排序和整合资源，灵活满足每个子查询的独特需求。随后，推理器智能体会对多模态输出进行综合与压缩，不仅识别基因靶点、疾病、分子和信号通路之间的关键关系，还会找出其中潜在的矛盾。

评论器智能体会进行严格的分析，评估正在形成的解决方案的完整性和科学合理性，并提供有针对性的反馈以推动进一步完善。在整个过程中，一个集中式记忆库会积累和整理原始数据及经过处理的证据，为工作流程中的透明度和稳健的知识管理提供支持。

图1（A）OriGene 部署相互关联的智能体（协调器、规划器、推理器、评论器）来生成原始假设、分解子查询并利用工具。这些输出通过与专家和实验系统的动态交互进行迭代优化。

OriGene的一个显著特征是其在两个层面上的自我进化能力，如图1B所示。首先，在解决每个查询的过程中，OriGene会进行任务分解、工具利用、推理和反思的迭代循环，从而实现测试时的扩展------即额外的计算资源和更多的迭代次数能直接转化为响应质量的提升。其次，OriGene通过扩展和完善其模板库来持续增强全系统的推理能力：它会从自身最有效的解决方案轨迹中系统地提取新的高质量思维模板（这些轨迹经过人类专家注释或实验验证），从而促进能力增长的良性循环。这种递归式、模板引导且自我进化的多智能体架构，使OriGene能够系统地解决复杂的生物医学问题，自主选择和运用多种疾病生物学工具，并通过积累经验不断提升自身的科学推理能力。

图1（B）OriGene 在两个层面展现出自我进化能力：迭代优化复杂查询的答案，以及通过多代模板进化扩展全系统的专业能力。

图2（A）TRQA基准的概述，该基准包含两个互补的数据集：TRQA-lit通过大型语言模型（LLM）筛选和专家整理从生物医学文献中提取问题，生成了172道多项选择题和1108道简答题；TRQA-db则利用人工设计的模板和提取规则从结构化数据库中生成了641道简答题。（B）两个数据集的代表性问题示例及相应答案。

思考模板引导推理

为解决疾病生物学推理中存在的逻辑幻觉问题，作者为协调器智能体和规划器智能体增加了结构化思维模板。尽管工具整合能有效减少事实性幻觉，但查询分解和工具选择所需的复杂逻辑过程仍在很大程度上依赖基础模型的推理能力，而这可能会引入特定领域的逻辑错误。

解决方案采用了一种模板引导的方法，所使用的精选思维模板集源自专注于计算机模拟方法的生物信息学研究论文。这些模板通过分析已发表研究的逻辑结构，捕捉专家的推理模式。利用大型语言模型，系统地提取并形式化研究者的思路------包括如何将复杂的生物学问题分解为可研究的组成部分、为每个子查询选择合适的计算工具，以及在分析步骤之间建立有意义的关联。

这些思维模板提供了特定领域的框架，用于指导智能体的推理过程，确保查询分解和工具选择遵循既定的科学方法，而非单纯依赖模型的通用推理能力。这种方法显著提升了智能体在复杂生物学研究中模拟专家级逻辑推理的能力，同时减少了逻辑幻觉的出现。

OriGene：一种可自进化的虚拟疾病生物学家，实现治疗靶点发现自动化

目录

OriGene通过自进化的多智能体推理实现治疗靶点发现的自动化

思考模板引导推理