【大模型智能体】人工智能宇宙学家 I：自动数据分析的智能体系统

The AI Cosmologist I： An Agentic System for Automated Data Analysis

人工智能宇宙学家 I：自动数据分析的智能体系统

摘要

我们提出了"AI宇宙学家"，这是一个为自动化宇宙学/天文学数据分析与机器学习研究流程而设计的智能体系统。该系统实现了从想法生成、实验评估到研究成果传播的完整流程，模拟了通常由人类研究人员执行的科研过程。它通过规划、编码、执行、分析和综合等专业智能体的协同工作来开发创新性研究方法。与传统的自动化机器学习系统不同，"AI宇宙学家"能够生成多样化的实施策略，编写完整代码，处理执行错误，分析实验结果，并基于实验成果综合出新方法。我们在多个机器学习任务中展示了该系统的能力，证明其能够成功探索解决方案空间、基于实验结果进行迭代，并将不同方法中的成功要素进行整合。我们的研究结果表明，智能体系统可以自动化部分科研流程，有望加速科学发现。本文使用的代码与实验数据已在GitHub平台开源：https://github.com/adammoss/aicosmologist。附录收录的示例论文展示了该系统仅从数据集和任务描述出发，即可自主生成完整科学出版物的工作能力。

关键词：宇宙学、人工智能、机器学习、自动化研究、智能体系统、大语言模型

代码

1.引言

宇宙学和天体物理学正步入一个数据空前丰富的时代。即将开展的天文巡天与实验，如薇拉·C·鲁宾天文台 $1$ 、欧几里得太空望远镜 $2$ 、平方公里阵列（SKA） $3$ 以及类似DESI的光谱巡天项目 $4$ ，将产生前所未有的大规模高维数据。宇宙学模拟则通过生成数千个高分辨率模拟（例如 $5$ ），进一步加剧了数据的增长。这些数据集规模达到PB至EB级别，使得传统的手动或半手动分析流程难以实施 $6$ 。因此，要高效提取科学发现，必须对数据分析方法进行变革。

机器学习（ML）在天体物理学中已变得不可或缺，它成功实现了星系分类 $7$ 、超新星探测 $8$ 、瞬变源探测 $9$ 、强引力透镜发现 $10$ 、测光红移估计 $11$ 以及引力波分析 $12$ 等任务的自动化。除天文学外，机器学习在材料发现 $13$ 、蛋白质结构预测 $14$ 、地球系统建模 $15$ 等科学领域也日益关键，并取得突破性进展。这些成就彰显了机器学习在处理传统方法难以应对的复杂性与规模问题上的强大能力。

然而，机器学习在实际部署中仍需要大量特定领域的专业知识与反复实验，这在研究流程中形成了瓶颈。为应对这一挑战，旨在最小化人为干预的自动化机器学习系统应运而生 $16$ 。尽管自动化机器学习能够优化模型选择、超参数调优和特征工程，但现有解决方案通常局限于优化预定义的工作流程，对于需要创造性问题解决或迭代优化的新型任务仍存在不足。

以OpenAI Codex $17$ 和AlphaCode $18$ 为代表的大型语言模型（LLMs）的进展，为工作流自动化提供了互补性机遇。这些模型擅长生成可执行代码并促进类人推理，实现了以往无法达到的高水平自动化。基于这些创新，将基于LLM的推理嵌入自主决策循环的智能体框架，正作为变革性工具兴起。诸如ReAct $19$ 、Reflexion $20$ 以及SWE-agent $21$ 、ChemCrow $22$ 等特定领域智能体，在自动化复杂迭代的科学与工程任务方面展现出巨大潜力。

本文提出AI宇宙学家系统，这是一种旨在实现宇宙学端到端数据分析自动化的智能体系统。我们的框架融合了自动化机器学习技术、大语言模型驱动的代码生成以及自主推理智能体，以支持全自动化的科学工作流。该系统能够自主提出假设、设计计算实验、评估结果，并在无需人工干预的情况下迭代优化研究方法。

本文结构如下。第二节回顾了自动化机器学习、AI辅助编程与智能体系统的相关研究。第三节详述了我们的智能体系统架构，阐释了各专业智能体的功能、协同机制以及研究流程与传播工作流程。第四节展示了两项代表性宇宙学机器学习任务的实验结果：星系形态分类与宇宙学参数推断。第五节探讨了本研究的意义、当前局限性与未来潜在方向。第六节为全文总结与讨论。附录收录了由AI宇宙学家系统自主生成的两篇完整研究论文。

1.1 贡献

具体而言，我们的贡献包括：

• 一种用于自动化宇宙学和天文学科学机器学习工作流的新型智能体系统，将自动化机器学习和大型语言模型驱动的自动化与迭代推理相结合；

• 集成基于大型语言模型的智能体，以实现创造性、动态的研究流程构建与执行；

• 在代表性任务上展示了最先进的性能，包括星系形态分类和宇宙学参数推断；

• 一个全面的自主研究流程，能够生成符合发表要求的成果与可视化图表；

• 通过附录中呈现的高质量科学论文进行了实证验证。

2.相关工作

2.1 自动化机器学习（AutoML）

AutoML自动执行流程设计、模型选择与超参数调优 $16, 23, 24$ 。早期框架如Auto-WEKA $25$ 和auto-sklearn $26$ 将贝叶斯优化与元学习 $27$ 相结合，以高效探索机器学习流程。以TPOT $28$ 为代表的进化方法，则通过遗传算法进一步实现了流程优化的自动化。

神经架构搜索（NAS）将自动机器学习扩展到深度学习领域，通过强化学习 $29$ 、进化策略 $30$ 以及如DARTS $31$ 的可微分方法，实现了与人类相媲美的成果。元学习方法，例如MAML $32$ ，促进了任务间的快速适应，进一步提升了自动机器学习的效率与通用性。

AutoML在科学领域展现出显著潜力，其应用包括哈勃望远镜图像中的小行星自动检测 $33$ 与星系形态分类 $34$ 。然而，这类系统通常仅在预定义的搜索空间中进行探索，处理复杂科学问题时仍需要大量人工干预。

2.2 人工智能辅助编程

AI辅助编程借助基于代码训练的大型语言模型迅速发展。OpenAI的Codex模型 $35$ 通过在HumanEval等基准测试中取得优异表现，显著推动了该领域进步，展示了人工智能将自然语言转化为可执行代码的能力。

继Codex之后，CodeGen $36$ 、AlphaCode $18$ 、InCoder $37$ 和StarCoder $38$ 等复杂模型相继出现，各自引入了多轮合成、代码填充和广泛的上下文理解等创新。这些模型有望显著提升生产力、减少错误并提高代码质量，尤其是在复杂的科学代码库中。

在科学计算领域，AI辅助编程能优化多项工作流程，例如机器学习模型的快速原型构建、数据管线的标准化以及错误检测。特定领域的编码助手正变得越来越可行，这类工具能理解专业科学语言与工作流，为实现定制化的AI支持带来了可能。

2.3 智能体系统与自主科学家

智能体系统将推理与行动能力嵌入人工智能，使其具备自主规划、执行与迭代优化的功能。诸如ReAct $39$ 、Reflexion $40$ 和HuggingGPT $41$ 等框架通过工具调用、反思机制和外部记忆增强大语言模型，从而构建出具备自适应问题解决能力的智能体。

最新进展包括化学领域的ChemCrow $22$ 、软件工程领域的SWE-agent $21$ 等自主专业系统，以及ChemGPT $42$ 等自主实验室系统。这些智能体能够主动管理从假设形成、实验设计到基于实证结果的迭代优化的完整研究周期。

在天体物理学与宇宙学领域，早期探索已展现出智能体系统在基于模拟的推断与自动化科学发现方面的潜力 $4346$ 。AI Cosmologist 在此基础上进一步发展，其独特之处在于专注于自动化宇宙学领域的完整科学机器学习生命周期，并融合了对于科学理解至关重要的可解释性与性能表现。

3.面向自动宇宙学数据分析的智能体系统

3.1 智能体架构

AI宇宙学家采用模块化架构，由针对机器学习研究不同阶段的专用组件构成。该设计遵循智能体系统原则------自主软件组件（智能体）被设计为执行特定功能以实现共同目标，同时保持独立的决策能力。该系统的核心是大型语言模型（LLMs），即基于海量文本语料训练、能根据输入生成上下文相关文本的神经网络架构。这些模型通过预测可能的词元序列运作，采用复杂的注意力机制以维持长交互中的上下文连贯性。

在我们的系统中，每个智能体都配置了具有专用指令的LLM，这些指令定义了其操作领域、约束条件和目标：

规划智能体：根据任务规格和数据集细节生成实施方案与策略。该智能体运用提示词工程技术以优化科学推理和假设生成。
编码智能体：将方案转化为可执行的机器学习代码。该智能体配备代码专用指令，利用LLM对编程模式和科学计算库的理解，生成功能正确的实现。
执行智能体：运行生成代码并处理错误。该智能体将LLM与外部工具集成，支持在受控环境中执行代码，并能解读运行时输出（包括错误和性能指标）。
分析智能体：评估结果并生成洞察。该智能体处理实验输出，运用统计推理解释模型性能，识别所实施方案的优势与不足。
综合智能体：通过整合先前实验中的成功要素创建新方法。该智能体具备元学习能力，能跨多组实验进行推理以识别模式并生成创新方法。
文献智能体：通过自动查询arXiv和INSPIRE-HEP等知识库，将研究实现与科学文献关联。该智能体检索相关论文、提取内容、识别方法论路径和基准结果，并维护包含引文、摘要及相关性评估的结构化参考文献库。

这些智能体间的协调遵循有向图结构，其中单个智能体的输出将作为另一智能体的输入。该编排过程通过条件执行框架进行管理，后续智能体的调用取决于先前操作的成功状态与内容输出。每个智能体维护自身的上下文窗口以存储其特定任务的相关信息，而全局上下文则保留整个系统中的关键信息。

每个智能体在必要时均可访问外部工具，包括代码执行环境、数据可视化库和科学计算框架。这些工具集成将系统能力从文本生成扩展到可与计算资源交互，并对数据执行具体操作。

为说明这些智能体在实践中的运作方式，图1展示了规划智能体用于生成初始想法的实际提示词。这示例了系统如何构建与大语言模型的交互以激发特定类型的科学推理。该智能体被指示采用专家科学家角色，获得任务相关背景信息，并遵循精确的格式要求进行引导。

复制代码

你是一位专家级科学家。你的任务是结合以下补充信息，提出一套包含 {num_ideas} 个实施方案来执行给定任务。

* 任务 *
{task}

* 数据集信息 *
{additional_info}

* 指令 *
- 生成 {num_ideas} 个适合在 PyTorch 或其他机器学习框架中实施的方案。
- 这些应是高层次方案，提供模型和训练过程的高层级细节，无需给出模型架构或训练过程的确切细节。
- 每个方案应包含与其他方案不同的新要素。
- 允许复用思路，但每个方案都应具备一定的独创性。
- 每个方案应包含逻辑上能相互整合的技术。
- 避免试图一次性完成过多内容。
- 确保每个方案在科学上合理可靠。
- 深入思考方案的科学依据，根据任务和数据论证每个方案的合理性。
- 暂不编写任何代码。
- 将每个方案呈现在一个独立的"构想"代码块中。

图1 规划智能体用于生成初步实施方案的提示模板示例。大括号表示动态填入任务特定信息的变量占位符。

该智能体通过一个结构化工作流程运行，该流程包含两个不同阶段：(1) 研究阶段与(2) 传播阶段。

3.2 研究阶段

研究阶段实施了一个完整的科学发现循环，通过实验系统性地生成、检验并完善假设，如图2所示。该阶段始于初始化和创意生成，针对每个创意历经实施与评估，并通过多轮协作整合多个实验的洞见，最终生成优化的方法路径。

图2展示了AI宇宙学家系统在研究阶段的工作流程图。流程始于初始化和初始想法的生成，随后进入针对每个想法的开发周期，该周期包括规划、代码生成、执行和评估。随后系统进入协作轮次，通过对结果的交叉分析，形成两条并行路径：一是分析表现最佳的思路以识别成功模式；二是审视解决方案空间以发现未探索的研究途径。

3.2.1 初始化

系统首先从描述问题与数据特征的文件中加载数据集信息D。系统无需处理详尽细节，仅需处理数据集的高层信息------例如文件结构、数据类型以及针对表格数据的列名。此类信息可包含相关科学背景以阐明问题语境。此外，系统还需明确一项任务规范T，其表述既可如"最小化测试数据的均方误差损失"般简明，亦可体现为更具体的研究目标。

3.2.2 创意生成

规划智能体生成多种不同的实施方案：

I = { i 1 , i 2 , . . . , i n } , I=\left\{i_1,i_2,...,i_n\right\}, I={i1,i2,...,in},

其中每个想法 i j i_j ij 代表解决该任务的独特策略。这些初始想法存储于集中式知识库中，以便在整个研究过程中进行追踪。

3.2.3 计划制定

对于每个想法 i j i_j ij，智能体会制定一个全面的实施计划 P j P_j Pj：

P j = f p l a n ( i j , D , T ) , P_j=f_\mathrm{plan}(i_j,D,T), Pj=fplan(ij,D,T),

计划详细阐述了实施的各个方面，包括数据加载、预处理、模型架构、训练流程和评估方法。智能体可执行多步反思以完善计划。

P j ( k + 1 ) = f r e f l e c t ( P j ( k ) , D , T ) , P_j^{(k+1)}=f_{\mathrm{reflect}}(P_j^{(k)},D,T), Pj(k+1)=freflect(Pj(k),D,T),

其中 P j ( k ) P^{(k)}_j Pj(k) 表示第 k k k 次反思步骤中的计划。

3.2.4 代码实现

编码智能体通过系统化流程将规划转化为可执行代码，该流程可由以下方程式表示：

C j = f c o d e ( P j , D , T ) C_j=f_{\mathrm{code}}(P_j,D,T) Cj=fcode(Pj,D,T)

生成的代码包含完整的机器学习实现，涵盖端到端执行的所有需求。这些实现配备了数据加载与预处理流水线，能够恰当地处理输入数据的转换与增强。此外，智能体整合了训练与评估流程，采用适配具体任务需求的优化方法、损失函数和评估指标。代码集成了实验跟踪工具，可在训练过程中系统记录指标、超参数及可视化结果。进一步的功能包括检查点处理机制，支持保存模型状态并在必要时恢复训练。最后，该实现提供结果可视化能力，可生成信息丰富的图表与视觉呈现，以辅助模型性能解读。自反思机制通过迭代过程实现代码优化：

C j ( k + 1 ) = f code reflect ( C j ( k ) , P j , D , T ) C_j^{(k+1)}=f_{\text{code reflect}}(C_j^{(k)},P_j,D,T) Cj(k+1)=fcode reflect(Cj(k),Pj,D,T)

其中 C j ( k ) C^{(k)}_j Cj(k) 表示在反射步骤 k 时的编码。

3.2.5 执行与评估

执行智能体在目标数据集上运行生成的代码：

R j = f e x e c u t e ( C j , D ) R_j=f_{\mathrm{execute}}(C_j,D) Rj=fexecute(Cj,D)

其中 R j R_j Rj表示执行代码 C j C_j Cj的结果。当执行过程中出现错误时，智能体会诊断问题并使用基于差异的编辑格式生成代码修复，该功能通过开源Aider包实现。此方法仅输出对代码库的具体更改，而非为每次修复重新生成整个实现，从而显著节省了大量大语言模型计算资源。

C j ( f i x e d ) = f e r r o r f i x ( C j , E ) C_j^{(\mathrm{fixed})}=f_{\mathrm{error~fix}}(C_j,E) Cj(fixed)=ferror fix(Cj,E)

其中E代表检测到的错误。基于差异的编辑允许在保持整体代码语境的同时进行精确修改以解决特定问题。该过程将持续进行，直至成功执行或达到最大重试次数。若代码错误无法解决，智能体将标记该方案为未成功。

3.2.6 综合

合成智能体执行全面的交叉构想分析，以评估和比较不同实施方法的有效性。该过程始于一个对所有实验结果进行评估的排序函数：

R a n k = f r a n k ( { R 1 , R 2 , ... , R n } ) \mathrm{Rank}=f_{\mathrm{rank}}(\{R_1,R_2,\ldots,R_n\}) Rank=frank({R1,R2,...,Rn})

智能体随后通过两条并行路径生成新想法。第一条路径分析表现最佳的创意以识别成功模式：

P a t t e r n s = f p a t t e r n s ( R a n k , { R 1 , R 2 , ... , R n } , { P 1 , P 2 , ... , P n } ) \mathrm{Patterns}=f_{\mathrm{patterns}}(\mathrm{Rank},\{R_1,R_2,\ldots,R_n\},\{P_1,P_2,\ldots,P_n\}) Patterns=fpatterns(Rank,{R1,R2,...,Rn},{P1,P2,...,Pn})

第二条分析路径通过考察整个解空间来识别未探索区域：

Unexplored = f u n e x p ( { R 1 , R 2 , ... , R n } , { P 1 , P 2 , ... , P n } ) \text{Unexplored}=f_{\mathrm{unexp}}(\{R_1,R_2,\ldots,R_n\},\{P_1,P_2,\ldots,P_n\}) Unexplored=funexp({R1,R2,...,Rn},{P1,P2,...,Pn})

这些互补性分析有助于催生两种类型的构想：其一为具有迭代性的新构想。

I ( i t e r ) = f i t e r ( P a t t e r n s , R a n k , { R 1 , ... , R n } , { P 1 , ... , P n } ) I^{(\mathrm{iter})}=f_{\mathrm{iter}}(\mathrm{Patterns},\mathrm{Rank},\{R_1,\ldots,R_n\},\{P_1,\ldots,P_n\}) I(iter)=fiter(Patterns,Rank,{R1,...,Rn},{P1,...,Pn})

其次，多元的新观点

I ( d i v e r s e ) = f d i v e r s e ( Unexplored , { R 1 , ... , R n } , { P 1 , ... , P n } ) I^{(\mathrm{diverse})}=f_{\mathrm{diverse}}(\text{Unexplored},\{R_1,\ldots,R_n\},\{P_1,\ldots,P_n\}) I(diverse)=fdiverse(Unexplored,{R1,...,Rn},{P1,...,Pn})

最后一组新理念既包含基于成功方法的综合改进，也包含探索解决方案空间中未经检验区域的全新构想。

3.2.7 协作回合

经过交叉分析阶段后，新产生的想法将反馈至规划阶段，以启动额外的开发周期。这一循环过程会持续进行预先设定的多轮协作，每一轮都在前序迭代所获认知的基础上持续推进。每轮协作均使新想法经历完整的规划、编码、执行与评估流程，从而能够基于积累的实验证据实现对方法的渐进式优化。

3.3 研究成果传播阶段

传播阶段在研究阶段取得有前景的成果后启动，其核心任务是将实验成果转化为完整的科学交流内容。该阶段通过多个专业组件的协同运作，最终生成符合发表要求的学术资料。

该流程的核心是一个结构化工作流，始于对科学叙事进行系统性规划。规划智能体首先评估实验结果，以识别关键发现、创新点及其在更广阔科学背景下的意义。此项分析将生成详细的论文框架，包括建议的标题、章节结构、需强调的关键成果以及必要的文献关联。

文献智能体随即在arXiv和INSPIRE-HEP等科学知识库中进行全面检索，以获取相关出版物。该智能体通过精心构建的检索语句，识别与研究方法、数据集及研究领域相关的文献。针对每篇检索到的论文，智能体会提取元数据（作者、引用信息、发表载体），通过内容分析识别相关方法与结果，并生成附有相关性评估的结构化摘要。这些文献关联机制确保了方法引用的准确性和研究成果在当前学术前沿中的定位。

基于论文提纲与文献综述，该系统可依照常规科学论文结构（摘要、引言、相关工作、方法、结果、讨论、结论）生成完整的章节草稿。各章节均以恰当的技术深度、数学严谨性及视觉元素进行构建。在方法部分，智能体从实验代码中提取实现细节，并将算法组件转化为精确的数学表达。结果部分整合了实验结果的自动生成可视化图表，包括与基线方法及文献中识别出的前沿成果的对比图示。

传播阶段的最终产出包括：

采用LaTeX格式的完整科学手稿，包含适当的章节划分、文献引用及数学公式
以符合出版要求的高质量格式呈现实验结果的可视化图表
采用BibTeX格式的完整参考文献库，涵盖所有被引文献条目
可供审阅或提交的已编译PDF文档

这一自动化研究传播能力代表了科学人工智能系统的重大进步，使得从创意生成到实验验证、再到形成可发表成果的完整研究周期无需人工干预即可实现。但需注意的是，当前系统生成的文稿仍需经过人工审阅与润色，才能正式提交至学术平台。

3.4 实施细节

AI宇宙学家系统采用经过精心挑选的尖端技术组合实现，在性能需求与实际考量之间取得了平衡。大语言模型构成该系统架构内所有智能体组件的基础。我们采用Gemini 2.5 Pro（API版本gemini-2.5-pro-exp-03-25）承担大部分智能体功能，包括规划、分析与综合任务。选择此模型是基于其目前在科学推理与代码开发基准测试中的顶尖表现。Gemini 2.5 Pro为我们的实施提供了显著优势，包括每日50次请求的合理免费额度，这既便于系统开发，也支持小规模实验性部署。

针对基于差异的代码编辑组件，我们采用了一种不同的方法，即使用OpenAI的o3mini-high模型。选择该特定模型是因为代码编辑任务通常需要在单个实验周期内进行更频繁的API调用，这使得请求速率受限的Gemini模型可能对此特定任务产生限制。o3mini模型具有明确的成本结构：输入约为每百万令牌1美元，输出为每百万令牌5美元。尽管存在这些成本，我们发现该模型在代码编辑任务中提供了高效的性能，同时保持了合理的开销。我们的实际测量表明，每个完整的端到端实验过程通常花费数美元，考虑到所执行的自动化研究的计算复杂性和潜在科学价值，这是一项可接受的支出。

4.实验

4.1 实验设置

我们通过两项具有代表性的宇宙学机器学习任务评估了AI Cosmologist系统的性能，以验证其能力。尽管未来工作将涵盖更广泛问题的系统性研究，当前实验作为概念验证，已充分展示了该方法论的效能与潜力。所选用的两个数据集分别对应宇宙学分析中的两大挑战：星系形态分类与宇宙学参数推断。

首个数据集源自星系动物园二期项目 $47$ ，该项目为斯隆数字巡天计划中的304,122个星系提供了细致的形态学分类。该数据集构建了一个具有挑战性的回归任务，其目标是根据GZ2决策树为每个星系图像预测37个形态学概率值。该数据集通过Kaggle竞赛平台发布，提供了具有明确性能指标的标准化评估框架。此任务涵盖多项计算机视觉挑战：包括从噪点显著的天文图像中提取特征、处理方向与尺度变化问题，以及对人类分类行为的概率特性进行建模。

第二组数据集使用了Quijote模拟套件 $5$ ，该套件专为宇宙学参数推断任务而设计。我们处理了包含2000次模拟的拉丁超立方子集，这些模拟系统性地探索了一个五维参数空间：物质密度参数Ωm、重子密度参数Ωb、无量纲哈勃参数h、原初谱指数ns以及物质涨落幅度σ8。每次模拟提供了一个离散在643网格上的暗物质密度场，该网格位于(1 Gpc/h)3的立方体体积内，代表了红移z = 0处的暗物质空间分布。此数据集呈现了一个复杂的回归任务，要求模型从与基本宇宙学参数相关的三维密度场中提取细微特征。

针对每个数据集，人工智能宇宙学家仅获得数据结构与任务目标的基本信息。随后系统被允许自主生成多种实施策略，评估其性能，并通过多轮协同迭代优化其方法。我们追踪了模型在迭代过程中性能的演进轨迹，以评估解决方案的绝对质量及系统通过迭代优化实现自我提升的能力。

为确保在维持计算效率的同时对解决方案空间进行全面探索，我们为AI宇宙学家配置了以下超参数。系统首先针对每项任务生成20个不同的实现方案，为后续工作提供多样化的方法基础。每个方案均需完整经历规划、编码、执行和评估四个阶段。在完成初步探索后，我们进行了5轮协同迭代，每轮生成6个新方案（其中3个基于对最优方案的整合，另外3个用于探索新方向）。最终每个数据集共计产生50次实现尝试，这种设计既能充分展现系统在探索解空间过程中持续优化解决方案的能力，又能保证足够的覆盖度。在错误修正方面，我们为每次实现设置最多3次重试机会以解决运行时问题，超过该次数则判定该方案未获成功。

4.2 星系动物园结果

在星系动物园实验中，AI宇宙学家被赋予了一项明确的任务：

在测试数据上获取最小均方误差，并确保在评估中包含均方根误差的输出。

在每次成功实现后，智能体通过API自动向Kaggle竞赛平台提交预测结果，并记录公开排行榜分数。这些分数，连同训练和验证过程中收集的其他评估指标，构成了量化反馈，用以指导后续的优化迭代。

图3展示了在研究工作流程三个主要阶段中实施策略的演变过程。在初始构思阶段，智能体生成了一系列以微调预训练卷积神经网络为主的不同方法，这些方法涉及多种架构（ResNet-50、EfficientNet-B4、Vision Transformer）和训练配置。这些初步构想探索了不同的数据增强技术、优化策略和模型架构，同时保持了应对形态学分类任务回归问题本质的共同主线。

python 复制代码

**初始构想**
- 对预训练的ResNet-50 CNN进行微调，结合图像增强技术，使用MSE损失函数、AdamW优化器及ReduceLROnPlateau学习率调度器，用于星系形态回归任务。
- 训练一个经微调的预训练EfficientNet-B4 CNN（输入为384px图像），采用自定义归一化、数据增强、AdamW优化器、余弦退火学习率调度器及MSE损失函数。
- 微调预训练的Vision Transformer模型，采用数据增强、AdamW优化器及学习率调度器，将最终分类层替换为回归层，以最小化MSE损失，并对预测结果进行截断处理。
- 微调预训练的ResNet-50模型，采用随机旋转、翻转及色彩抖动等数据增强，使用MSE损失函数、AdamW优化器及ReduceLROnPlateau学习率调度器。
- 在Galaxy Zoo挑战赛中，集成N个独立训练的预训练ResNet-50模型（均采用数据增强、AdamW优化器、ReduceLROnPlateau调度器及MSE损失函数），对截断后的预测结果进行平均。
分析阶段
优势：
• 预训练卷积神经网络（如EfficientNet、ConvNeXt、ResNet）至关重要。

劣势：
• 训练损失显著低于验证损失/RMSE。
• 均方误差平等对待所有类别。
• 缺乏高级数据增强、精细调优策略及目标依赖性建模。

机遇：
• 高级数据增强策略：Mixup/CutMix、领域特定增强、测试时增强。
• 加权均方误差、分层损失函数、目标变换。

多样性：
• 自监督学习。
• 显式分层建模。
**新思路**
- 以分层MSE损失、领域特定数据增强（点扩散函数模拟、噪声注入）及AdamW优化器，对预训练的EfficientNet-B4卷积神经网络进行微调。
- 以回归任务适配的Mixup/CutMix、ImageNet标准化、AdamW优化器、余弦退火调度器及MSE损失，对预训练的Vision Transformer进行微调。
- 集成经微调的EfficientNet-B3/B4与ConvNeXt-Tiny模型，采用多尺度输入、ImageNet预训练、AdamW优化器、学习率衰减策略（ReduceLROnPlateau/CosineAnnealingLR）、结合对数几率目标变换的MSE损失及超参数优化。
- 在合并的星系训练集与测试集图像上，使用自监督学习方法训练Vision Transformer，随后为其添加回归头并以MSE损失进行微调。
- 采用分层损失函数与条件输出头的卷积神经网络/Vision Transformer，以显式建模"星系动物园"决策树的条件概率结构。
- ......

图3：Galaxy Zoo数据集实施策略的演进。该图展示了初始概念的选取、实验结果分析及综合生成的新理念。文本已因篇幅考虑进行缩写和标注。

分析阶段揭示了多项关键见解，为后续改进提供了方向。智能体发现预训练的卷积神经网络（尤其是如EfficientNet和ConvNeXt等新架构）的表现始终优于其他方法。但同时也注意到其存在显著缺陷，包括训练性能与验证性能之间存在明显差距（表明存在过拟合现象），以及对星系动物园决策树结构固有的类别依赖关系处理欠佳。分析结果指出可通过以下途径提升模型性能：采用先进的增强策略（如Mixup/CutMix及领域特异性转换）、设计能适应分类任务层次结构的更复杂损失函数，以及实施能更好捕捉概率分布特性的目标变换方法。

在优化阶段，智能体综合这些洞见以生成更成熟的实施方案。这些新方法纳入了层级损失函数以模拟星系动物园决策树的依赖关系，采用了针对天文成像量身定制的领域特定数据增强技术，并探索了利用无标签数据的自监督学习。尤其值得关注的是多分辨率输入策略的开发，以及融合了互补模型架构的集成方法的探索。

图4展示了连续实施周期中的性能提升轨迹。初始方案取得了尚可但非卓越的性能表现，在验证集和对应的Kaggle公共评分中均获得约0.077的均方根误差值。通过迭代优化，性能实现稳步提升，尤其在最终协作阶段观察到显著进步。突破性方案将测试时增强技术与多尺度缩放策略相结合------该方法大幅提升了对星系图像方向与尺度变化的鲁棒性。该方案在Kaggle公共排行榜上取得了0.07235的均方根误差，较早期实现方案有实质性改进。

尤为重要的是，在Kaggle私有排行榜（开发阶段无法访问）上进行评估时，该最终实现的性能超过了原始竞赛获胜方案。这证明了AI宇宙学家不仅能够复现，不仅能自主开发有效的解决方案，更要发现与人类专家水平相当或更优的新型实施策略。完整的研究周期最终以自动化生成科学论文为终点，该论文详述了方法论与研究成果，收录于附录中。此论文完全由系统自主生成，未经过任何人工干预。

图4 在Galaxy Zoo 2数据集上，从初步设想到多轮协作过程中，最佳验证集RMSE与Kaggle公开分数的优化历程。

4.3 基霍特结果

在"堂吉诃德结果"实验中，人工智能宇宙学家的任务目标设定为：

在测试数据上获取最小均方误差。请确保在评估中为每个参数输出均方误差、平均绝对误差和决定系数。

初始构思阶段产生了多种方法，主要基于3D卷积神经网络，并融合了多种改进技术，如ResNet风格的残差连接、受Inception启发的模块以及注意力机制。这些实施方案均采用密度场的对数变换，并对输入参数与目标参数进行了标准化处理。通过随机旋转和翻转等数据增强手段，物理对称性得以保持。该阶段衍生出多种架构变体，从标准3D CNN到更复杂的视觉Transformer、对比预训练方法，以及同时处理空间与光谱信息的双分支网络。

对这些初步实施方案的分析揭示了重要规律。该系统确认了3D CNN在空间特征提取方面的有效性，以及适当预处理策略的必要性。然而，它同时也识别出重大挑战：相较于其他参数（Ωm和σ8），某些参数（Ωb和h）的精确预测尤为困难；3D模型训练中的计算限制；以及标准池化操作中的信息损失。这些洞见引导了对关键机遇领域的识别，主要集中在物理信息驱动的架构、不确定性量化和多尺度特征提取等方面。

在优化阶段，人工智能宇宙学家开发出更为精细的方法，这些方法较初始实现方案取得了实质性进展。新模型融合了多元概率分布建模、结合辅助任务的多尺度特征提取、自监督预训练以及物理信息特征表征。性能评估显示迭代过程存在明确的进展，其中最显著的改进源自那些将物理洞察明确纳入模型架构的方法。

最为成功的实现方案是一种物理增强型三维卷积神经网络，该网络将深度特征提取与显式计算得到的功率谱及密度概率分布特征相结合。这种混合方法通过对传统上具有挑战性的Ωb和h参数实现显著改进的约束，同时保持对Ωm和σ8参数的优异精度，从而达到了最先进的性能水平。该研究最终形成了一篇自动生成的科学论文，收录于附录中。

5.结论

我们的实验表明，AI宇宙学家系统能够成功为宇宙学领域的各类机器学习任务生成多样化且可执行的实现方案。该系统能有效识别并修正生成代码中的错误，通过迭代优化系统性地提升性能，并能整合成功实现方案中的要素来合成新方法。一个尤为突出的特点是系统的运行速度------它能在数小时或数天内完成整个研究周期。以星系动物园任务为例，该系统在约72小时内探索了50种实现变体，这种规模的实验需要人类投入大量精力与时间才能完成。定量结果显示，AI宇宙学家开发的模型实现了与人类程序员创建的基准方案相媲美的性能。此外，系统探索多元方法的能力有时能催生优于传统方案的新颖解决方案，正如星系动物园任务中超越原始Kaggle竞赛优胜者性能的结果所印证。

该系统的学习能力尤为显著，其迭代版本始终较初始实现表现出持续改进，这证明了实验运行间有效的知识迁移。这种渐进式优化表明，系统能够基于实证证据积累认知并完善方法，体现出人类科学研究的一个重要特征。

5.1 局限

该AI宇宙学家虽具备多项能力，仍存在若干重要局限。该系统虽能有效重组现有研究方法并实施已知技术，但在真正原创的概念性创新方面仍面临挑战。其运作机制主要基于对既定模式的调整与优化，而非实现方法论上的根本性突破。此外，该系统需要依赖明确界定的研究问题，目前尚无法自主提出科研议题，这限制了其作为科学智能体的自主性。

生成代码的计算效率可能参差不齐，未必能达到人类专家程序员的优化水平。这种低效性可能限制其实际可处理问题的规模。此外，该系统缺乏深刻的理论理解，无法为更具原则性的研究方法提供指引。它主要从经验结果中学习，而非基于对底层物理过程的理论洞见。

当前研究的一个重要局限在于，此处展示的案例所采用的数据集特别适用于机器学习方法。为了在宇宙学研究的全领域问题中全面评估该系统的能力与局限，有必要在更具挑战性和多样性的数据集上进行更详尽的验证。

5.2 未来研究方向

未来工作可通过若干前景广阔的路径解决这些局限性。整合理论知识库能够以物理原理和既定宇宙学理论指导实施选择，从而可能提升生成解决方案的效率与科学有效性。发展更先进的元学习能力可增强系统在不同宇宙学问题和数据集间的知识迁移能力，加速新领域的学习进程。引入人类反馈与协作机制将实现更高效的人机协同，将自动化实施与人类科学直觉的互补优势相结合。扩展到分布式系统将支持对解空间进行更大规模的探索，有望通过更广泛的实验发现更具创新性的方法。此外，将系统扩展至同时处理多模态天文数据的能力，可提升其在结合成像、光谱和时序数据等复杂观测场景中的适用性。

最后，开发能够更好地评估和解读人工智能生成结果的科学意义的框架，对于将"AI宇宙学家"这类系统融入更广泛的科学进程至关重要。这包括用于评估自动化发现的稳健性、可推广性及物理合理性的工具，以及将机器发现的模式与宇宙学理论理解联系起来的方法。

6 结论

AI宇宙学家代表着迈向宇宙学数据分析和机器学习研究流程自动化的第一步。该系统通过实现从创意生成到实验评估的完整工作流，展示了人工智能如何协助乃至可能自动化机器学习科学发现的重要环节。尽管目前尚不具备突破性人类研究所特有的创造性飞跃能力，但AI宇宙学家表明，系统性的探索、实施与迭代过程能够由人工智能系统有效执行。这预示着未来人工智能将日益深入地参与自身的发展，可能对该领域的发展速度与本质产生深远影响。

随着能力提升，人工智能宇宙学家这类系统可能从自动化常规研究环节的工具，演变为能够贡献新颖见解和研究方法的协作伙伴。这些系统能以并行方式运行数十项实验，在数日内完成人类研究者需耗时数周甚至数月的工作------这种运行速度为科学发现速度的飞跃式提升提供了可能。速度与能力的结合使得大规模探索解决方案空间成为现实，有望发掘出在传统研究时间框架下难以被发现的重要研究路径。这一演变在加速科学进程的同时，也引发了关于人类研究者在日益自动化的科研环境中角色转变的新议题。