Autoresearch 快速上手

本周早些时候,Andrej @karpathy 发布了 autoresearch。

于是我尝试了一下:用一条命令运行 AI 研究:

复制代码
make gen CONTEXT="explore attention-free LLM"
DATA=TinyStories 
GOALS="lowest val_bpb"

我将分享如何用一条命令运行autoresearch并在仪表盘中跟踪实验。

autoresearch 仪表盘autoresearch 在 X 上爆红,三天后仍然在我的页面上很火。

X 热门话题## 1、为什么这很有趣

简而言之:

  • 你定义一个 program.md 文件,描述如何训练模型。
  • 智能体编写训练代码,运行实验,评估结果并迭代。
    研究循环不再需要手动运行实验,而是实现了自动化。

以下是我的智能体运行实验循环约两小时的代码片段。

Claude Code中的智能体迭代实验引用 Andrej Karpathy 的话:

过去,前沿人工智能研究是由"肉体计算机"完成的,人类通过会议进行协调。那个时代正在消逝。研究正朝着在计算集群上运行的自主人工智能智能体集群的方向发展。

这意义重大。

昨晚我启动了一个实验,然后和朋友们一起去画画两个小时。在我离开的这段时间里,智能体一直在运行实验。

这让我意识到机器学习研究中可以消除多少等待时间。

智能体不会取代研究人员,但它们可以消除很多等待时间。

2、问题

查看 autoresearch 代码库时,这个想法很简单,但设置仍然需要:

  • 编写 program.md 文件
  • 构建实验结构
  • 准备训练代码
  • 跟踪结果
    所以我想到一个简单的办法:为什么不使用 LLM 来搭建这些文档呢?

您可以克隆此仓库并自行尝试:Github - autoresearch-gen

简而言之,autoresearch-gen 的功能包括:

  • 生成自动研究样板代码
  • 对您的实验进行分析
  • 生成 Excalidraw 图表,展示系统工作原理
  • 通过代理提交跟踪实验和代码更改

autoresearch-gen 图表要开始使用,您只需告诉 LLM 您想要做什么、要使用什么数据以及实验目标。

3、使用一条命令运行自动研究

复制代码
make gen EXP=experiments/attention-free \
CONTEXT="Exploring attention-free LLM architectures \
on M5 Max 48GB (RWKV / SSM / linear attention)" \ 
DATA="roneneldan/TinyStories" \
GOALS="Lowest val_bpb without softmax attention"

您选择的 LLM 将生成结构化的自动研究代码。

大多数研究可视化工具都需要在 Jupyter Notebook 中使用 matplotlib。对于新手来说,这意味着需要切换工具并编写分析代码。

因此,我使用 Plotly 构建了一个简单的 Streamlit 仪表盘,它可以通过调用以下命令生成实验统计数据并提供基本的实验跟踪功能。

复制代码
make dashboard

4、仪表盘

您可以使用 GitHub 仓库中包含的示例数据运行此简单仪表盘进行测试。

autoresearch-gen dashboard我在午餐时间进行了一次快速测试:

  • 30 个实验
  • 41% 的保留率
  • 在 TinyStories 数据集上提升了约 26%
    目标是探索无注意力机制的 LLM 架构并降低 val_bpb。

结果会因输入和配置而异,因此请随意尝试不同的想法。

示例实验结果该仪表盘还允许您分析更多数据,了解实验的有效性,并使用 make diagram 命令或单击 Streamlit 仪表盘上的 regenerate diagram 来生成 Excalidraw 架构图以展示流程。

架构图和实验结果本项目的目标很简单:让人工智能研究更容易上手,尤其对于刚刚接触人工智能的人来说。

5、挑战

在开发本项目的过程中,我注意到另一个问题:经过多次迭代后,模型可能会开始遗忘部分上下文信息。

重要的变量或实验细节会随着时间的推移而丢失,这意味着我们需要一种更稳健的方式来存储状态,并更好地利用实验循环。

这与 Andrej Karpathy 最近提到的情况也有关联,他的自动研究实验室在一次 OAuth 服务中断期间被彻底摧毁。

这种情况表明,长时间运行的研究代理需要更好的状态管理、恢复和故障转移机制。

换句话说,要充分发挥自动研究系统的优势,我们可能需要一个更有状态、更具弹性的架构。

我将在后续文章中对此进行更深入的探讨。我的 Claude 代码已经运行实验 18 小时了。


原文链接:Autoresearch 快速上手 - 汇智网

相关推荐
2501_9209538621 小时前
工业4.0时代,制造企业精益管理咨询的标准化实施步骤
大数据·人工智能·制造
~央千澈~21 小时前
《2026鸿蒙NEXT纯血开发与AI辅助》第四章 对鸿蒙next项目结构目录详解以及实战解决一个最初的依赖安装的报错·卓伊凡
人工智能
xinlianyq1 天前
2026企业流量破局:四大主流短视频矩阵获客系统深度解析与选型指南
人工智能·矩阵
workflower1 天前
用硬件换时间”与“用算法降成本”之间的博弈
人工智能·算法·安全·集成测试·无人机·ai编程
Cx330❀1 天前
一文吃透Linux System V共享内存:原理+实操+避坑指南
大数据·linux·运维·服务器·人工智能
OPHKVPS1 天前
Anthropic 为 Claude Code 推出“自动模式”:AI 编码工具迈向更高自主性
网络·人工智能·安全·ai
Allen_LVyingbo1 天前
斯坦福HAI官网完整版《2025 AI Index Report》全面解读
人工智能·数学建模·开源·云计算·知识图谱
金融小师妹1 天前
基于AI通胀预期建模与能源冲击传导机制的政策分析:高频信号下的风险再评估
人工智能·svn·能源
胡摩西1 天前
当大模型遇上毫米级定位:机器人将拥有“空间思维”?
人工智能·机器人·slam·gps·室内定位·roomaps
志栋智能1 天前
超自动化运维的终极目标:让系统自治运行
运维·网络·人工智能·安全·自动化