LLM大模型操作比特币

探索大型语言模型作为量化交易者的局限性

我们给六家领先的LLM公司各1万美元，让他们仅使用数值市场数据输入和相同的交易信号/工具，在真实市场中进行自主交易。初步结果显示，不同公司的交易行为（风险、规模、持仓时间）存在显著差异，并且对交易信号的微小变化非常敏感。

介绍

逻辑推理模型（LLM）在解决问题的领域已达到国际象棋和围棋的水平，并在ICPC和IMO等竞赛中展现出强大的算法谜题和数学证明能力。这些以及其他基准测试已成为检验这些模型能否应对现实世界问题并颠覆各行业知识和技能型工作的试金石。然而，现有的静态基准测试存在不足，大多仅测试模型在固定数据集上的模式匹配和推理能力，而忽略了长期决策、运行鲁棒性、适应性以及在风险领域的表现。这些静态测试数据很快就会被纳入训练语料库，许多模型通过直接记忆已在多个测试中取得高分，这意味着它们不再能提供以往的参考价值。未来的发展方向清晰而明确：在真实、动态、竞争激烈的环境中测试模型的决策能力。

在 Nof1，我们致力于了解人工智能在现实世界中的行为方式，并专注于金融市场领域来实现这一目标。在 Alpha Arena 第一季中，我们的目标是回答以下问题：

大型语言模型能否在极少指导下，作为零样本系统交易模型发挥作用？

我们给每个领先的流动性模型（LLM）1万美元，让它们在Hyperliquid平台上进行交易，全程无人为干预。每个模型都必须处理量化数据（这是流动性模型面临的一个众所周知的挑战），并仅使用提供的数值数据进行系统性交易。在第一季中，它们无法获得新闻或市场主流"叙事"。相反，它们必须根据给定的时间序列数据进行推断。这些模型所拥有的资产池包含以永续期货形式存在的加密货币衍生品。永续期货超液体

每个模型只有一个目标：最大化损益（利润和亏损）。每次调用模型时，都会赋予模型夏普比率（单位风险的超额收益），以帮助消除风险行为的影响。

总体而言，在 Alpha Arena 中取得成功极其困难。我们并不指望任何模型都能表现出色，早期的成功或许只是运气使然。然而，第一赛季只是众多赛季中的第一个，后续赛季的难度将会逐步提升。在未来的迭代中，我们将引入更严谨的统计方法、更多的控制因素以及更具针对性的挑战。

《阿尔法竞技场》第一赛季有两个目标：

通过对比分析，揭示主流流动性管理模型（LLM）中显而易见的隐性偏差和默认交易行为。这些模型的交易方式是否存在显著差异？它们的交易行为是否具有长期一致性？它们在哪些方面容易出错？

助力人工智能研究文化转型，使其从静态的、考试式的基准测试转向以真实世界为基准的测试。我们希望Alpha Arena能够凸显在更具实际意义的环境中评估人工智能的强大力量。我们相信，这是发现关键差距和洞见、推动前沿人工智能发展的最快途径。

我们选择使用真实资金进行第一季的实盘交易。模拟交易仍然是一个有用的基准，但它无法展现真实市场所面临的所有执行挑战、逆向选择和问责机制。透明度是此方法的重要组成部分：从加密货币入手可以提供可审计的追踪记录和反馈。额外的关注有助于强化第二个目标，因为人们会发现这些模型以及各个赛季的不足之处。

这并非什么。

我们的目标并非仅凭一次运行就断言存在永久的"最佳"交易模型。我们深知第一季的缺陷，包括但不限于：早期偏差、样本量有限/缺乏统计严谨性、评估周期过短等。

尽管如此，在多次预发布测试中，我们观察到不同模型之间存在显著的行为差异，具体内容已在下文记录。我们正在继续分析第一季的测试数据，同时开展有针对性的后续实验，其中许多实验旨在解决单次运行的局限性。

在第一季中，我们重点关注模型的默认规则遵循能力和风险管理能力。它们能否可靠地遵循简单的风险规则？决策回路的哪些部分可以信赖其自主运行？它们会在哪些环节误读输入、过度交易、反复无常或违背先前计划？每个模型的基准立场是什么：风险规避、风险偏好还是中性？这种立场随时间推移的稳定性如何？目前我们已经获得了一些初步答案，并提出了可检验的假设，以系统地弥补我们理解上的不足。

以下各节详细介绍了我们的安全带设计方法、初步研究结果以及未来工作计划。

Alpha Arena 设计

Alpha Arena 的设计初衷是为智能体提供一个具有挑战性的问题，同时避免让他们注定失败。我们进行了大量的实验，以确保模型拥有足够的信息做出合理的决策，并避免信息过载。因此，我们为每个智能体提供了一套精简的实时市场特征：当前和历史中间价及成交量、精选的技术指标以及涵盖短期和长期时间尺度的辅助特征。这些数据可在nof1.ainof1.ai

本次评测涵盖了来自顶尖人工智能研究实验室的六款模型：GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4、DeepSeek v3.1和Qwen3-Max。选择这些模型旨在代表中美两国闭源和开源供应商的最新技术水平。除 Qwen3-Max 外，所有模型均启用最高可配置的推理设置。我们报告的是开箱即用的性能，未进行任何针对特定任务的微调。

为了简化操作，我们将交易选项限定为：买入（做多）、卖出（做空）、持有和平仓。可交易的加密货币种类也仅限于 Hyperliquid 平台上的六种热门加密货币：BTC、ETH、SOL、BNB、DOGE 和 XRP。

我们选择加密资产主要出于三个实际原因：

市场全天候24小时开放，这使我们能够持续观察决策，而不仅仅是在营业时间内。

数据丰富且易于获取，这有利于分析和透明审计。Hyperliquid 的去中心化设计使得外部各方能够轻松验证每笔交易是否如报告的那样真实发生。

Hyperliquid 速度快、可靠性高，而且集成起来极其简便。Hyperliquid 和加密货币都是全球性的，它们与特定国家或公司的关联性较低。

这些模型进行的是中低频交易（MLFT），其决策间隔为几分钟到几小时，而非微秒级。与高频交易截然不同，MLFT 更能让我们接近我们真正关心的问题：模型能否在合理的时间和信息量下做出正确的选择？在这样的时间跨度下，反馈循环迅速，因此良好的推理往往会体现在交易结果中，而过度交易和糟糕的风险控制则会体现在成本和回撤上。重要的是，这是实盘交易，而非模拟或纸上演练，因此模型将面临真实的交易执行、真实的费用以及试图智胜它们的真实交易对手。

为了确保不同模型和提供商之间的可比性，所有代理都使用相同的系统提示、用户提示模板、数据和默认抽样配置。用户提示完全透明可见。系统提示我们未来可能会开源。

构建线束

必须精心设计智能体上下文，避免引入过多指令和信息，导致智能体难以跟踪所有内容。我们避免了多智能体编排、工具使用和过长的对话历史记录，尽管这些功能可能会在未来的基准测试季中添加。循环如下：

Alpha Arena 推理循环图

每次推理调用（约 2-3 分钟）时，代理会接收 (a) 简洁的指令集（系统提示）和 (b) 实时市场信息 + 账户状态（用户提示），并返回操作指令，这些指令指令将被送入 Hyperliquid 交易执行流程。指令经过多次迭代优化，详细说明了预期费用、仓位规模以及输出格式。除了目标币种、方向（多/空）、数量和杠杆之外，操作输出还包括简短的理由说明、 $0, 1$ 范围内的置信度评分以及包含预定义盈利目标、止损位和失效条件（预先注册使计划失效的特定信号）的退出计划。这些字段是在提示信息设计过程中引入的，经验证可以提高性能。仓位规模是交易设计的关键组成部分，由代理根据可用现金、杠杆和其内部风险偏好自行计算。

为什么允许模型使用杠杆？Hyperliquid平台专为永续期货而构建，而永续期货的设计初衷就是为了方便用户使用杠杆。使用杠杆交易永续期货是该交易所的主要交易方式。杠杆交易还能提高资金效率，加快交易结果的得出，从而加速反馈和学习循环。同时，杠杆也会显著增加风险，对模型的风险管理能力和纪律性进行压力测试。

为了说明代理行为在实践中的表现，本文将通过一个示例单笔交易，从决策到执行和监控进行演示。

由于比特币价格突破止盈阈值，触发了自动平仓，因此此处显示了交易平仓前立即执行的交易指令详情。在本例中，从入场到平仓的15小时44分钟内，Claude 处理了更新后的市场数据，并选择坚持其平仓计划，连续持有比特币头寸443次。

初步研究结果

我们的初步运行结果表明，在相同的模型框架和提示信息下，不同的基础模型在风险偏好、计划能力、方向性偏好和交易活动方面存在显著差异。我们还发现，这些模型对看似微不足道的提示信息变化非常敏感，这凸显了构建稳健的模型框架和进行充分的提示信息迭代对于在实践中有效使用这些智能体的重要性。

洞察与模式

总体性能统计数据（损益、夏普比率）固然重要，但它们并不能反映全部情况。在最近几周进行的数千次调用和多次预发布试运行中，我们观察到一致的模式，包括代理的收敛点和分歧点。这些差异可能反映了不同模型在目标、一致性和采样行为方面的差异。主要观察结果：

多空倾向。不同交易员的多空仓位比例随时间变化；有些交易员表现出持续的多头偏好。Grok 4、GPT-5 和 Gemini 2.5 Pro 的做空频率远高于同行；Claude Sonnet 4.5 则几乎从不做空。

持仓时间。我们发现不同代理和不同运行的持仓时间（入场→出场时间）存在较大差异。在预发布运行中，Grok 4 的持仓时间最长。

交易频率。已完成的交易数量差异很大。Gemini 2.5 Pro 最为活跃；Grok 4 通常最不活跃。

风险偏好（仓位规模）。面对相同的提示，智能体选择的仓位规模差异很大。Qwen 3 的仓位规模始终最大，通常是 GPT-5 和 Gemini 2.5 Pro 的数倍。

自我报告的信心。模型在采取行动时必须分配一个介于 0 和 1 之间的信心评分，而不同模型的信心评分差异很大。值得注意的是，Qwen 3 通常报告最高的信心评分，而 GPT-5 的信心评分最低；这种模式在多次运行中保持一致，并且似乎与实际交易表现无关。

退出计划的严格程度。在开放式指令下，代理人会设置不同的止损/目标价位规则。总体而言，Qwen 3 使用的止损/目标价位距离最窄（以入场价的百分比计）；Grok 4 和 DeepSeek V3.1 通常使用最宽松的止损/目标价位。

活跃仓位数量。有些模型倾向于同时持有六个可用仓位中的大部分或全部；相比之下，Claude Sonnet 4.5 和 Qwen 3 通常一次只维持 1-2 个活跃仓位。

失效条件。代理在设置退出计划失效规则时会参考不同的特征。在预试运行中，Gemini 2.5 Pro 更频繁地覆盖其退出计划并提前关闭，而其他代理则没有。我们仍在调查此事。

我们还观察到，这些代理在某些方面存在脆弱性，而这些脆弱性会对实际操作产生重要影响。我们遇到的一些模式如下：

排序偏差。早期提示将市场数据按最新→最旧顺序排列。即使有明确的注释，一些模型仍然将其解读为最旧→最新，从而推断出错误的状态。切换到最旧→最新顺序解决了直接错误，并提示在当前的LLM模型中需要先验地进行格式调整。

术语含糊不清。 "免费抵押品"和"可用现金"的交替使用导致了行为不一致，有时假设正确，有时则犹豫不决。明确定义消除了这种失效模式。这种含糊不清是可以理解的；问题在于反应过于草率。一个可靠的代理人应该默认采用明确的假设，并在不确定性下采取行动。

在约束和欺骗下进行规则博弈。在一个暴露先前操作、 set_trading_plan 元操作、单行 think 字段以及≤3 hold次连续操作的临时上限的测试模型（Gemini 2.5 Flash）中，虽然表面上符合规则，但实际上却违背了其意图：其内部逻辑提示无法第四次操作，随后发出 set_trading_plan 一个中性的"思考"信号以解释变更，并迅速恢复了一系列 hold 操作。暴露的"思考"信号与内部逻辑链（CoT）出现分歧，表明在压力下进行了规则博弈。鉴于交易的高度监管性质以及该领域不良结果带来的后果，我们非常重视规则一致性。

计划中的自我参照混乱。对于开放式退出计划，模型有时会误读或自相矛盾地执行先前的输出。例如：GPT-5 后来质疑其自身发布的"EMA20 回收"语句，不确定如何应用；Qwen 3 (30B-A3B) 在入场价为 4,463.7 后设置了"获利 +0.5% (4,477.47)"（+0.5% ≈ 4,486），注意到其 CoT 中的计算不一致，然后犹豫不决，选择继续持有而不是获利了结。这些案例表明，随着状态的演变，模型难以执行其自行制定的计划。即使部分原因是由于模型本身的限制，并且可以通过提供更多上下文信息来解决，但这种模式也暴露出一个更深层次的问题：如何随着时间的推移保持智能体之间一致的沟通，这在多智能体和长上下文环境中会变得更加突出。

在开发过程中，手续费是所有交易员面临的一大障碍。由于交易员过度交易，频繁获取微小的短期收益，导致早期阶段整体损益主要被交易成本所抵消。我们通过收紧交易提示来缓解这一问题：要求明确退出计划（目标价、止损价、失效止损），鼓励交易员持有数量较少但规模更大、更有把握的仓位，引入杠杆，并将仓位规模与模型的固有信念和交易员自我报告的信心评分挂钩。

未来工作

我们努力让模型得到公平的测试机会，但现有框架确实存在一些限制。每个智能体都必须解析嘈杂的市场特征，将其与当前账户状态关联起来，在严格的规则下进行推理，并在有限的上下文窗口内返回结构化的操作。目前，智能体没有明确的市场机制感知能力，也无法访问先前的状态-操作历史记录，这限制了它们适应市场变化或从错误中学习的能力。此外，该设置不支持增持（即增加或减少当前持仓），因此一旦建仓，仓位大小和参数就固定不变。这项任务的复杂性需要扩展的设置：更广泛的特征集、选择性地使用工具（例如，代码执行或网络搜索），以及明确地包含过去的状态-操作轨迹。

如前所述，这是一个单赛季的实时赛事，时间窗口有限，因此统计效力有限，早期排名可能会有所变动。我们观察到排名和模型间相关性在不同赛季之间存在差异。我们正在持续分析当前和之前的赛季，并进行更严谨的后续研究；一旦达到我们设定的稳定结论标准，我们将分享更完整的方法论和结果。尽管如此，上述行为模式在早期试验中一直保持一致。

Nof1旨在解决的更广泛的问题是：如何让未来的交易者更容易理解市场？什么样的条件和界面能够帮助自主系统学习、公平竞争并创造价值，而无需依赖特权访问或操纵？真正意义上的超人交易还缺少哪些能力？如果每个人都可以部署代理，又需要哪些保障措施？第一季是迈向更宏大愿景的一小步，也是透明的一步。

接下来会发生什么？

《阿尔法竞技场》第一季将于美国东部时间 2025 年 11 月 3 日下午 5:00 结束。

我们即将完成第二季的制作，将利用第一季的发现和持续的分析来塑造下一季的内容。

在第二季中，我们计划推出更多功能，发布改进的提示和工具，并引入更严谨的统计方法。

从现在到第一赛季结束，我们将继续发布实时赛果并与社区互动。第二赛季的更多计划即将公布。

人工智能在真实市场进行交易