为什么 Github Copilot 要收集你数据，也是 AI 订阅以前便宜的原因

你知道什么是数据标注吗？这是一篇科普内容。

相信大家都收到通知，从 4 月24 日起，Copilot Free、Pro 和 Pro+ 用户的交互数据：包括你输入的代码、模型的输出、光标周围的代码上下文、你写的注释和文档、文件名、仓库结构、导航模式，默认会被用鱼训练 GitHub 的AI 模型。

重点是，虽然数据不会分享给第三方AI提供商，但会分享给 GitHub 关联公司(也就是微软)，这其实也可以看出，AI 时代数据的重要性，特别是不断更新中的数据的重要性。

而在大家讨论这个行为的时候，不少人也提了类似疑问："GitHub 上不是已经有最大的开源代码吗？为什么还不够？为什么还非要用户数据？而且为什么 Github 貌似连自己的模型也没做好？"

这个问题其实不是那么直观，因为其实对 AI 来说，单纯只有"结果"是不够的，真正有价值的数据，往往还需要带着上下文、过程、反馈和结果的完整链路数据。

你需要了解，什么是值钱的数据，也就能了解，代码的数据标注是什么。

GitHub 有很多开源项目，这些代码很重要，而且非常重要，如果没有这些公开代码，编程大模型不可能有现在这个水平，比如 Cursor 在 Composer 2 报告里也提到过：

代码是大模型训练里最重要的一类数据来源，但 Cursor 也强调过，真正面向"软件工程" Agent 的模型训练，不能只停留在静态代码上，而要尽量贴近真实用户任务、代码库、工具调用和真实执行环境。

换句话说，开源代码能告诉模型"软件长什么样"，但只有用户的交互数据，才能告诉模型「软件是怎么一步一步被写出来、是怎么被修改、验证、再被接受或则否决」，这样的了链路层面单纯的结果数据是不够的。

可以用一个最简单的例子来类比，比如现在你看到一道选择题，最后答案是 C，但你并不知道题目是什么，也不知道为什么是 C，更不知道 A、B、D 为什么不对，那这个"C"对你有多大帮助？

只有答案的帮助很有限，因为你下次遇到类似问题时，你依然不知道则么判断，甚至就算把原题再摆到你面前，AI 也不一定能认得出来，因为真正有价值的数据，通常至少应该包含这几个部分：

题目是什么

解题过程是什么

有没有不同解法

最后答案是什么

这个答案最后有没有被验证通过

写代码也是一样，一个公开 repo 里最终呈现出来的往往是"最后版本的代码"，它像是考试的最终答卷，但中间缺了很多关键信息：

用户最开始想解决什么问题
这个问题是怎么描述的
模型第一次给了什么方案
哪一步写错了
用户改了哪里
哪个方案被接受，哪个被拒绝
为什么这个 patch 被保留，另一个被删掉
这个改动最后有没有通过测试
用户究竟是要"能跑"，还是要"可维护"，还是要"符合项目风格"

这些信息，恰恰才是把模型从"会补全代码"进化到"会解决真实问题"的关键，也是数据标注的关键，GitHub 这次的协议更新，其实也讲得很直白：

他们希望获取的，不只是输入输出本身，还包括代码上下文、光标附近的环境、注释和文档、文件名、仓库结构、导航模式、以及用户对建议的反馈，因为他们看到了"使用微软内部真实交互数据"后带来的性能提升，并认为真实世界交互数据有助于模型更好理解开发流程。

所以对于平台来说，重要的不只是代码数据的多少，他们想拿到的是"人在真实开发过程中，如何与 AI 协作"的过程数据。

这其实也是 Cursor 最值钱的部分，这次 SpaceX 给 Cursor 的估值和合作，不是它现在的产品形态有什么特别，现在的 Cursor 3 形态和 Codex app、Claude Code Desktop、Trae solo 没什么区别，支撑它 600 亿估值的，更多是它的这些用户和数据，而这些数据也可以帮助 X AI 进一步得到提升：

其实 Cursor 也意识到 IDE 场景已经保不住了，所以 Cursor 3 才会转换成新的形态，同时开始力推自己的大模型。

所以"数据"不只是代码，它在链路上可以分为四种场景：

静态结果数据，也就是 Github 的代码，issue，文档等，它解决是"知识"和"分布"的问题：
- 常见 API 怎么写
- 项目结构通常怎么组织
- 某类功能最终长什么样
- 常见编码风格和模式是什么

指令/响应数据，比如用户提一个需求，然后模型给出一段代码或解释，它能把"问题"和"回答"连起来了
多轨迹数据 ，在「指令/响应数据」基础上增加了行动轨迹，比如搜索、打开、阅读、修改、运行、报错、修复、运行，测试，成功，patch ，它是模型在复杂任务里的行动轨迹 ，因为真正强的编程 Agent，训练核心不只是"代码语料"，而是"任务---环境---动作---反馈---结果"这样的闭环
偏好/反馈数据 ，比如用户接受了哪个建议、修改了哪个建议、直接拒绝了哪个建议，这类数据的价值在于让模型学会什么叫"对"，什么叫"更好"，什么叫"更像真实开发者会接受的结果"。

而实际上，"过程数据 "一直都比"最终结果 "更贵，因为"过程数据 "更接近"可学习的推理链路"：

模型需要看到任务是如何被拆解、决策、试错、修正并最终完成。

例如一个真实的编程问题，模型并不是简单地产出一段最终代码，而是需要学会：

先理解需求
判断应该改哪个文件
发现可能影响哪些依赖
知道先搜哪里
知道什么时候该读测试
知道什么时候应该运行命令验证
发现错误后如何回滚或修正
在多个解法之间做权衡

这类东西，单看"最后 commit 长什么样"是学不出来的，至少学不完整 ，比如 OpenAI 在关于 chain-of-thought monitorability 和 reasoning model monitoring 的研究里就反复强调过：

推理模型的自然语言思考过程、行动链路与中间轨迹，往往就携带了各种关键的信息，而如果只看最终结果，很多行为就回变得无法监控，所以过程信息反而能更有效暴露模型真实意图。

所以，这也是为什么会有那么多"数据标注"和"数据清洗"的业务存在，因为现实世界的数据，绝大多数都不是天然可训练的状态，例如：

噪声非常多，真实开发中有大量无效交互，比如试探性提问、情绪化输入、拼写错误、上个班照顾明明模型写对了，但用户自己没看懂
链路不完整，比如用户问了，模型也回答了，但是用户最后没后续操作
不同层级的数据要重新归类，比如这段代码，是面对 Bug 修复还是 API 重构，是安全修复还是性能优化，如果不做清洗和归类，这些数据会混在一起，模型学到的东西就会变的很杂
样本需要重新整理，需要"把原始交互洗成可训练数据"，这个很好理解，数据只有洗成全链路的结构化模式，才能被模型直接使用

这也是为什么现在很多顶级编程产品，它们的壁垒已经不只是底层模型，而是数据闭环，比如 Cursor 在 Composer 2 ，虽然基于 Kimi 基座，但是因为有了更多丰富完整数据，所以他可以对 Agent 进行更多针对优化，能做到从"会写代码"升级到"更懂真实的软件工程工作流"：

一个模型能不能在具体场景里变强，很大程度上取决于有没有足够好的领域链路数据去做后训练。

所以，AI 时代真正有价值的不是孤立的代码，而是带上下文、带过程、带反馈、带结果的完整数据链路，而 Github 其实也一直有在做自己模型的。

GitHub 目前也有 Raptor Mini 模型，目前的说法是基于 GPT-5 mini 深度微调的轻量级模型，所以想要调好这个模型，让 Raptor Mini 比 GPT-5 mini 更好用，也需要这样的链路数据。

最后有一点， 数据不是一直等价值钱，而是非常依赖时间窗口。

数据不是一直值钱的，而是在特定时候才是最值钱的，比如 Claude opus 4.6 刚发布那会，如果能及时收集到大量相关数据，那就是最值钱的数据，尤其是在大模型快速迭代的时代，数据的价值是有明显"时间溢价"。

例如，新一代强模型刚发布的时候，比如某个新的推理模型、编程模型或者 agent 模型上线的那段时间，如果你能第一时间收集到大量真实用户交互数据，那这些数据的价值会远远高于平时。

原因很简单，因为模型刚发布时，一般会有几个特征：

能力刚提升，但还没有被充分对齐
行为还不稳定
在真实场景中会暴露大量边界情况
用户会尝试各种新玩法
提示词、工具用法、工作流都在快速演化

这个时候一般是模式表现最好的时候，因为模型厂需要真实数据，而后续因为成本和数据满足了之后，就会开始慢慢拉闸，离谱的时候可能还不到巅峰期的 60% 。

另外，模型刚出的时候，产生的数据信息密度是最高的，而等到模型成熟之后，再收集同样类型的数据，价值就会低很多，而当模型稳定后，这分数据对模型来说，价值就会低很多。

因为模型成熟之后，用户行为会趋于稳定，大家会逐渐形成固定用法，这时候产生的数据虽然更多，但信息增量更小，所以数据并不是一直值钱。

所以虽然一直说中转平台会卖用户数据，但是用户数据的时效性和洗数据等成本，一般来说普通中转平台的量级和有效期都不够，最多就是可能存在一些信息泄露，除非中转平台用户量很大，并且具备及时更新和完善的洗数据流程，至少也是 OpenRouter 的级别，这时候的用户数据才有价值体现。

当然，实际上这也是风险点，你不能保证你发给 AI 的东西就是隐私的，比如最近就出现了类似问题，莫名其妙一个用户的简历信息出现在了另一个用户的会话，被 AI 幻觉吐了出了，也不知道是 Agent 的 session 错乱还是模型意识问题，反正数据只要上去了，就存在隐私风险，你不能 100% 要求平台没 bug。

实际上这也是早期各个 AI 产品和订阅便宜的原因，因为低价吸引你进来，你的使用过程就可以产生足够的过程数据，洗一洗就是壁垒价值，所以就算你在白嫖，也不是完全对模型厂没贡献。

所以，早期的时候 AI 订阅的价格是为了获取你更多的行为数据，所以价格都是补贴价 ，现在回过头来看 Qwen Code Plan pro 200/月有 9 万次调用，那可真是良心大大的，可惜现在没了······而现在数据迫切度没那么大了，同时算力不足，所以都开始涨价或者变相涨价，比如：

Github 下了 Copilot pro 的 opus ，而 pro+ 的 opus 用量消耗也翻了好几倍
Claude 20美金的订阅没涨价，但是它已经在考虑 20 美金的订阅不给 Claude Code 使用

所以，之前便宜原因是因为数据可以用来补贴模型增长需求，而现在模型起来了，同时算力也局促了，所以也就纷纷开始涨价，或者说，回归商业本来应有的价格：

《Copilot 下架 opus ，Qwen 开始按量计费，GLM 限制非代码使用，Token都在涨价，人还比 Token 便宜吗？》

说了那么多，还是提醒一句，记得去 Github 关了你的数据收集允许，如果你没操作过，24 号它就是默认打开的了。