一、暗物质与暗数据
宇宙中的物质,在科学领域大致可以分为两类:
-
我们能"看见"、能观测、能测量的普通物质;
-
以及,我们看不见却深刻影响宇宙结构与演化的暗物质。
这个比喻放到数据世界里同样成立。今天我们讨论的大多数数据------日志、图片、文本、传感器读数、交易记录、病例指标、网页内容------都属于"普通物质":它们已经被采集、被存储、被索引、被分析,能够进入数据库、进入报表、进入训练集,最终进入模型的能力边界。
但描述世界的并不只有这些"可见数据"。还有一类数据客观存在,却没有被系统性采集和存储的数据,像暗物质一样"存在但不可得"。我们不妨称之为:暗数据(Dark Data)。
二、什么是暗数据:存在,但未被捕获
所谓暗数据,并不是"加密数据"或"隐藏文件",更不是"数据丢了"。它指向的是更根本的一种缺失:那些本来应该存在于数据世界,却由于技术、成本、流程、隐私、安全、伦理等现实限制而没有被采集与存储的数据。
我们将暗数据定义为:
- 暗数据是指,未被采集和存储,但在客观世界中不断产生的数据。
暗数据常常具有三个特征:
-
客观发生:它是现实世界里真实发生过的过程、判断或变化。
-
没有存储:它没有进入任何可查询的系统,无法被回放、统计、监督或训练。
-
价值巨大:它往往蕴含高密度的因果线索、经验知识与决策逻辑,是"能力"本身的影子。
暗数据的一个典型实例,就是人类在面对问题进行决策时的思考过程数据:权衡了哪些信号?如何排除干扰?什么经验触发了警惕?为什么选择等待而不是行动?这些过程构成了"专家能力"的核心,却很少以结构化、可用的数据形式被保存。
三、大模型和智能体的现有能力从哪而来:可见数据的累积
当前大模型与智能体能力的主要来源,是互联网上多年累积的可见数据:文本、代码、图片、视频与各种公开记录。
这些数据的主体,是对世界客观事实的表达:百科、论文、新闻、教程、对话、经验总结、技术文档。其间也混杂着一部分人类"思考"的痕迹,比如论坛讨论、问答推理、工作复盘、代码评审、学术推导。
但必须承认:互联网数据更像是人类世界的"成品展览"。它呈现的是结果、叙述、结论、规则与可复用的范式,而不是物理世界中每时每刻发生的事件,以及人类现场处理这些事件的连续决策过程。换句话说,模型学习到的多是"你如何描述世界",而不是"你如何在世界里行动并做出判断"。
这正是智能体进一步探索真实世界时,会撞上的一道无形之墙:现实世界不是一道题库,而是一条永不停歇、不断变化的问题之河。
四、暗数据的实例:ICU里的"再观察下"------最宝贵的数据往往没有产生
医院 ICU 病房是一个极具代表性的富含暗数据的场景。病人的生命体征被各种仪器实时监测:心率、血压、血氧、呼吸频率、体温、血气分析......这些是可见数据,系统记录得非常完整。医生也会据此做出判断和决策:何时使用升压药,何时调整呼吸机参数,何时需要除颤,何时需要叫相关科室会诊。
有趣、也最关键的部分在于:数据系统常常只能捕捉"行动"和"效果",却捕捉不到"思考"和"等待"。
比如,医生决定使用除颤仪,随后病人的心跳恢复------系统能记录行动发生、记录结果变化,于是数据链条是完整的。
但在,更多时候,医生做出的决策是:"再观察下。"这是医学现场最常见、也是最难的决策之一。它包含了大量高密度的判断:医生看到了哪些信号在改善?哪些指标虽然异常但趋势可控?是否存在更危险的潜在变化?是否需要等待更多信息以避免过度治疗?"不采取行动"在这里不是空白,而是最昂贵的推理与经验结晶。
然而从数据世界的角度看,"再观察下"可能意味着:没有新医嘱、没有新处置、没有新操作。于是系统里没有任何新的数据产生。医生的分析思考过程这一宝贵的数据资产,就这样从现实中消散了,既无法用于回溯复盘,也无法用于训练、监督或迁移到智能体。
这就是暗数据最锋利的例子:它在现实中发生了,但在数据中从未存在过。
五、Scaling Law 接近失效?也许只是"可见数据"接近上限
近几年业界对大模型下一步发展的焦虑,常常落在同一个判断上:基于既有互联网数据的训练,数据维度的 Scaling Law 似乎正在接近边界------新增数据带来的收益变小,噪声与重复变多,成本更高但提升更不显著。
但这个结论隐含了一个前提:我们谈论的"数据",仍然是现有可见数据的增量优化。换句话说,我们在一片被反复耕作的土地上继续加肥,却忽略了旁边那片从未开垦的大陆。
如果把视野扩展到暗数据,会看到另一种可能:不是"数据不够了",而是"我们能用的数据不够了"。可见数据的上限逼近,暗数据的海洋却几乎未被触及。
从训练数据的维度看,下一步真正值得重点思考和解决的,也许不是如何从互联网再挖出一点边角料,而是:
-
如何让智能体进入真实世界的过程流中?
-
如何采集"决策当下"的思考链条、证据权重与犹豫边界?
-
如何把"没有行动"的判断也变成可学习的信号?
这背后都指向同一个核心问题:暗数据的采集、存储与分析。
六、暗数据为何难:不是技术问题,而是系统问题
暗数据之所以"暗",往往不只是因为传感器不够、存储太贵。更深层的困难在于它牵扯了多个维度的系统约束:
-
采集难:思考过程是连续的、隐性的、跨模态的(眼神、停顿、对话、手势、反复查看某个指标),很难用单一结构捕捉。
-
表达难:即使捕捉到,也需要把它编码成可复用的表示------这比记录一个数值难得多。
-
成本与流程:让专家在高压现场额外"记录思考",会直接冲击效率与安全。
-
隐私与合规:很多场景(医疗、金融、司法、教育)天然敏感,暗数据往往与个人信息、专业责任强绑定。
-
真实性与偏差:人类事后回忆与即时思考并不一致,"复盘式解释"可能会美化、合理化或遗漏关键瞬间。
因此,暗数据的难题更像是一个"基础设施与制度协同"的难题:它既需要新技术,也需要新流程、新工具、新激励与新边界。
七、智能体的下一步:从"读懂世界"到"参与世界"
如果说过去的大模型更擅长在文本世界里"读懂"和"生成",那么下一代智能体要真正进入真实世界,必须学会"参与"和"承担"。而参与世界意味着:它要面对不完美信息、连续变化、时序因果、资源约束、风险权衡、以及大量"什么都不做"的关键决策。
这些能力的训练样本,恰恰大量存在于暗数据之中。
暗数据不是一个小修小补的方向,而可能是智能体发展路径上的一次范式迁移:从"把公开文本喂给模型",到"让世界本身成为训练场";从"学习结果",到"学习过程";从"收集发生了什么",到"收集为什么那样做、为什么没有那样做"。
八、结语:点亮暗数据,才能让智能体真正学会决策
当我们说"暗物质决定了宇宙的大尺度结构",其实是在说:看得见的东西并不能解释一切。
数据世界同样如此。可见数据让模型学会了语言、知识与模式,但真正决定智能体能否跨入下一阶段的,也许是那些尚未被捕获的过程性信息------暗数据。
所以,与其说 Scaling Law 走到了尽头,不如说:我们只是在现有数据的光照范围内走到了尽头。而智能体探索世界的下一个难题,就是把这片暗处照亮:让暗数据变得可采集、可存储、可分析、可学习。
当暗数据被点亮,智能体才可能真正接近"专家的决策能力",并在现实世界中稳健地行动------包括在最重要的时刻,学会做出那个看似没有数据产出的决定:"再观察下"!