AI Agent的价值,应该怎么被衡量?
2026年,AI行业的标志性拐点是Agent(智能体)快速普及。Agent作为核心生产力载体,将AI从Chatbot聊天模式带进主动执行的办事时代。
这个时候,如果我们还用旧尺子去丈量新价值,无异于刻舟求剑。换句话说,行业需要一套贴合生产力本质、适配智能体时代的"价值度量衡",并确立新的AI价值坐标体系。
但现实情况是,DAU还在沿用,Token也正在被热议。新旧转换,它们会是Agent价值体系的最终答案吗?

DAU逻辑落幕,Token指标"失真"
我的答案:都不是。
DAU(Daily Active User,即日活跃用户数)遵循的是互联网时代的流量逻辑和网络效应。用户规模越大,增长和商业化效率越高。
这套指标体系曾一度支撑了互联网数十年的发展,但可能与AI底层逻辑相悖:一方面,AI普惠降低了技术门槛,也消解了流量的稀缺性。产品的竞争焦点也从用户规模,转向执行能力和用户体验;
另外一方面;AI产品的算力成本,打破了互联网边际成本递减的规律,用户规模越大,成本越高。
一个典型事例是,AI明星Anthropic旗下Claude全系产品DAU的总和,仅为对手OpenAI当家应用ChatGPT的2%。但它在今年4月对外公布,公司2026年年化收入(ARR)超过300亿美元。这个规模已经超过OpenAI,后者被披露的年化收入约为250亿美元。
可能很多人没发现Anthropic和OpenAI市场地位的切换,背后其实就藏着这种底层逻辑的的分野:OpenAI沿用互联网旧逻辑,先用免费产品圈用户做大DAA,再后期变现;Anthropic直接锚定价值变现,它先去找愿意付费的企业客户,靠高价值任务交付实现盈利。
这清晰的释放了一个信号:Agent时代,消费互联网的经典路径行不通,"创造高价值任务交付"比"用户规模"更关键。也可以说,任务交付价值优先于用户流量规模。
正如行业分析人士Cage指出:用DAU给AI公司估值,如同1999年用页面停留时间评判谷歌。当年雅虎用户单页停留15分钟,谷歌仅30秒,短时停留恰恰证明谷歌检索效率更高。但这个思路在Agent时代正在被颠覆,因为衡量对象变了。
最新消息传出,OpenAI内部正在弱化DAU指标。如果传闻属实,这也可以视为流量逻辑即将在AI赛道落幕。
DAU不适用后,Token成为当前行业主流统计单位。黄仁勋对Token的提法很有代表性,他在2026年英伟达GTC大会上阐述了一套新的商业逻辑:数据中心正在从训练模型的地方,变成生产Token的工厂。Token将是未来数字世界最核心、最值钱的大宗商品。
黄仁勋的"Token经济学",就差更直白的说,AI的未来就是Token了。
这可能被很多人定义为暴论,但他精准的点明了Token的本质定位,即,Token作为AI推理和决策成本的基本单位,是AI时代的"燃料"。其价值由生产速度、功耗效率和应用场景决定。
这意味着,Token可能只是一个基础性的成本指标,只记录投入,不核算产出。它可以测算AI的"耗电量"、算力资源的消耗,但不能体现效率和收益,无法评判产出价值,更不能确权真实的商业价值,有些"失真"。
黄仁勋关注的是AI的生产成本,有高Token消耗他才能卖出更多的芯片。但高Token消耗不代表高价值成果,就像程序员代码写得多,不代表软件质量更高。因为还有大量无效调用、冗余运算普遍存在。
这是典型的粗放式增长指标,可能更适用于"大力出奇迹"早期大模型发展阶段。但长期来看,无论是企业还是个人,都会回归ROI(投入产出比):烧了这么多Token,到底有多少转化,有多少成了真实的生产力和业务价值?
简单来说,DAU量的是"人头",是旧尺子;Token是"燃料",是成本指标。二者都无法在AI自主办事、主动执行的新周期,精准的量出新生产力和它的价值。
DAA,百度提出的更优AI价值"度量衡"
这个新周期的主角是智能体。按照百度创始人李彦宏Create2026上的话说就是,AI主,第次不是模型是应。智能体出圈,代表AI的发展从模型阶段向了应阶段,AI的竞争也从智转向了执。
如果AI价值评价体系不做"迭代",还停留在Chatbot阶段,必然就像用马力衡量电动汽车,完全找偏了参照系。

图|李彦宏提出AI时代的度量衡:DAA
对此,李彦宏在会上明确提出一把新的标尺------DAA,Daily Active Agents,即日活智能体数。
他认为,Token不一定代表终局,它只代表成本并不代表收益,衡量的是投入而非产出。
AI进入Agent时代,衡量个平台和态的繁荣,更应该看的是DAA这个指标,关注有多少Agent在给类活,并交付结果。这谓的Token消耗,更接近价值,也更接近本质。
在我看来,DAA是DAU、Token之后,百度为行业提供适配Agent时代的更优"度量衡"。相较DAU、Token,DAA跳出了流量、成本的单一维度,重新定义了Agent时代的价值度量逻辑。
这实际上补齐了Token在价值维度的拼图。如果说,Token决定成本下限,DAA将决定价值上限。二者将在未来一段时间,共同构成AI时代度量衡的基础坐标系。
目前,从行业、企业、个体三维视角来看,DAA具备不可替代的行业、产业价值,甚至在重构AI时代生产关系:
对行业,它能够有效衡量Agent是否真正落地为价值创造;对企业,它将增长逻辑从用户规模驱动拉回结果驱动,并推动其组织形态变革,成为"AI+智能体"混编战队构成的超级组织;对个体,它成为判断AI是否真正提升效率的关键标尺,并助力个体蜕变为超级个体。
从更宏观视角看,AI要实现普惠,变成社会红利,必须从一开始就锚定真实有效的生产力指标。Token计量不是终局,当AI落地规模扩大,行业关注点必然转向值不值得用。
DAA的核心关注点不再是"有多少人用",而是直接锚定"任务完成"价值闭环,将衡量标准从"使用"转向"交付",从"过程消耗"转向"结果产出",让AI价值可预期、可衡量、可规模化、可持续。

图|一图看懂什么是DAA?
百度作为AI时代"度量衡"的提出者,也是业务上的实践者。其在本次Create大会上,围绕智能体应用爆发,百度芯云模体新全栈升级。
其中集中发布和升级了通用智能体DuMate、代码智能体秒哒、数字人智能体百度一镜、自我演化决策智能体伐谋等系列智能体产品,百度智能云也升级为面向大规模智能体应用的新全栈AI云。
这些产品和基础设施的更新,为个人用户、企业、组织提供了更智能的生产力,也帮助他们在使用AI时获得更高效的DAA效果。
比如DuMate此次上线移动APP端,7X24小时的AI搭子,可以帮用户胜任各种复杂工作。此外DuMate将百度AI搜索、秒哒、伐谋、百科等核产品能集成为可随时调的内置技能,成为户进Agent世界的统。用户只需要句话,就能实现从"想法"到"结果"动执,多任务并处理。
李彦宏预判,未来全球活智能体数,可能超过100亿。DAA对企业来说,意味着数字员工的无限供给。
他特别建议企业CEO,去思考"智能体优先策略",通过人与智能体的共同进化去进化成长为AI时代的新型组织。
而DAA,就是管控、衡量、优化这一批数字员工的核心标尺。
为什么又是百度?我在Create2026上找到了答案
DAA的提出,在大家都卷流量、Token的大环境下,就像给行业抛出的又一个"非共识",略显孤独。但冷静来看,这或可在未来一段时间,成为行业共识。
这也可以成为另外一个设问:为什么百度总能提前看见下一阶段?答案其实已经很明显了。
Create2026大会贯穿全程的关键词除了DAA,还有一个关键词是"自我进化"。这是李彦宏面向AI生产力时代提出的"进化论"。

图|李彦宏提出AI时代的进化论------自我进化
从内涵上看,"自我进化"贯穿智能体、组织与个体三个层面:是智能体的我进化,从被动响应到主动执;是个体的我进化,从普通个体到超级个体;三是企业组织的我进化,从与的分协作,到与智能体的混合编队,成为超级组织。
这与他在半年前百度世界2025上提出的内化AI能力,一脉相承。当时,他说,"当AI被内化为原生能力,智能就不再是成本而是生产力"。
从"能力内化"走向"能力持续生长",从内涵定义,到工具开发,再到应用落地,再到提出价值评估标准DAA,李彦宏对智能体的思考,已经自成体系。
无论是自我进化还是DAA,本质上是从应用驱动的第一性原理出发,重新定义AI Agent的价值。
为了支撑DAA的落地,百度从"老全栈"到"新全栈"的技术路线也被催生出来。它正通过"芯、云、模、体"的协同进化,进一步为DAA这一价值指标提供落地基础。
AI Agent的价值衡量,本质上是从"注意力经济"(DAU/Token)向"生产力经济"(DAA)的范式转移。
当一家公司,同时具备"好用的智能体"(体)和"能扛得住的基础设施"(芯、云、模)新全栈地基时,它才有资格去前瞻这个时代的价值标准。
比如在"体(智能体)进化"上,代码智能体"秒哒"3.0亮相,推出App端,发布APP生成能力等系列上新,将Agent自主开发应用的能力开放给用户,降低开发门槛,推动实现"人手拥有一个APP"。
根据我的了解,秒哒App本身90%的代码由秒哒智能体动成。截前,秒哒成的应已累计服务户超1000万,应价值达50亿元。
我特别注意到其中的一个案例,8岁用户扑满依托秒哒实现创意落地。这位年轻的"AI时代原住",是AIGCxChina最成员、央视AI春晚最年轻主创,在秒哒的支持下,仅凭自然语言指令,便做出了一个校园互助小程序"哒哒打伞"。
当一个二年级孩子,都能把生活里的小想法开发出应用,在此刻,"超级个体"真真切切的被具象化了。由此看,真正被改变的,也许不只是开发效率,而是一个前沿技术被采用的门槛。

图|秒哒8岁用户扑满台上分享·唐辰拍摄
这个案例的核心意义,不在于技术炫酷,而在于印证了百度的产业理念:AI不是造概念,而是人人可用的实用工具。
想必这也是百度提出自我进化和DAA的核心初衷:衡量对人真实使用的效果,衡量真实落地价值,服务大众、赋能产业。
还有一层很容易被外界忽略的因素,就是创始人的洞察力。李彦宏曾多次提出"非共识",后来都被行业验证为"共识"。
比如,早在ChatGPT引爆全球AI热潮、行业普遍聚焦"大模型竞赛"时,他就提出"模型的价值在于应用";随后行业进入下半场,"卷应用"成为主线。
《算力Token运营:算力构建和Token生成、营销和Token智能体应用实操》
大模型算法实战专家---周红伟 法国科学院算法博士/前阿里人工智能专家/马上消金风控负责人
课程背景
2026年,企业将"Token服务"定为经营主线,宣布从"流量经营"转向"Token经营"。同年,同时将Token与智能体封装,以"主从智能体协同"方式交付可独立完成任务的成品。但多数企业的实际情况远未跟上这一节奏。算力资源买了、模型接入了,Token账单月月上涨,却没人能回答三个基本问题:消耗的Token去了哪些业务、消耗是否合理、能否对外卖出价钱。。
与此同时,Token的商业形态出现两条路径。一条是卖原料------按量计费的通用Token,竞争激烈,利润趋薄。另一条是卖成品------将Token与场景知识、任务流程封装为智能体,按结果或效果收费,溢价空间显著。两条路的算力需求、定价逻辑、客户关系和运营重点截然不同,选择哪条路,直接决定AI投入能否回本。
本课程解决两个核心问题:第一,算力如何建成可计量、可降本的Token供给线;第二,Token如何封装成客户愿意买单的智能体产品。两天时间,从算力底座到营销定价,再到封装交付,一条完整链路走完。
课程收益
- 掌握算力基础设施的成本拆解方法,能区分中心云、边缘节点、端侧设备在成本结构中的占比与优化方向。
- 能够设计Token的分层定价体系,按通用、专业、定制三级制定差异化价格,覆盖公众、中小企业和政企客户。
- 掌握业务场景的任务拆解方法,能画出一条端到端工作流并标注每个节点所需的模型规格。
- 学会设计主从智能体协同架构,能区分主智能体的调度职能和从智能体的专职任务,避免功能混杂。
- 带走一套可立即使用的工具模板,含算力成本测算表、Token运营周报格式、智能体封装设计画布。
培训时长
2 天
课程大纲
第一天:算力底座的构建与Token的高效生产
主题:从物理算力到可计费Token的完整供给链搭建
第一部分 算力基础设施的选型与成本模型
1.1 算力供给的三层结构
1.1.1 中心云:承载高并发的在线推理与模型更新
1.1.2 边缘节点:处理时延敏感型业务的就近部署策略
1.1.3 端侧设备:AI摄像头、AI智屏等终端的轻量算力利用
1.2 算力成本的可视化拆解
1.2.1 硬件折旧:GPU集群的租赁与自建在三年周期内的分摊模型
1.2.2 能耗支出:算力满载与闲置状态下的电力成本差异
1.2.3 运维人力:集群规模与所需驻场工程师的配比参考
1.3 算力利用率的评估与提升
1.3.1 峰谷调度:将离线训练与夜间闲时算力匹配的错峰方案
1.3.2 碎片整理:小任务合并为大批次请求的攒批策略
1.3.3 淘汰机制:长期低利用率的模型版本下线规则
第二部分 算力到Token的转化:推理引擎与供给平台
2.1 推理服务的部署架构
2.1.1 模型加载:内存常驻与按需加载两种模式的选择依据
2.1.2 并发设计:单卡支持多路请求时的显存分配与排队策略
2.1.3 弹性伸缩:基于请求队列长度自动扩容的阈值设定
2.2 Token生成的计量与质量控制
2.2.1 输入Token与输出Token的分开统计:两者成本差异悬殊
2.2.2 生成长度控制:设置最大输出Token数防止失控消耗
2.2.3 输出质量校验:对生成结果的可读性与事实性做自动化抽检
2.3 多模型供给的统一平台搭建
2.3.1 模型注册:所有可用模型的规格、成本、适用场景进入统一目录
2.3.2 智能路由规则:请求进来后根据复杂度与预算自动分配模型
2.3.3 权限与配额管理:按部门、按应用设置Token消耗上限
第三部分 Token生产的经济账:降本增效的实战手段
3.1 缓存与复用策略
3.1.1 语义缓存:相似问题直接返回缓存结果,命中率的提升方法
3.1.2 上下文复用:多轮对话中固定前缀的Token消耗豁免技巧
3.1.3 模板化输出:高频格式类生成的预置模板,绕开重复推理
3.2 Prompt工程对成本的影响
3.2.1 指令精简:在不损失效果的前提下压缩提示词的多次迭代测试
3.2.2 示例数量的权衡:少样本与多样本在成本与准确率之间的拐点
3.2.3 思维链的按需启用:简单任务关闭长推理链的门槛设置
3.3 模型选型的降本阶梯
3.3.1 分类与抽取用小模型:准确率达标时优先调用轻量版本
3.3.2 生成与理解用大模型:仅在需要语义能力时启用高成本模型
3.3.3 微调后的专用模型:一次投入换取长期单次调用成本下降的核算方法
第四部分 Token营销的定价体系设计
4.1 分层定价的三级结构
4.1.1 通用Token:适合Q&A、摘要等大众化场景的低价走量策略
4.1.2 专业Token:绑定行业知识库或微调模型的中等溢价定价
4.1.3 定制Token:含私有化部署与驻场服务的年度合约报价模式
4.2 分客群的套餐设计
4.2.1 公众用户:小面额体验包与跟宽带、云盘捆绑的权益包
4.2.2 中小微企业:按月订阅的Coding Plan,设定阶梯用量与超量单价
4.2.3 政企大客户:私有化部署后的Token批发折扣与年度增量返点
4.3 营销效果的追踪指标
4.3.1 Token消耗的客户活跃率:按周统计有消耗行为的客户占比
4.3.2 客户平均消耗量的增长曲线:判断客户是否真正嵌入业务流
4.3.3 套餐档位迁移率:客户从低档向高档升级的比例与触发原因
第五部分 Token运营的日常管控体系
5.1 用量监控与异常检测
5.1.1 部门维度的日消耗排名:识别消耗突增的组织与原因
5.1.2 单应用维度的单位成本曲线:监测模型调用效率的变化趋势
5.1.3 异常调用的自动拦截:高频、超大、非时段的请求触发强制审核
5.2 内部结算机制的落地
5.2.1 部门Token成本分摊表的编制:将账单从IT部门下沉到使用方
5.2.2 预算额度与审批流程:超预算申请的人工审核与自动拒绝规则
5.2.3 成本节约的激励机制:对Token降本有贡献的部门给予分成奖励
5.3 Token运营报表的标准化
5.3.1 周报的三项必含数据:消耗总量、异常事件数、单位成本变化幅度
5.3.2 月报的经营分析:各部门消耗占比、套餐覆盖率、降本措施效果汇总
5.3.3 数据源的自动化采集:对接算力平台与计费系统的接口规范
第六部分 第一天实战:搭建一套可运行的算力Token运营方案
6.1 场景设定与资源盘点
6.1.1 选择模拟标的:一家中型连锁零售企业的AI巡检与客服需求
6.1.2 算力资源给定:中心云100卡、边缘节点20个、端侧设备500台
6.1.3 业务需求清单:门店巡检日报生成、在线客服应答、商品描述批量撰写
6.2 分组制定供给与定价方案
6.2.1 算力调度方案:三个业务分别部署在中心云还是边缘节点的决策依据
6.2.2 模型选型与Token预估:每个业务匹配哪种规格模型,预估月Token消耗量
6.2.3 对外营销定价:针对不同客户群设计Token套餐结构与价格
6.3 产出运营管控计划
6.3.1 编写监控指标清单:设定各业务的Token消耗红黄绿基线
6.3.2 制定异常处理预案:当某业务Token消耗突增50%时的应对步骤
6.3.3 形成一份Token运营周报模板:供各组带回实际使用
第二天:Token的智能体封装与商业化应用
主题:从卖Token原料到交付智能体成品的全流程实操
第一部分 智能体封装的经济逻辑与场景选择
1.1 Token原料与智能体成品的价值差
1.1.1 客户为"能完成任务的数字员工"付费的意愿远超"算力消耗额度"
1.1.2 封装一次投入、持续收入:智能体开发成本固定,边际服务成本递减
1.1.3 封装提升客户黏性:客户换智能体比换模型服务商的迁移成本高得多
1.2 适于封装的任务特征
1.2.1 流程固定且重复频次高:巡检、核保、报告生成等每周执行数十次以上
1.2.2 需多步判断与多数据源协同:单次任务即消耗大量Token的复合型工作
1.2.3 结果可被客观评价:审批通过与拒绝、报告通过与否、巡检异常是否属实
1.3 封装前的可行性评估
1.3.1 当前AI调用量是否足以支撑封装投入的开发成本摊薄
1.3.2 任务流程能否被分解为独立、可替换的子节点
1.3.3 客户是否认可"按任务结果付费"而非"按Token消耗付费"
第二部分 任务拆解:将业务场景翻译成Token工作流
2.1 端到端任务的节点切割
2.1.1 以"保险核保助理"为例:拆为信息提取、规则匹配、风险评估、结论生成四节点
2.1.2 每个节点的输入物和输出物必须定义清楚,输出物是下一节点的输入
2.1.3 设置节点间的异常返回:某节点无法完成时退回上游还是转人工
2.2 节点任务类型的划分
2.2.1 理解类节点:意图识别、情感分析,必须交给大模型
2.2.2 查询类节点:从数据库或API取数据,用函数调用而非生成
2.2.3 判定类节点:按既定规则做是否判断,用规则引擎或小模型
2.3 工作流的验证标准
2.3.1 端到端成功率:完整走完所有节点并输出有效结果的比例
2.3.2 单节点耗时:每个节点的响应时间是否满足业务时效要求
2.3.3 Token消耗的可预测性:同类型任务每次消耗的Token数偏差不超过15%
第三部分 模型匹配与主从智能体的协同设计
3.1 每个节点选择最优模型
3.1.1 理解节点配大模型:保证语义准确,但限制输出长度以防浪费
3.1.2 查询节点配专用接口:直接调数据库,完全绕过生成式模型
3.1.3 判定节点配轻量模型或规则库:成本低、速度快、结果稳定
3.2 主智能体的设计与职责
3.2.1 任务分发:根据用户输入判断该启动哪个从智能体
3.2.2 上下文维护:多轮对话或跨节点时关键参数不丢失的机制
3.2.3 异常接管:从智能体返回不确定时,重新派发或升级人工
3.3 从智能体的设计与复用
3.3.1 单一职责:一个从智能体只做一个任务,避免功能混杂
3.3.2 独立版本管理:每个从智能体有自己的版本号,升级不影响其他
3.3.3 跨场景复用:同一个"数据库查询智能体"可被多个业务场景调用
第四部分 封装定价与服务交付的设计
4.1 三种定价模式的适用场景
4.1.1 按任务量计费:适用于每次结果标准化程度高的场景,如单次审核
4.1.2 按效果分成:适用于可直接量化客户收益的场景,如销售线索转化
4.1.3 月订阅加超额累进:基础月费含定量任务,超出后按阶梯价结算
4.2 服务等级与交付物定义
4.2.1 明确交付的是决策建议还是执行结果:建议可免责,执行结果需担责
4.2.2 设定准确率承诺与免赔条款:准确率低于承诺值时按比例退费或免单
4.2.3 人工兜底的触发条件与响应时效:模型无法处理时转人工的时间上限
4.3 定价的试算与调整
4.3.1 先算出该任务的后台Token成本作为定价底线
4.3.2 加上封装溢价:知识、流程设计、运维支持的分摊
4.3.3 与客户现有方案的成本做对比:人工做同样任务的成本是多于还是少于智能体
第五部分 星辰TokenHub封装能力实操
5.1 平台的多模型聚合与路由操作
5.1.1 在平台上注册三个不同规格的模型,分别标注适用场景与成本
5.1.2 配置一条智能路由规则:简单请求转轻量模型,复杂请求转大模型
5.1.3 跑一批混合请求流,观察分流比例与总Token成本的变化
5.2 主从智能体的部署与联调
5.2.1 创建一个主智能体,设定其任务规划指令与从智能体选择逻辑
5.2.2 创建两个从智能体:一个做信息检索,一个做文本生成
5.2.3 发送复合指令测试协同:观察从智能体的唤醒、交接和最终输出
5.3 监控与调优
5.3.1 查看智能体调用的消耗报表:区分各从智能体的Token消耗占比
5.3.2 定位高消耗节点:分析是否有某个从智能体被过度调用
5.3.3 调整路由规则或提示词,再次测试观察成本变化
第六部分 结业路演:交付你的智能体封装商业方案
6.1 分组选题与设计
6.1.1 每组选定一个行业场景:设备预测性维护、零售门店巡检、信贷审批、保险核保等
6.1.2 完成端到端任务拆解图,标注每个节点的模型选择与预估Token消耗
6.1.3 设计主从智能体架构与协同流程,给出封装后的定价方案
6.2 路演与答辩
6.2.1 每组10分钟陈述:重点讲业务痛点、任务拆解、模型匹配逻辑与定价依据
6.2.2 评委提问方向:智能体封装后能否真正替掉人工环节,定价是否有竞争力
6.2.3 每组提交《智能体封装商业设计书》作为结业成果
