一款AB实验分析智能体是如何诞生的

1. 背景

在以往的算法实验中，算法团队通常重点关注 UCTR、UCVR 等核心考核指标，并依据这些指标的显著性来指导实验的扩量或全量上线决策。然而，在这一过程中，仅关注正向指标的提升是不够的，还需通过深入的数据分析，识别潜在的风险因素------即在实现预期指标提升的同时，是否对其他关键指标带来了隐性的负面影响，并评估此类代价是否在可接受范围内，从而做出更为全面和审慎的决策。

此外，由于实验内容存在差异，不同实验往往在各指标上呈现出多样化甚至矛盾的结果，这些表象背后通常蕴含着一定的因果关系。因此，深入理解指标间的链式关系，厘清正向提升与潜在负向影响之间的权衡关系，对于优化实验评估体系、提升策略迭代质量具有重要意义。

最后，结合现状，搜推实验分析和决策虽然已沉淀了经验和标准，但工具不全且散落在各个平台，缺少分析流程引导，不利于科学分析方法论的有效渗透。在这个背景下，萌生了研发一款实验分析Agent的想法。

2. 产品展示

报告范例

*** 出于数据安全和业务安全考虑，报告进行模糊化处理**

3. 产品设计

3.1 架构设计

结合自己尚浅的数据分析经验，面对一个具体的分析任务时，先从宏观、整体的维度入手分析，在发现异常因素后，再基于初步结论逐步下钻，深入更细粒度的维度进行挖掘与验证。这种自上而下、层层递进的分析方式，是人类分析师的基本思路。

与此同时，今年初备受瞩目的 AI 产品黑马 Manus 横空出世，其产品形态给予我重要启发。Manus 作为通用型 AI Agent，能够基于用户输入的 query 进行任务拆解，生成结构化的任务列表，并围绕主题自动进行在线信息检索与资料整合，最终形成系统化的总结与呈现。这种"任务拆解---信息准备---总结输出"的全流程闭环能力，为我设计分析框架提供了直接参考。综合以上两方面，我初步形成了"汇总数据---分项分析---总结呈现"的整体框架思路。

此外，考虑到在产品价值尚未充分验证前，以最小成本和最快研发周期打造 MVP 产品是最优策略。因此，在最为关键的数据工程方面，我选择直接耦合部门已有的报告工具，复用其现成的指标体系；而对于 FDR 分析等新增分析能力项，则采用独立开发的方式，既保持各工具间的独立性，又通过统一拼接为后续分析链路提供支持。当然，由于我并非专业架构出身，设计方案难免存在不够科学之处，仍需持续优化与完善。

下图为Agent整体架构，采用模块化分层解耦设计，旨在实现"汇总数据---分项分析---总结呈现"的全流程智能化分析闭环。应用层作为核心业务中枢，集成了分析规划、主题分析（基于DAG Workflow Execution Framework实现任务编排）与结论汇总模块，并通过DeepSeek R1/V3模型提供分析支持，确保从宏观洞察到微观挖掘的灵活切换。服务层包含鉴权服务、前端表单服务等通用能力，选用JDSDK + CHO-JSF等公司内部成熟的技术方案，保障系统的高可用性与扩展性。数据层则依托Doris-X、Clickhouse、Spark等分布式引擎，构建OLAP网关（实时数据）与BDP网关（离线数据）双通道，既复用部门现有报告工具的指标体系，又通过独立开发的FDR分析模块实现特殊需求，在保持各工具独立性的同时完成数据统一拼接。

3.2 产品设计

在实验分析Agent的产品呈现这里，我希望是真正的"助手化"，因此仔细调研了京me机器人的能力，设想着如果能够让产研同学对于实验分析"触手可得"，无需跳转到一个独立的分析平台，这样显然是能够提升用户体验的。

同时，实验分析Agent，需要用户根据自己的实验内容，给出实验ID、实验周期、实验模块、实验背景以及实验预期等信息。而3.1节提及，部分数据耦合不同已有工具来产出，其表单是差异化的。因此，设计了一个统一表单，并在后端将关键信息透传到不同工具服务，让用户没有体感上的差异。

为了实现实验分析Agent真正意义上的"助手化"体验，在调研了京东ME开放平台的能力后，发现将以往依托平台的产品化能力前置到京ME端是可行的，让产研同学能够"触手可得"实验分析能力，无需跳转至独立的分析平台，从而显著提升操作便捷性与整体用户体验。

同时，实验分析Agent需用户输入实验ID、实验周期、实验模块、实验背景及实验预期等关键信息。然而，如3.1节所述，部分数据依赖于多个已有工具协同产出，且各工具对应的表单结构存在差异。为此，我们设计了一套统一的前端表单，通过后端将用户填写的关键信息透传至不同工具服务，在保证数据完整性和准确性的前提下，实现流程的透明化与标准化，让用户在整个过程中无感知差异，获得一致、流畅的使用体验。

WEB端表单

（客户端有账户水印，出于信息安全这里不展示）

通过京me机器人 + autobots实现京ME入口

3.3 工作流设计

此图，将实验分析Agent的全流程以及核心模块呈现出来。

在初版planner设计中，我们通过提供历史分析过程few shots，让LLM基于输入的数据给出建议的分析方法调用list。然后在用一层大模型，基于分析方法描述，给出分析方法调用list。后端收到这个method list之后，并发调用各个分析方法工作流，最后统一汇总。

很快，我们就发现了这一设计的不合理性，包括LLM方法解析不准确、方法调用不灵活、且无法支持前置结论在方法间的透传等问题，随后变升级为基于DAG的工作流执行编排框架，对于独立的分析并行执行、对于递进（透传前置结论）的分析串行执行。使得分析质量有了明显的飞跃。

我清醒地认识到，当前依赖few-shot提示引导大模型生成分析规划的技术路径尚显粗糙，缺乏足够的优雅性。然而，高质量的示例样本积累本身就是一个需要与用户持续交互、逐步沉淀的过程------随着实际分析案例的不断丰富，我们的样本库也将日益完善。当样本积累达到一定规模后，通过微调结合强化学习的方式，训练出具备思维链输出能力的专用大模型，将成为更为合理且可持续的终极解决方案。

4. 工程技术

前端统一表单

•Vue 3 框架： 使用 Vue框架开发

•组件化设计： 采用清晰的组件化结构，将UI元素拆分为可复用的组件

•自动补全： 从试金石接口，天更实验名称列表，并用于实现表单填写的自动补全

•历史记忆： 通过JIMDB，以"erp+工具名称"为主键，保存用户历史表单信息，使其具有记忆能力

•鉴权： 通过JSSDK，实现了京me客户端的鉴权和erp获取

多重鉴权能力

前端：

JSSDK实现与京me通信，完成前端H5页面的鉴权实现

后端：

由于工具有基于业务情况的用户辐射范围，所以仅依赖机器人权限是不够的，因此设计了工具权限与平台权限耦合的机制，具体：

基于京me的消息交互能力

•消息更新能力打通： 基于京me消息服务和JIMDB，实现了对于同一个消息卡片的内容动态更新（以Job_id维度更新卡片内容，大幅减少消息数量）。

•消息更新服务动态路由框架： 实现了京me机器人默认回调服务与自定义卡片更新服务的兼容（机器人对话报告分析交互消息不冲突）

5. 大模型

5.1 模型选型

出于数据安全与信息安全的考虑，我们的选型范围局限于京东自有大模型言犀模型，与京东本地化部署的DeepSeek V3/R1模型之间。

最初，我们把一个复杂的任务交给具有推理能力的R1，发现虽然偶有惊艳表现，但是极其不稳定 ，且通过研究其思维链思考输出发现，面对复杂任务，其在推理过程中，会逐步放大误差 ，导致分析结论幻觉严重，结论完全不可看。因此我们最终确认了R1和V3结合多模型方案，根据任务定位合理配置模型。

不同模型幻觉率对比[引用1]

目前，Gemini 2.5 Pro 被公认为是推理模型领域中综合能力最强、幻觉控制最为出色的模型之一（在几个月前撰写文章的时候，不代表现在的排名）。然而，由于安全方面的考量限制了其直接应用，计划探索基于开源模型并结合模型蒸馏技术，来自主训练和优化我们自己的推理模型。

5.2 生成质量

1. 提示词

除了选型，提示词工程是影响大模型生成质量最为核心的环节。

动态few_shot的方式，基于实验属性和条件，配置差异化Prompt模板。

相对于输入结构化数据 + 指标含义解释让模型自己做计算或统计，不如直接通过代码加工成指标描述文本，在传入大模型，能够从本质上规避对于数字的幻觉。

2. 机制设计

设计了基于超时和输出质量检查的重试机制，以解决输入token较长时，偶发的无结果问题。经过测试，无结果率大幅降低

6. 未来提升

1.基于知识蒸馏的AB实验专家模型：通过构建领域特定的实验语料知识库，采用模型蒸馏方法，可有效替代当前基于R1+few-shots的解决方案。该体系能够：

1.持续吸收历史实验数据中的分析模式；

2.输出具有完整因果关系的思维链（CoT）实验规划方案

3.在基于各个子主题分析结论总结的时候，能够以经验性的实验预期为指导，给出更有逻辑性的结论汇总

2.更加灵活的数据工程框架：目前一次性准备好分析所需的所有数据的方式还是比较僵硬的，最合理的方式一定是按照前置分析结论，和进一步的分析需求，按需拉取数据。举个例子，当某个实验被发现指标均不显著的时候，可以进行一个最小样本量和MDE分析，来给用户一个建议实验观察周期和基于观察样本规模的预期提升估计，这里完全可以将最小样本量、MDE分析开发为MCP服务，耦合到工作流里。

3.产品交互提升：目前的分析结论以一次性报告的形式输出，仅呈现最终结果，缺乏对分析过程中关键思考路径、判断逻辑和中间推导环节的展示，导致用户难以理解结论背后的成因与依据。这种"黑箱式"的输出方式限制了用户与分析过程之间的互动，也削弱了其对结果的信任与洞察深度。因此，在增强分析透明度、提升用户参与感方面，存在显著的优化空间。未来可通过逐步披露分析逻辑、可视化推理链条、支持交互式追问等方式，将静态报告升级为动态、可探索的分析对话，真正实现"可解释、可交互、可追溯"的智能分析体验。

7. 参考文献

1.www.vectara.com/blog/deepse...