百度慧播星数字人技术演进

导读

从2023年成立到如今日均服务2万+直播间，百度慧播星已演进为覆盖脚本生成、实时问答、智能决策、音视频克隆的全链路AI直播平台。本文深入解读其技术架构：如何通过检索增强和强化学习生成高转化脚本；如何利用强化学习智能中控动态优化直播策略；以及如何将语音与形象克隆效率提升至"小时级"；如何构建"先验-后验"数据飞轮，让模型自主进化；。罗永浩数字人直播GMV突破5500万的案例，验证了其"超越真人"的带货能力。未来，慧播星正朝着更智能、更拟真、更高效的方向持续迭代。

01 慧播星介绍

电商数字人直播（慧播星）正式成立于2023年，是一款汇集了百度在视觉，语音和语言方面AI能力的原生AI应用产品，致力于打造代际领先的超越真人的直播体验。25年底日均开播直播间已达2万多个，覆盖电商、教育、健康、金融、泛知识内容等多个行业。经过两年多的产品打磨和技术突破，慧播星数字人直播已具备超越真人的能力。例如，这些能力支撑了罗永浩2025年6月15 日的数字人直播首秀，吸引了超 1300 万人次观看，GMV（商品交易总额）突破 5500 万元，这一成绩超过了其同年 5 月的真人直播首秀（GMV 5000 万）。

1.1 商家业务视角------开播流程

商家在慧播星获得带货权限后，即可自助开启数字人直播，主要包括如下流程。

1. 商品选择，可从百度直营店铺（度小店），三方电商平台（京东淘宝拼多多）和百度本地生活的海量商品中选择带货商品

△ 海量内外部商品一键挂接

形象选择或者定制，从7800+公共库形象中选择主播形象，或通过自助录制5分钟视频定制私有形象

△ 形象选择或定制

直播间装修，从3600+套直播间模板中选择装修风格和元素，或通过AI自动生成直播间背景图和营销挂件

△ 直播间装修，丰富的模板&组件

脚本生成，从多种公共风格中选择脚本带货风格，或自定义目标带货风格，补充少量营销信息，一键生成专业的直播脚本

△ 一键脚本生成

音色选择，从3200+个公共库音色中选择主播音色，或通过手百自助录制，3天内得到私有定制音色

△ 音色选择或制作

6. 直播间互动配置，一键开启一言问答接管，也支持手动配置预置问答对，补充商家知识

△ 直播间互动配置

02 整体技术架构

慧播星整体架构主要由商家端、视觉语音和文本各模态模型、实时渲染引擎、站内外分发系统组成。

为实现更好的直播体验，数字人采用云端生成方案，云端生成系统主要包括如下几个子系统。

1. 商品理解，为脚本，问答，互动等各种内容生成模型提供商品知识增强

2. 脚本生成，围绕商品自动生成风格化口语化的带货脚本

3. 智能问答，用户提问时实时检索商品知识，生成精准的回复，支持弹幕和口播回复

4. 智能互动，以直播效果（评论率、用户退场率、观看时长等）为目标主动向用户发起互动

5. 直播间装修，智能生成直播间背景，合成带营销内容的挂件

03 内容生成

3.1 风格化脚本生成

直播脚本水平与带货效果息息相关，优秀主播的脚本能够打动用户，循循善进引导用户成交。由于普通商家的带货营销水平有限，商家希望仅表达学习某某主播，系统自动为其生成风格相似的脚本。在此需求背景下，慧播星利用多模态商品理解富集构建商品知识库，借助EB4/turbo在电商直播语料上进行大规模预训练，结合人工专家精标数据SFT，通用和电商知识增强等手段实现一键风格化仿写。

商家仅需选定商品和补充少量营销信息，即可按预设风格或者自定风格（提供最少400字的带货文案）一键生成风格相似的带货脚本。客户采纳率92%，开播渗透率67%，相比客户脚本转化率+14%。
考虑到风格化脚本创作需求的独立性，慧播星已将脚本生成独立为工具，商家可脱离直播业务流使用工具。

△ 风格化脚本生成工具UI

技术架构

整体技术主要包括商品理解、检索增强、强化学习风格化生成和后处理阶段。

商品理解。系统通过多模态商品解析技术对商品详情页、海报图、参数图等视觉素材进行 OCR、版面结构识别与多模态模型融合，自动抽取核心卖点、适用人群、功能亮点、使用场景等结构化商品知识。可在单张图里同时捕获"文本内容 + 图示含义 + 排版语义"等特征，并利用 LLM 对解析结果进行归一化和字段对齐，形成高覆盖、高一致性的商品知识库。
检索增强（RAG）链路。用户输入的风格范文（不少于 400 字）会先经过标签分析模块，由大模型识别出其关键风格维度，如：表达节奏（快/慢）、情绪浓度（热情/克制）、营造气氛策略（故事、对比、疑问句）、用户痛点定位、直播常用带货技巧（强调稀缺、促单压力、利益点递进）等。基于这些风格标签，系统自动生成 Query，用于从通用知识库与电商知识库中检索对应表达方式、句式模板与知识上下文（卖点顺序推荐、商品类别常用话术、场景化句法等）。
风格化生成模型。模型基于电商专精的电商直播语料预训练能力，并结合海量运营专家的精细化标注数据（SFT），能够在保持范文风格一致性的同时，将内容自动替换为目标商品的卖点和营销逻辑。为确保生成内容既符合直播场景使用习惯，又具备高情绪感染力，系统引入轻量级 RLHF/强化学习优化，通过人类偏好数据持续调优，使模型能够稳定输出"自然、顺畅、带货效果强"的脚本。为持续提升模型能力，通过数据飞轮对该生成模型进行对齐。
标签化与后处理。脚本被进一步结构化，包括：分镜逻辑、开场引导、利益点铺垫、情绪高点、促单推进、收尾金句等，方便商家在实际直播中灵活调用或进行定制化编辑。

脚本数据飞轮

数字人直播的内容绝大部分来自大模型生成，前期领域专家知识为生成标准，脚本、问答、互动场景的生成质量已达到普通真人主播的水平。然而人工先验知识存在主观偏差，且缺乏全面性和快速适应新变化的能力，完全依赖人工只能达到次优水平。为持续攀升超越域内外头部真人主播，需建立业务和大模型的数据飞轮，通过飞轮效应持续提升模型在数字人直播场景的后验效果。

先验对齐

在真实直播场景中，数字人模型最终追求的是"后验效果最优"------即用户停留、评论增长、转化提升等真实业务指标。然而后验目标往往天然伴随风险：例如激进促单、夸大效果、模糊描述等内容可能在短期内获得更高的用户反馈，却越过事实边界与平台规范，形成安全问题。因此，在模型全面对齐后验之前，必须构建一套稳健、可解释、与平台规范一致的先验对齐体系作为基础。先验奖励模型作为"守门人"，以推理专家模型为判断核心，通过结构化的偏好评分与规则奖励引导模型学习合规、高质、可控的内容风格，实现"先验对齐 → 强化学习 → 专精模型 → 回流验证"的闭环。

自动偏好合成。传统先验奖励完全依赖人工标注，成本高且存在主观性。为解决这一问题，我们集成了多个先进推理类基模型（如 EB4-4T、Deepseek-R1/V3、GPT-o 系列等），通过多模型投票、结果对比分级等方式自动合成偏好。这一自动化偏好生成机制能够模拟"专家标注"，但具备：

一致性更高，减少人工主观波动
覆盖范围更广，数百万级先验数据
适应变化更快，模型可随平台规范或内容趋势变化即时更新

最终形成先验 RM（Reward Model）的核心训练数据。先验 RM 的核心职责是确保模型在任何情况下都不会突破内容安全边界，为后续后验对齐提供稳固底座。

后验数据飞轮

为了让模型吸收用户的真实后验反馈，慧播星构建了一套以"内容探索 + 奖励建模"为两条主线的数据飞轮，实现模型的自主进化与持续增强。

基于后验统计的内容探索 ：可控、高解释的偏好数据生成链路。后验统计路径主要面向高精度、强可控、可解释性强的偏好数据生产需求，结合在线实验框架，通过真实用户反馈驱动的方式生成偏好样本。通过高频在线实验，系统不断沉淀千级规模的偏好数据，支撑后续的模型偏好对齐训练（如 DPO/IPO 等策略优化方法）。

可泛化的奖励 uplift 建模 ：大规模偏好数据的高效补充路径。相比基于后验统计的实验方式，uplift 建模路径旨在解决用户行为稀疏、实验成本高的问题，通过泛化模型直接对用户偏好进行预测，生成百万级的偏好数据，实现更高效的数据扩容。采用 S-Learner / T-Learner 等 uplift 方法，构建用户行为因果效应模型，直接预测"某段内容是否会提升用户的互动/评论/停留等关键指标？"

3.2 智能问答

慧播星建设了一套完备的直播场景RAG系统，包括电商领域知识检索模型，通过千亿模型蒸馏的低时延生成模型（12s->2s)，数据飞轮。目前已实现多模素材调度，高拟真明星问答，客户个性化表达，垂类适配，商家/商品知识库等产品能力。客户可一键开启智能问答，问答端到端可用率95%，优质率90%，客户开启率94%，运营和客户反馈较好。

△ 智能问答架构

技术架构

慧播星的直播实时问答系统在工程上形成了知识整合 → 领域检索 → 低延迟生成 → 后处理 → 数据飞轮的完整闭环，为超拟真数字人提供了媲美真人的实时互动能力。

在知识整合层，系统将商家侧的商品图文、卖点、FAQ、视频脚本、类目属性以及运营沉淀的数据统一入库，并通过向量化处理构建高可用的电商知识底座。
领域知识检索模块结合了千帧蒸馏后的 EB-lite/行业模型与高维向量语义搜索，通过「意图识别 → 精准匹配 → 语义聚类 → 知识召回」的流水线，确保系统能够从复杂直播语境中准确捕捉用户提问意图。直播场景中存在大量口语化、短句化、甚至噪声语料（如： "这个能用多久啊"。"有别的颜色吗？"），系统通过深度语义 embedding（如 ernie embedding）实现高鲁棒性的实时检索，使检索召回的准确率在实时环境下依然保持稳定。
低延时生成模块。基于千亿模型蒸馏结果构建，针对直播高并发、低时延、强一致性的要求，模型经过结构裁剪、张量并行优化与 Prompt 规约，使单轮响应时延从 12s 压缩到 2s，在保证语义丰富度和口播自然度的同时提升端到端体验。
数据飞轮实现持续自我优化：运营反馈、用户互动日志、误匹配案例以及高质问答样本会自动回流到数据处理模块，驱动知识库更新与模型重训练。

3.3 智能中控

真人主播会根据直播间实时状态决策当前应发起何种动作（action），比如直播间互动氛围差的时候是应该邀评，换卖点讲解还是促单？确定动作后主播知道如何最好的的执行动作，例如怎么把邀评讲出来？说什么话，用什么语气，邀请特定观众还是所有观众。行为决策和行为内容生成两者相结合实现直播间下单，关注，留联等最大化目标。超拟真数字人需要具备上述两种核心能力，即给定一个长期目标（如每场次的订单总数，评论总数，观看时长等），要求数字人1）判断在不同直播间状态下应该做出什么行为，是切换卖点讲解，促单逼单，邀评还是多轮互动？2）确定某种行为后生成适合的的行为内容，如塑品讲解，优惠讲解，促单逼单等的具体口播内容。

技术架构

智能中控架构核心由基于强化学习的决策Agent，和基于一言大模型的多任务融合两个部分组成。

基于强化学习的行为决策Agent

行为决策的目标是在不同直播状态下选择最优动作，最大化长期目标（订单、评论、观看时长等）

上图展示了直播环境与RL决策Agent的交互流程：

状态 St：观看人数、评论频率、当前商品、用户行为序列、是否有提问等
动作 At：邀评 / 多轮互动 / 促单 / 动态讲解 / 切换卖点 / 回答问题......
奖励 Rt：订单数变化、评论数增加、停留时长、转化率提升等
Agent 通过不断试错 & 策略迭代，获得最优策略。

这使数字人能够像真人主播一样：氛围低时发起互动，用户观望时进行促单，新观众进入时进行商品介绍。RL 的优势在于目标导向：不是优化单句话，而是优化整场直播的 KPI。

基于大模型的行为内容生成与融合

当 RL Agent 选择了一个动作后，例如"促单"，还需要生成对应的动作参数：如促单的口播内容，使用什么语气？内容是偏温和还是强节奏？是否引用当前观众的评论？实践中我们通过强化学习训练了一系列action内容生成专精模型，能够生成特定参数指定的直播内容。

未来我们将以语言模型为基座对决策和内容生成任务进行端到端训练，减少分阶段建模带来的累计误差。

04 语音克隆与合成

普通商家原声演绎状态不佳，缺乏带货感。慧播星利用风格迁移TTS技术自动合成感染力强，拟真度高的直播音频。经过两年多的迭代TTS开播使用率从30.3%提升至92.8% ，制作时效性从1月降低到1分钟。

电商TTS发展主要经历两个阶段：

第一阶段（2023.3~2024.Q2) **：语音定制工牌麦收音，依赖大量人工传导，整个周期长达一个月

第二阶段（2024.Q3至今) **：小程序自助收音提高收音效率，自动训练架构升级，抑扬顿挫带货效果持续优化

第一阶段：工牌麦收音效率低下

第二阶段：小程序自助录制

现状：当前慧播星支持原生和激情带货两种音色克隆，客户仅需在手百小程序上录制15分钟语音，系统在1天内自动为客户生成克隆音（对比如下）。目前慧播星已制作12w多个音色，2.7w多个客户定制音色。

两种音效可选

1. 原声效果：还原本人说话特点，如语速和语调

http://blob:https://unitools.fun/fb87134d-97ec-42a5-a0a0-b74980b1cfc3

2. 激情带货效果：让整体情绪更激昂，抑扬顿挫

http://blob:https://unitools.fun/85e53903-5672-4988-85ae-19a4c867a607

未来计划利用海量直播场景的语料数据，进一步降低克隆门槛 （对齐竞品的30s）、提升克隆效率 （分钟级可完成克隆进行合成）、优化朗读效果（对标直播/视频/讲述/咨询等不同语境的真人），同时从单声音的克隆和合成成本达到业内头部领先水平。

克隆+合成技术架构

整体架构主要包括离线声纹注册和模型训练，在线合成三个部分。

△ 形象克隆及合成架构

05 形象克隆与合成

主播形象是直播的核心要素，高拟真形象能够提升用户观看时长，进而提升成单效果。慧播星与视觉技术部深度合作，基于2D数字人技术针对直播场景定制形象克隆和合成能力，建设了接近7800+个公共库形象，有效地支撑商家在慧播星的前期探索，为自建形象做好准备。

△ 慧播星形象制作

形象克隆技术发展主要经历了四个阶段：

第一阶段（2023.3~2023Q4) ：V1版本唇形驱动方案适配电商直播场景，跑通录制约束较多的**闭嘴且无遮挡录制+**形象克隆流程，建立起第一批公共库形象

第二阶段（2024.Q4~2024.Q2) ：V3V4版本唇形驱动通过数据建设和模型算法优化实现张嘴录制和更自然的唇动效果

第三阶段（2024.Q3~2025.Q2) ：进一步降低录制门槛，支持录制中遮挡、大幅度侧脸和人脸出镜。

当前阶段客户仅需上传5分钟左右的自然演绎视频，系统在3小时内即可自动为客户生成克隆形象。时至25年底慧播星已累计制作32万多多个形象，8万多个客户定制形象，线上可用率95% 。

第三阶段（2025.Q3~至今）：突破唇形驱动，建设多人出镜，动作驱动，表情驱动，持物驱动等下一代形象生成能力（多模协同的超级主播）。

视觉技术

实时场景下早期的唇动方案采用单阶段建模（如wav2lip），输入音频直接输出像素空间的唇形图片。实践中单阶段方案无法达到逼真的唇动效果，后来的商用方案几乎都采用两阶段方案：第一阶段将音频转化为2D关键点或3D人脸模型作为中间表达，第二阶段将中间表达利用GAN网络解码到像素空间。

视觉生成模型

核心由三个模型组成，3D人脸重建模型 ，音频到3D人脸生成模型 ，3D空间到像素空间人脸生模型。

3D人脸重建利用3DMM将人脸图片（像素）转换为3D mesh（三维空间点）
基于Faceformer改进的音频到3D mesh预估模型，mesh作为中间表达携带了丰富的面部动态，使得生成模型能够生成逼真的唇形图片。
基于StyleGan2改进的人脸生成模型，训练目标包括像素空间的重建损失，特征空间的感知损失，以及对抗生成损失。实现个性化增量微调方案，复用预训练底座只学习每个主播的个性化唇动风格，新形象仅需微调，3小时内完成制作。

模型pipeline

在线合成架构

形象合成以tts音频、底板视频帧和直播间背景为输入，通过生成模型实时合成主播嘴部区域，最后组装成视频流推送给用户。其中任务队列建立缓冲区，保障了视频流的连续性。目前已实现单卡多路流式渲染，支撑2万多直播间同时开播

在线流式合成架构

06 总结

历经两年多的持续打磨与技术突破，慧播星已经从一款数字人直播工具，成长为覆盖脚本生成、实时问答、智能中控、语音克隆、形象合成等多模态全链路的原生 AI 直播平台。它不仅复刻了真人主播的内容表达与带货节奏，更通过商品理解增强、强化学习决策、先验---后验数据飞轮、大规模音视频生成模型等关键技术，实现了"超越真人"的直播能力。随着业务规模的快速扩张与技术体系的持续演进，慧播星已在日均2万+直播间、万级定制形象与音色、覆盖电商与泛行业场景的真实生产环境中验证了 AI 直播的成熟度和商业价值。未来慧播星将继续沿着"更智能、更具说服力、更高效"的方向迭代：让脚本更精准、互动更自然、视觉更逼真、声音更生动、决策更智慧，并通过持续运转的数据飞轮不断突破直播体验的天花板。