作者: vivo BlueImage Lab
本文入选 CVPR 2026 Highlight
CVPR(IEEE/CVF Conference on Computer Vision and Pattern Recognition)IEEE 国际计算机视觉与模式识别会议,主要内容是计算机视觉与模式识别技术。
CVPR 2026 投稿 16092 篇,接收率约 25.42%。
论文主页:https://beautygrpo.github.io
摘要:
人像精修的核心挑战在于既要提升肌肤质感,又要完整保留个人原生特征。然而,传统的监督学习局限于像素级模仿,难以捕捉人类复杂的高级审美;而强化学习(RL)虽擅长审美对齐,其随机探索机制却极易破坏原图的高保真需求,导致明显的失真伪影。为了化解"美学探索"与"高保真"的两难困境,本工作提出全新强化学习框架 BeautyGRPO。该工作首先构建了细粒度人像精修偏好数据集 FRPref-10K 及用于评估的细粒度奖励模型,精准量化微观审美差异;同时首创动态路径引导(DPG)算法,在每一步采样中动态重规划基于高质量锚点的轨迹,有效纠正了随机漂移。实验证明,BeautyGRPO 在真实场景的肌肤纹理重建与整体审美对齐上,全面超越了现有的专精修图方法与通用编辑大模型。
对应的论文已被 CVPR2026 接收,并被选为 Highlight 文章。
该工作由 vivo BlueImage Lab,中山大学共同完成。
*一、*行业困局:审美探索与高保真的"零和博弈"
高质量的数字人像精修早已成为移动影像时代的高频刚需。然而,对 AI 而言,这是一项极为严苛且微妙的任务:它既要像手术刀般精准剥离痘印、斑点等微小瑕疵,又要让肌肤透出真实的"自然呼吸感",并完整保留诸如痣等极具辨识度的原生特征。本质上,这是一场"原生高保真"与"人类主观审美"之间的极致博弈。现有的 AI 模型往往受限于底层训练范式,难以做到两全其美。
现有痛点 1:SFT 的"刻板拟合"局限。
目前主流的修图模型(如 RetouchFormer)或通用编辑模型(NanoBanana)大多依赖监督微调(SFT)范式,迫使模型陷入对参考图的"像素级严格拟合"。模型并未真正捕捉人类审美逻辑,一旦训练数据存在瑕疵,便会全盘继承这些错误标注。因此在泛化到真实场景时,极易出现瑕疵残留,或因粗暴的"过度磨皮"导致人脸呈现失真的"硅胶质感"。
现有痛点 2:RL 的"随机失控"副作用。
为突破 SFT 局限,文生图领域尝试引入在线强化学习(RL,如 FlowGRPO)引导模型对齐人类审美。然而,这类方法在采样中往往需要注入随机噪声来驱动探索。对于极度依赖保真度的人像精修而言,这种不断累积的随机漂移(Stochastic Drift)是致命的,会严重破坏原图的高保真流形并引入明显的视觉伪影。
核心挑战: 究竟该如何打破这一"零和博弈",在追求极致美学探索的同时,实现原生特征的绝对保真?
二、技术逻辑:细粒度审美量化与动态路径引导
我们提出了BeautyGRPO框架,从偏好量化与采样机制两个维度入手解决上述问题:
2.1 构建细粒度评价体系:FRPref-10K 与多维奖励模型
现有的奖励模型大多聚焦语义对齐和整体美学质量评估,缺乏对人像微小感知差异的敏锐度。 为此,我们构建了业内首个包含 10,000 对高清精修偏好对的大型数据集 FRPref-10K ,将审美标准拆解为 5 个细粒度维度:皮肤平滑度、瑕疵去除、纹理质感、清晰度、身份特征保留。 在此基础上,我们结合视觉大模型(VLM)与人类专家校准,训练出具备高感知能力的多维奖励模型。该模型能够敏锐捕捉图片之间的肌肤纹理、光泽质感等微小差异,为强化学习提供高质量的偏好对齐信号。
2.2 可控 RL 探索:动态路径引导(DPG,Dynamic Path Guidance)
针对审美探索与高保真的冲突,DPG 在采样过程中构建了一种柔性的"锚点约束"机制。算法在每一步会规划一条指向高质量参考锚点(Anchor)的确定性轨迹,将其与原始 SDE 采样方向结合计算出专属的"纠正向量(Correction Vector)"。借助时间步自适应的权重衰减策略,DPG 对生成轨迹进行了精细化控制:
- **采样前期(高噪声阶段):**赋予纠正向量较强的引导权重,强力纠正随机漂移,将生成轨迹拉回高保真流形,确保面部结构和光影的稳定。
- **采样后期(细节生成阶段):**动态降低纠正向量的引导强度,释放更多随机探索空间,使模型能在安全边界内,寻找超越高质量锚点、更契合人类审美的修图结果。
三、实验结果
Figure 1: 客观指标全面领先(跨越"感知-失真"困境)
- **指标选择:**为避免全参考指标(如 PSNR)带来的"感知-失真困境",采用 NIMA、MUSIQ、MANIQA 等无参考(NR)美学指标。
- 评估结果: BeautyGRPO 在各项 NR 指标上均显著优于现有专精及通用修图模型;同时 ArcFace 身份保留得分稳居 0.95+,证明其在提升美感的同时未破坏面部特征。
Figure 2: 视觉效果直观对比(拒绝油光,还原呼吸感)
- **传统基线:**常陷入两难极端------要么对微小瑕疵"漏修",要么因粗暴磨皮导致肌肤呈现失真的"塑料油光感"。
- **BeautyGRPO:**精准剥离暗沉与痘印,重塑细腻毛孔与真实光泽。在完整痣等原生特质的同时,完美还原肌肤的"自然呼吸感",呈现通透、高级的影像质感。
Figure 3: 主观双盲偏好测试(高度契合大众审美)
- **测试设定:**邀请 100 名涵盖不同年龄段与具备专业修图经验的用户,开展了严格的双盲偏好与打分测试。
- 主观偏好断层领先: BeautyGRPO 以高达 **63.25%**的偏好胜率位列第一,对第二名(12.00%)形成碾压式优势,切实印证了优化结果高度契合大众的审美预期。
- **审美对齐精准拟合:**测试进一步证实,专属多维奖励模型的评分与人类真实评分展现出了极高的对齐度,强有力地证明了该模型真正"读懂"了人类的审美逻辑。
Figure 4: 优异的基座泛化能力(即插即用)
将 BeautyGRPO 框架直接应用于通用的 Qwen-Image-Edit 大模型,有效化解了原模型在面部编辑时易引发的"身份偏移"和"过度平滑"问题,展现出极强的泛化潜力。
四、结语: 探索计算摄影的"真实之美"
BeautyGRPO 成功让 AI 摆脱了死板的修图套路,在"极致美学"与"原生保真"之间找到了完美的平衡。 这项 CVPR 2026 顶会成果的背后,印证着 vivo 蓝图影像实验室(vivo BlueImage Lab)在计算摄影与 AIGC 前沿的持续深耕。秉承"拒绝同质化粗暴磨皮,还原个人特质与自然真实"的美学哲学,团队期待此类底层算法的突破能够加速落地终端,为用户的每一次日常记录,赋予更专业、更高级的影像质感。
vivo BlueImage Lab
蓝图影像创新实验室,主要负责移动影像算法创新,包括图像/视频处理、图像/视频交互、图像/视频增强、多模态理解大模型等方面的技术前沿探索。
致力于不断提升 vivo 移动影像的算法能力,使用户能够拍摄出更加清晰、美观的照片和视频。同时积极探索增强现实、具身智能等新兴技术领域的应用,努力为用户提供更加丰富和便捷的影像体验。
欢迎持续关注 vivo 影像技术,获取前沿技术创新经验分享与热招岗位信息。