CVPR 2026 | 全新强化学习框架 BeautyGRPO：重塑真实人像

作者： vivo BlueImage Lab

本文入选 CVPR 2026 Highlight

CVPR（IEEE/CVF Conference on Computer Vision and Pattern Recognition）IEEE 国际计算机视觉与模式识别会议，主要内容是计算机视觉与模式识别技术。

CVPR 2026 投稿 16092 篇，接收率约 25.42%。

论文主页：https://beautygrpo.github.io

摘要：
人像精修的核心挑战在于既要提升肌肤质感，又要完整保留个人原生特征。然而，传统的监督学习局限于像素级模仿，难以捕捉人类复杂的高级审美；而强化学习（RL）虽擅长审美对齐，其随机探索机制却极易破坏原图的高保真需求，导致明显的失真伪影。

为了化解"美学探索"与"高保真"的两难困境，本工作提出全新强化学习框架 BeautyGRPO。该工作首先构建了细粒度人像精修偏好数据集 FRPref-10K 及用于评估的细粒度奖励模型，精准量化微观审美差异；同时首创动态路径引导（DPG）算法，在每一步采样中动态重规划基于高质量锚点的轨迹，有效纠正了随机漂移。实验证明，BeautyGRPO 在真实场景的肌肤纹理重建与整体审美对齐上，全面超越了现有的专精修图方法与通用编辑大模型。

对应的论文已被 CVPR2026 接收，并被选为 Highlight 文章。

该工作由 vivo BlueImage Lab，中山大学共同完成。

一、行业困局：审美探索与高保真的"零和博弈"

高质量的数字人像精修早已成为移动影像时代的高频刚需。然而，对 AI 而言，这是一项极为严苛且微妙的任务：它既要像手术刀般精准剥离痘印、斑点等微小瑕疵，又要让肌肤透出真实的"自然呼吸感"，并完整保留诸如痣等极具辨识度的原生特征。本质上，这是一场"原生高保真"与"人类主观审美"之间的极致博弈。现有的 AI 模型往往受限于底层训练范式，难以做到两全其美。

现有痛点 1：SFT 的"刻板拟合"局限。

目前主流的修图模型（如 RetouchFormer）或通用编辑模型（NanoBanana）大多依赖监督微调（SFT）范式，迫使模型陷入对参考图的"像素级严格拟合"。模型并未真正捕捉人类审美逻辑，一旦训练数据存在瑕疵，便会全盘继承这些错误标注。因此在泛化到真实场景时，极易出现瑕疵残留，或因粗暴的"过度磨皮"导致人脸呈现失真的"硅胶质感"。

现有痛点 2：RL 的"随机失控"副作用。

为突破 SFT 局限，文生图领域尝试引入在线强化学习（RL，如 FlowGRPO）引导模型对齐人类审美。然而，这类方法在采样中往往需要注入随机噪声来驱动探索。对于极度依赖保真度的人像精修而言，这种不断累积的随机漂移（Stochastic Drift）是致命的，会严重破坏原图的高保真流形并引入明显的视觉伪影。

核心挑战： 究竟该如何打破这一"零和博弈"，在追求极致美学探索的同时，实现原生特征的绝对保真？

二、技术逻辑：细粒度审美量化与动态路径引导

我们提出了BeautyGRPO框架，从偏好量化与采样机制两个维度入手解决上述问题：

2.1 构建细粒度评价体系：FRPref-10K 与多维奖励模型

现有的奖励模型大多聚焦语义对齐和整体美学质量评估，缺乏对人像微小感知差异的敏锐度。为此，我们构建了业内首个包含 10,000 对高清精修偏好对的大型数据集 FRPref-10K ，将审美标准拆解为 5 个细粒度维度：皮肤平滑度、瑕疵去除、纹理质感、清晰度、身份特征保留。在此基础上，我们结合视觉大模型（VLM）与人类专家校准，训练出具备高感知能力的多维奖励模型。该模型能够敏锐捕捉图片之间的肌肤纹理、光泽质感等微小差异，为强化学习提供高质量的偏好对齐信号。

2.2 可控 RL 探索：动态路径引导（DPG，Dynamic Path Guidance）

针对审美探索与高保真的冲突，DPG 在采样过程中构建了一种柔性的"锚点约束"机制。算法在每一步会规划一条指向高质量参考锚点（Anchor）的确定性轨迹，将其与原始 SDE 采样方向结合计算出专属的"纠正向量（Correction Vector）"。借助时间步自适应的权重衰减策略，DPG 对生成轨迹进行了精细化控制：

**采样前期（高噪声阶段）：**赋予纠正向量较强的引导权重，强力纠正随机漂移，将生成轨迹拉回高保真流形，确保面部结构和光影的稳定。
**采样后期（细节生成阶段）：**动态降低纠正向量的引导强度，释放更多随机探索空间，使模型能在安全边界内，寻找超越高质量锚点、更契合人类审美的修图结果。

三、实验结果

Figure 1: 客观指标全面领先（跨越"感知-失真"困境）

**指标选择：**为避免全参考指标（如 PSNR）带来的"感知-失真困境"，采用 NIMA、MUSIQ、MANIQA 等无参考（NR）美学指标。
评估结果： BeautyGRPO 在各项 NR 指标上均显著优于现有专精及通用修图模型；同时 ArcFace 身份保留得分稳居 0.95+，证明其在提升美感的同时未破坏面部特征。

Figure 2: 视觉效果直观对比（拒绝油光，还原呼吸感）

**传统基线：**常陷入两难极端------要么对微小瑕疵"漏修"，要么因粗暴磨皮导致肌肤呈现失真的"塑料油光感"。
**BeautyGRPO：**精准剥离暗沉与痘印，重塑细腻毛孔与真实光泽。在完整痣等原生特质的同时，完美还原肌肤的"自然呼吸感"，呈现通透、高级的影像质感。

Figure 3: 主观双盲偏好测试（高度契合大众审美）

**测试设定：**邀请 100 名涵盖不同年龄段与具备专业修图经验的用户，开展了严格的双盲偏好与打分测试。
主观偏好断层领先： BeautyGRPO 以高达 **63.25%**的偏好胜率位列第一，对第二名（12.00%）形成碾压式优势，切实印证了优化结果高度契合大众的审美预期。
**审美对齐精准拟合：**测试进一步证实，专属多维奖励模型的评分与人类真实评分展现出了极高的对齐度，强有力地证明了该模型真正"读懂"了人类的审美逻辑。

Figure 4: 优异的基座泛化能力（即插即用）

将 BeautyGRPO 框架直接应用于通用的 Qwen-Image-Edit 大模型，有效化解了原模型在面部编辑时易引发的"身份偏移"和"过度平滑"问题，展现出极强的泛化潜力。

四、结语：探索计算摄影的"真实之美"

BeautyGRPO 成功让 AI 摆脱了死板的修图套路，在"极致美学"与"原生保真"之间找到了完美的平衡。这项 CVPR 2026 顶会成果的背后，印证着 vivo 蓝图影像实验室（vivo BlueImage Lab）在计算摄影与 AIGC 前沿的持续深耕。秉承"拒绝同质化粗暴磨皮，还原个人特质与自然真实"的美学哲学，团队期待此类底层算法的突破能够加速落地终端，为用户的每一次日常记录，赋予更专业、更高级的影像质感。

vivo BlueImage Lab
蓝图影像创新实验室，主要负责移动影像算法创新，包括图像/视频处理、图像/视频交互、图像/视频增强、多模态理解大模型等方面的技术前沿探索。
致力于不断提升 vivo 移动影像的算法能力，使用户能够拍摄出更加清晰、美观的照片和视频。同时积极探索增强现实、具身智能等新兴技术领域的应用，努力为用户提供更加丰富和便捷的影像体验。
欢迎持续关注 vivo 影像技术，获取前沿技术创新经验分享与热招岗位信息。