手机里的计算摄影：广角形变校正算法

广角镜头凭借超大视场角（FOV），成为智能手机影像系统的标配，广泛应用于集体人像、风光拍摄等场景。但透视投影带来的几何畸变是长期存在的难题：在 100°~120° 视场角的广角画面中，远离镜头中心的人脸会出现拉伸、歪斜、比例失调等问题，严重影响人像观感。

现有的传统投影算法（球面投影、墨卡托投影、帕尼尼投影）虽能缓解人脸畸变，却会造成场景中直线物体弯曲，破坏画面真实感；各类商用修图工具依赖手动调节，难以满足手机即拍即处理的交互需求。

2019 年谷歌团队发表于 ACM Transactions on Graphics (ACM TOG) 的《Distortion-Free Wide-Angle Portraits on Camera Phones》，提出了一套面向移动端的全自动广角人像无畸变矫正算法，成为现阶段手机广角人脸校正功能的主流技术参考方案。该方法基于内容感知网格形变与多约束能量优化，对人脸区域采用球面投影实现保角矫正，背景区域保留原始透视投影，并通过平滑过渡解决两类投影的冲突，在矫正效果、运行效率、场景鲁棒性上实现了平衡。

本篇技术博客将以该论文为核心依据，从问题背景、算法流程、能量函数设计、移动端工程实现、效果对比等维度，系统性解析这套广角形变校正算法，并分析其优势与现存局限。

摘要

摄影师使用广角镜头拍摄，既能收获开阔的视野、拍出全员入镜的集体人像，也能将人物与壮丽的背景风光相结合。尽管手机广角摄像头已得到广泛普及，但更大的视场角会加剧透视畸变。其中最为明显的问题是，画面中的人脸会被拉伸、挤压、扭曲，呈现出与真实样貌截然不同的效果。想要修正这类畸变往往需要专业的修图技巧，简单的调整操作还容易引发新的失真问题。

本文提出一种全新算法，能够在不改动画面其他区域的前提下，完成人脸畸变矫正。该算法将人像照片作为输入，通过构建优化问题生成内容感知形变网格：在人脸区域局部适配球面投影以修正畸变，同时在背景区域平滑过渡为透视投影。本文设计的新型能量函数，能够高效、稳定地处理多人合影场景。整套算法完全自动化，可在移动设备上实现实时处理，在70°至120°的各类视场角下均能呈现出出色的矫正效果。

图1 (a) 采用97°视场角手机广角镜头拍摄的多人自拍。透视投影会让画面边缘的人脸显得很不自然：面部被拉伸、扭曲、挤压。(b) 本文算法修复了所有变形的人脸，同时保持背景画面不受影响。

引言（Introduction）

1. 应用背景与现状

广角镜头凭借更广的视野，广泛应用于婚礼、运动、风光、街拍等摄影场景，也是如今高端智能手机的标配，非常适合拍摄多人自拍、集体合影。不少旗舰手机前置、后置镜头都配备了大视场角（FOV）广角摄像头。

2. 现存核心痛点

广角成像基于透视投影，会产生明显畸变：画面边缘的人脸被拉伸、挤压、形态不对称，视觉效果违和。同时当下手机广角镜头普遍存在两类缺陷，要么是严重的透视畸变，要么是类鱼眼畸变，造成建筑、墙面、窗框等实景中的直线发生弯曲。

在移动互联网时代，手机人像、自拍、集体合影的拍摄与分享十分频繁，但现有手段很难便捷解决上述问题。

3. 本文方案与优势

本文提出一套全自动人像透视畸变矫正算法：先识别人物区域，构建粗粒度形变网格并分配顶点权重；让人脸区域采用球面投影修复畸变，背景沿用原始透视投影，并保证两种投影方式在人脸边界平滑过渡。

该方案区别于传统通用透视矫正算法，专门针对人脸这一特殊对象优化。算法经过四千余张 、视场角70°_{120°、人数1}10人以上的人像图片验证，鲁棒性强。同时算法软硬件开销低，在主流手机上处理1200万像素图像仅需920毫秒，完全满足手机即拍即看、即时分享的交互需求。

4. 论文核心贡献

设计出一套全自动、高效率的算法，专门矫正广角人像中人脸区域的透视畸变；
提出全新的人脸目标能量项，实现人脸区域使用球面投影、背景区域保留透视投影的混合投影效果。

图2 将全局投影算法应用于原图(a)后，会产生鱼眼畸变，导致场景中的直线发生弯曲，效果如(b)©所示。本文算法能够修复人脸畸变，同时保留背景画面，不会使直线边缘发生形变，结果见(d)。

论文从三维投影、镜头畸变、透视畸变处理、内容感知形变、人脸畸变修复五大方向梳理现有研究，并对比本方案的差异化。

1. 三维投影

三维投影本身就会给二维图像引入畸变，视场角越大，远离画面中心的物体形变越严重。早在文艺复兴时期，艺术家就已发现这类透视问题。

行业内常用球面投影、墨卡托投影、帕尼尼投影 缓解广角畸变，多用于运动相机、全景图。但这类全局投影 会弯曲场景内的长直线，破坏实景真实感；本文采用局部自适应网格，规避了直线扭曲的问题。

2. 镜头畸变

广角镜头受光学设计限制，本身会产生镜头畸变，常表现为画面边缘直线弯曲，这类问题可通过标定与传统算法修正。

但镜头畸变修正≠透视畸变修正：即便消除了镜头本身的光学畸变，广角带来的透视形变依然存在。传统解决方式是使用长焦镜头，或让人物站在画面中心，本文则不受构图与站位限制。

3. 透视畸变处理

传统透视校正分为两类：

手动/自动全局单应性变换：例如Photoshop的透视变形工具，会改变整张图的透视关系，容易引发新畸变；
基于网格的校正方法：大多需要用户手动标注直线、消失点等约束条件，无法做到全自动，也难以适配手机实时使用场景。
本文全程自动运行，且只做局部矫正，保留原图整体视角与视场角。

4. 内容感知形变

内容感知形变技术已广泛用于全景拼接、图像缩放、视频防抖、立体图像编辑等场景。

现有方法主要面向通用物体做几何还原，而本文聚焦人像照片：人脸是人类视觉高度敏感的区域，多人相邻、遮挡、姿态多变时修复难度更高，这也是本工作的核心难点。

5. 人脸畸变矫正

部分方法借助3D人脸模型矫正近摄产生的透视缩短畸变，但其依赖精准建模，在多人、遮挡、复杂姿态的野外实拍场景中难以落地；
人脸美化类算法基于审美统计调整脸型，而本文目标并非美颜，而是让画面边缘人脸还原至中心视角的正常形态，不依赖审美偏好。

综上，现有各类技术均无法同时满足全自动、移动端实时运行、只矫正人脸且不破坏背景结构的需求，这也凸显了本文方法的创新价值。

图3 算法整体流程：输入一张经透视投影成像的广角照片(a)，首先通过人像分割提取出人脸区域(b)，并计算球面投影（详见第3节）。图(b)中，我们用绿色标注出扩展人脸框相交的区域；图©为对原图(a)做形变后得到的球面投影效果。随后通过面向人脸畸变矫正的能量优化算法生成矫正网格(d)（详见第4节）。最后使用该网格对原图(a)进行形变，得到最终输出结果(e)。在图(e)中，右下角人脸的畸变得以修复、观感自然，同时背景也未出现图©中的鱼眼畸变。

3 PRELIMINARIES AND OVERVIEW（预备知识与算法总览）

本节完整介绍算法整体流水线、关键前置技术、数学公式、掩码生成、投影模型与网格初始化，是全文算法的基础。

算法整体流程总览

整套算法共5个步骤，对应论文图3：

输入：经透视投影成像的广角人像图；
人物掩码分割：提取人脸、头发待矫正区域；
计算球面投影：依据相机焦距求解球面投影映射关系；
能量优化求解网格：得到兼顾人脸矫正、背景保形的最优形变网格；
网格形变输出：用优化网格对原图做形变，得到无畸变结果。

核心思路：人脸区域局部采用球面投影，背景保持原始透视投影，依靠网格与能量约束实现两类投影平滑过渡。

人物掩码分割（Subject Mask Segmentation）

算法仅对人脸、头发区域做畸变矫正，首先依靠现成的人像分割网络得到主体掩码，再结合人脸检测与面部关键点优化掩码范围：

基础掩码：使用现有分割网络得到整个人物区域掩码；
人脸检测框：结合人脸检测器输出矩形框，将主体掩码与人脸框取交集，初步锁定面部区域；
区域扩展：
- 提取128个面部轮廓关键点（包含下巴），扩展人脸框以完整覆盖面部轮廓；
- 向上2倍高度 、左右各0.5倍宽度扩展框体，保证完整纳入头发区域；
特性：该掩码对人脸姿态、遮挡、多人同框、弱光环境均具备鲁棒性。

掩码用于生成顶点权重 ，区分网格顶点是否属于人脸区域，权重定义：

wi={0pi∉人脸掩码,1pi∈人脸掩码 w_{i}= \begin{cases} 0 & p_{i} \notin \text{人脸掩码}, \\ 1 & p_{i} \in \text{人脸掩码} \end{cases} wi={01pi∈/人脸掩码,pi∈人脸掩码

pip_ipi：原始透视网格上的第 iii 个顶点；
wiw_iwi：顶点权重，1代表该顶点属于人脸区域、需要矫正，0代表背景区域、不做人脸矫正。

球面投影（Stereographic Projection）核心数学公式

球面投影是一种保角映射 ，能最大程度修复人脸透视畸变，但会弯曲场景直线。论文基于径向映射建立透视投影与球面投影的坐标转换关系。

符号定义
- rpr_prp：透视投影下，像素点到光心的径向距离；
- rur_uru：球面投影下，对应像素点到光心的径向距离；
- fff：相机焦距；
- W,HW,HW,H：图像宽、高；
- d=min⁡(W,H)d = \min(W,H)d=min(W,H)：图像短边长度；
- r0r_0r0：缩放系数，保证图像边界处两种投影坐标一致。
径向映射主公式

ru=r0tan⁡(0.5arctan⁡(rpf))(1) r_{u}=r_{0} \tan \left(0.5 \arctan \left(\frac{r_{p}}{f}\right)\right) \tag{1} ru=r0tan(0.5arctan(frp))(1)

该公式完成透视坐标 → 球面投影坐标的转换，是人脸区域畸变矫正的核心映射。
缩放系数 r0r_0r0 计算公式

为保证图像边缘像素在两种投影下位置重合，约束边界处 ru=rpr_u = r_pru=rp，推得：

r0=d2tan⁡(0.5arctan⁡(d2f))(2) r_{0}=\frac{d}{2 \tan \left(0.5 \arctan \left(\frac{d}{2 f}\right)\right)} \tag{2} r0=2tan(0.5arctan(2fd))d(2)
公式作用说明

对图像每个网格顶点 pip_ipi，代入 rpr_prp 可算出球面投影位置 uiu_iui，构成球面投影网格 MuM_uMu；

纯球面投影会扭曲背景直线，因此本文不全局使用，仅在人脸区域局部应用。

网格定义（Mesh Placement）

论文采用规则网格实现图像形变，统一数学符号与网格模型：

向量表示：列向量使用粗体标注，例 c= $cx,cy,...$ ⊤\boldsymbol{c} = $c_x, c_y, \\dots$ ^\topc= $cx,cy,...$ ⊤；
网格 MMM：具备网格拓扑的连通图，由顶点集合 {vi}\{v_i\}{vi} 构成，viv_ivi 为顶点二维坐标；
原始透视网格 MpM_pMp：均匀规则网格，顶点记为 {pi}\{p_i\}{pi}，对应输入图像原始透视投影；
球面投影网格 MuM_uMu：将 MpM_pMp 中所有顶点逐一代入公式(1)(2)映射得到，顶点记为 {ui}\{u_i\}{ui}。

图像形变逻辑：整张图的像素映射，由网格顶点位置插值得到。

朴素方案的缺陷

若直接使用权重 wiw_iwi 对 MpM_pMp 和 MuM_uMu 做简单插值融合：人脸区域直接套用 MuM_uMu、背景保留 MpM_pMp，会在人脸边界产生严重形变伪影 。

原因：两个网格在边界处顶点偏移量差异过大，简单插值无法平滑过渡，还会连带扭曲背景区域。因此论文引入能量最小化框架优化网格顶点，解决边界冲突。

本节核心逻辑总结

区域划分 ：依靠人像分割+人脸检测+关键点扩展得到精准掩码，用二值权重 wiw_iwi 区分人脸/背景；
投影模型：给出完整球面投影径向映射公式(1)(2)，建立透视投影与球面投影的数学转换关系；
网格模型 ：定义原始透视网格 MpM_pMp、球面投影网格 MuM_uMu，明确基于网格的图像形变范式；
问题引出：直接融合两种网格会产生边界伪影，为下一章**局部人脸去畸变（能量优化）**做铺垫。

本节所有数学公式、符号、网格模型、掩码规则均为第四章能量优化的前置基础。

图4 广角图像(a)会造成画面角落的人脸发生畸变，局部放大效果见(b)。若简单地将人脸区域的球面投影网格MuM_uMu直接套用至原始均匀网格MpM_pMp上，会在人脸边界产生明显瑕疵，如图©所示。而本文第4节提出的优化方法，能够有效消除人脸边界处的这类问题，效果见(d)。

4 LOCAL FACE UNDISTORTION（人脸局部去畸变）

本章是论文核心算法模块 ，通过能量最小化求解最优形变网格，融合球面投影（人脸）与透视投影（背景），同时约束直线结构、网格平滑与边界伪影。下面按原文结构完整拆解，保留全部数学公式、变量定义与推导逻辑。

4.1 整体优化目标

算法目标：求解最优网格 M∗={vi∗}M^*=\{v_i^*\}M∗={vi∗}，使得总能量函数 EtE_tEt 最小 。

优化表达式：

{vi∗}=argmin{vi} Et({vi})(4) \{v_i^*\} = \underset{\{v_i\}}{\mathrm{argmin}}\ E_t(\{v_i\}) \tag{4} {vi∗}={vi}argmin Et({vi})(4)

viv_ivi 为待优化的网格顶点二维坐标，EtE_tEt 是由多项约束加权组成的总能量。

4.2 人脸目标能量项 EfE_fEf（核心矫正项）

该部分作用：驱动人脸区域网格向球面投影网格对齐，实现畸变矫正；同时引入隐变量解决多人脸互相干扰、脸型缩放异常问题。

总人脸能量

整张图像存在多个人脸时，总人脸能量为单个人脸能量之和：

Ef=∑kEs,k(5) E_f = \sum_{k} E_{s,k} \tag{5} Ef=k∑Es,k(5)

kkk：图像中检测到的第 kkk 张人脸；
Es,kE_{s,k}Es,k：第 kkk 张人脸对应的单人脸能量项。

单人脸能量 Es,kE_{s,k}Es,k

E_{s,k} = \\sum_{i \\in B_k} w_i m_i \\big\| v_i - \\big(S_k u_i + t_k\\big) \\big\|_2\^2 * \\lambda(S_k) \\tag{6}

变量释义
- BkB_kBk：第 kkk 张人脸覆盖的所有网格顶点集合；
- wiw_iwi：前文定义的人脸掩码二值权重（111 为人脸区域，000 为背景）；
- uiu_iui：球面投影网格 MuM_uMu 的顶点坐标；
- viv_ivi：当前待优化网格顶点坐标；
- ∥⋅∥22\|\cdot\|_2^2∥⋅∥22：二范数平方，衡量顶点偏移误差；
- Sk,tkS_k, t_kSk,tk：单人脸相似变换隐变量（优化后丢弃），分别为旋转+缩放矩阵、平移向量，允许单张人脸整体平移、旋转、缩放，缓解多人脸区域的矫正冲突；
- mim_imi：径向权重，控制矫正强度。
矫正强度权重 mim_imi

mim_imi 由径向Sigmoid函数 生成：

mi=11+exp⁡(−(r−ra)/rb) m_i = \frac{1}{1+\exp\big(-(r-r_a)/r_b\big)} mi=1+exp(−(r−ra)/rb)1
- rrr：顶点 pip_ipi 到图像光心的径向距离；
- ra,rbr_a, r_bra,rb：衰减控制参数；
- 工程设定：图像中心 mi=0.01m_i=0.01mi=0.01（几乎不矫正），视场角 100∘100^\circ100∘ 处 mi=1m_i=1mi=1（最大强度矫正），符合"角落畸变更严重"的成像规律。
相似变换矩阵 SkS_kSk

SkS_kSk 为二维旋转+均匀缩放矩阵 ，形式为：

Sk= $akbk-bkak$ (7) S_k = \begin{bmatrix} a_k & b_k \\ -b_k & a_k \end{bmatrix} \tag{7} Sk= $ak-bkbkak$ (7)
- aka_kak：控制人脸整体缩放比例；
- bkb_kbk：控制人脸旋转角度；
  该矩阵保证对人脸做刚体类变换，不会破坏面部轮廓结构。

人脸尺度正则项 λ(Sk)\lambda(S_k)λ(Sk)

为防止矫正后人脸被无故放大/缩小，添加尺度约束正则项：

λ(Sk)=ws∥ak−st∥22(8) \lambda(S_k) = w_s \left\| a_k - s_t \right\|_2^2 \tag{8} λ(Sk)=ws∥ak−st∥22(8)

ws=2000w_s=2000ws=2000：尺度项权重；
st=1s_t=1st=1：目标缩放系数（期望人脸尺寸保持不变）；
作用：强制 ak→1a_k \to 1ak→1，保证矫正前后人脸大小一致。

图5 图(a)为多张人脸紧密相邻的集体人像。若移除公式(6)中的隐变量SkS_kSk与tkt_ktk，矫正后人脸区域会出现相互干扰的明显瑕疵，如图(b)所示。本文算法引入上述隐变量，可让所有人脸呈现自然效果，见图©。图(a)截取自一张视场角为103°的照片左上角区域。

图6 人像掩码对本文算法至关重要，对应图(a)、(e)。上图：仅依靠人脸检测框（图(b)蓝色方框）、不使用人像掩码时，矫正结果（图©）无法覆盖头发区域，还会出现不自然的形变。下图：若单纯放大人脸框（图(f)绿色方框）以囊括完整面部，又会在人脸框与背景的交界处产生新的畸形畸变，如图(g)中箭头所指位置。而借助人像掩码，本算法可以精准划定待矫正区域，效果见图(d)、(h)。

图7 若去掉公式(8)中的人脸尺度约束项，图(a)中的人脸会在输出结果（图(b)）中被不当放大，观感不佳。若移除公式(9)中的抗弯曲项，背景里窗框等硬质线条会发生畸变，如图©箭头标注处所示。结合全部能量项后，最终效果图(d)真实自然。

4.3 直线弯曲能量项 EbE_bEb（背景保直线约束）

作用：抑制网格剪切、扭曲，保护窗框、建筑、家具等场景直线边缘 ，避免全局球面投影带来的弯线伪影。

Eb=∑i∑j∈N(i)∥(vi−vj)×eij∥22(9) E_b = \sum_{i} \sum_{j \in N(i)} \big\| (v_i - v_j) \times e_{ij} \big\|_2^2 \tag{9} Eb=i∑j∈N(i)∑ (vi−vj)×eij 22(9)

变量释义
- N(i)N(i)N(i)：顶点 iii 的四邻域相邻顶点集合；
- ×\times×：二维向量叉乘；
- eije_{ij}eij：原始透视网格中，由 pip_ipi 指向 pjp_jpj 的单位方向向量；

物理意义：若网格连线发生剪切/弯折，叉乘结果会增大，该能量项会对此类形变进行惩罚，从而保留场景原有直线结构。

4.4 网格平滑正则项 ErE_rEr

作用：约束相邻网格顶点相对位置，让整张网格形变过渡自然，消除局部锯齿、块状伪影。

Er=∑i∑j∈N(i)∥vi−vj∥22(10) E_r = \sum_{i} \sum_{j \in N(i)} \big\| v_i - v_j \big\|_2^2 \tag{10} Er=i∑j∈N(i)∑ vi−vj 22(10)

该项鼓励相邻顶点间距保持稳定，保证网格整体平滑。

Mesh Boundary Extension（网格边界扩展）

直接对原始网格施加边界约束，会导致贴近画面边缘的人脸（如下巴、脸颊）出现拉伸畸变 。论文采用网格补边方案优化边界条件。

扩展规则

在原始网格四周额外填充 q=4q=4q=4 层顶点，对扩展后网格施加边界约束：

{vi,x=pi,x,i∈左右边界vi,y=pi,y,i∈上下边界(11) \begin{cases} v_{i,x} = p_{i,x}, & i \in \text{左右边界} \\ v_{i,y} = p_{i,y}, & i \in \text{上下边界} \end{cases} \tag{11} {vi,x=pi,x,vi,y=pi,y,i∈左右边界i∈上下边界(11)

含义：边界顶点仅能沿画面边框方向移动，不能垂直穿出边界；将形变畸变分散到填充的额外顶点中，原图区域伪影大幅减少。优化完成后裁剪掉填充顶点。
非对称边界代价项 EaE_aEa

防止网格形变后出现画面空白、像素缺失，约束原始网格边界顶点向外扩张、不向内收缩 ：

Ea=El+Er+Et+Eb(12) E_a = E_l + E_r + E_t + E_b \tag{12} Ea=El+Er+Et+Eb(12)

各子项定义（I(⋅)I(\cdot)I(⋅) 为指示函数：条件为真取1，否则取0；WWW 图像宽度，HHH 图像高度）：

El=I(vi,x>0)⋅∥vi,x∥22,∀i∈左边界Er=I(vi,x<W)⋅∥vi,x−W∥22,∀i∈右边界Et=I(vi,y>0)⋅∥vi,y∥22,∀i∈上边界Eb=I(vi,y<H)⋅∥vi,y−H∥22,∀i∈下边界(13) \begin{align*} E_l &= I(v_{i,x} > 0) \cdot \|v_{i,x}\|2^2,\quad \forall i \in \text{左边界} \\ E_r &= I(v{i,x} < W) \cdot \|v_{i,x} - W\|2^2,\quad \forall i \in \text{右边界} \\ E_t &= I(v{i,y} > 0) \cdot \|v_{i,y}\|2^2,\quad \forall i \in \text{上边界} \\ E_b &= I(v{i,y} < H) \cdot \|v_{i,y} - H\|_2^2,\quad \forall i \in \text{下边界} \end{align*} \tag{13} ElErEtEb=I(vi,x>0)⋅∥vi,x∥22,∀i∈左边界=I(vi,x<W)⋅∥vi,x−W∥22,∀i∈右边界=I(vi,y>0)⋅∥vi,y∥22,∀i∈上边界=I(vi,y<H)⋅∥vi,y−H∥22,∀i∈下边界(13)

图8 当人脸靠近图像边缘时（图a、b），采用硬性边界约束会在画面边缘产生瑕疵，如图c中下巴被拉长、形态怪异。本文通过额外补边的方式放宽边界约束，最终得到更为自然真实的效果（图d）。

Optimization（整体能量组合与求解）

总能量函数

将上述所有子能量加权融合，得到最终待优化的总能量：

Et=λfEf+λbEb+λrEr+λaEa(14) E_t = \lambda_f E_f + \lambda_b E_b + \lambda_r E_r + \lambda_a E_a \tag{14} Et=λfEf+λbEb+λrEr+λaEa(14)

固定权重（全文统一使用） ：

λf=4, λb=2, λr=0.5, λa=4\lambda_f=4,\ \lambda_b=2,\ \lambda_r=0.5,\ \lambda_a=4λf=4, λb=2, λr=0.5, λa=4
网格顶点初始化
- 为加速迭代收敛，不使用随机初始化，而是通过高斯核回归 插值原始透视网格 pip_ipi 与球面投影网格 uiu_iui，得到初始顶点 vi0v_i^0vi0：
  vi0=pi+Δvi0(15) v_i^0 = p_i + \Delta v_i^0 \tag{15} vi0=pi+Δvi0(15)
- 其中偏移量：
  Δvi0=∑jwj⋅Kh(∥pj−pi∥22)⋅Δvj∑jwj⋅Kh(∥pj−pi∥22) \Delta v_i^0 = \frac{\displaystyle \sum_j w_j \cdot K_h\big(\|p_j-p_i\|_2^2\big) \cdot \Delta v_j} {\displaystyle \sum_j w_j \cdot K_h\big(\|p_j-p_i\|_2^2\big)} Δvi0=j∑wj⋅Kh(∥pj−pi∥22)j∑wj⋅Kh(∥pj−pi∥22)⋅Δvj
  Δvj={uj−pjpj∈人脸区域0其他区域 \Delta v_j = \begin{cases} u_j - p_j & p_j \in \text{人脸区域} \\ 0 & \text{其他区域} \end{cases} Δvj={uj−pj0pj∈人脸区域其他区域
- 高斯核函数：
  Kh(x)=exp⁡(−x2h2) K_h(x) = \exp\left(-\frac{x}{2h^2}\right) Kh(x)=exp(−2h2x)
- 带宽参数：h=2.37h=2.37h=2.37；
- 效果：人脸区域初始值靠近球面投影，背景靠近原始透视投影，大幅减少迭代步数。
后处理：网格归一化

优化得到最优网格 M∗={vi∗}M^*=\{v_i^*\}M∗={vi∗} 后，做全局缩放+平移，消除形变产生的无效空白区域：

vn,i=sg(vi∗+tg)(16) v_{n,i} = s_g \big(v_i^* + t_g\big) \tag{16} vn,i=sg(vi∗+tg)(16)
tg=−v0∗t_g = -v_0^*tg=−v0∗：平移项，将网格左上角对齐图像原点；
sgs_gsg：全局缩放系数，遍历边界顶点求取最小缩放比例，保证所有内容完整保留。

4.5 Implementation Details（实现细节，算法配套工程说明）

网格尺寸 ：统一使用 103×78103 \times 78103×78 规则网格；
运行平台：桌面端 + 高通骁龙845（SDM845）移动端；
推理框架：人脸分割基于 TensorFlow Lite + Adreno 630 GPU；
求解器：使用 Ceres Solver 求解约束最小二乘问题，搭配**信赖域（Trust Region）**优化器；
图像重采样 ：GPU Shader 实现 7×77\times77×7 支持域的 Lanczos 高质量重采样；
性能拆分（1200万像素图像） ：
- 人像分割：280 ms
- 网格优化：340 ms
- 图像形变重采样：115 ms
- 总耗时：920 ms；
前置处理：从图片 EXIF 读取焦距、视场角，结合内置畸变系数预先完成镜头畸变校正，并将镜头畸变矫正与人脸形变合并为单次网格变换，减少计算开销。

本节核心逻辑总结

以最小二乘能量优化为核心，用多组能量项分工约束：人脸对齐球面投影、背景保留直线结构、网格整体平滑、边界无伪影；
引入相似变换隐变量，解决多人脸同框时的矫正冲突，配合尺度正则保证人脸尺寸不变；
网格补边 + 非对称边界项，专门优化画面边缘人脸的拉伸问题；
高斯插值初始化、专业求解器与GPU重采样，兼顾算法精度与移动端实时性；
整套公式构成完整的局部形变模型，实现"人脸矫正、背景无损、过渡自然"的设计目标。

5 RESULTS（实验结果与评估）

该章节从基础效果验证、多场景测试、量化指标、主流方案对比、用户主观调研、极端案例测试六大维度，全面验证算法的有效性、鲁棒性与落地价值，同时划分对比对象为传统投影算法、学术前沿方法、商业修图软件与手机原厂功能，完整呈现算法优势与适用边界。

一、实验数据集与基础实验设定

1. 数据集规模与构成

论文总共使用4131张广角人像图片开展全量测试，图片来源包含自主采集与Flickr公开图库，覆盖范围极广：

视场角（FOV）：70°~120°，涵盖手机常规主摄（约78°）、广角、超广角全档位，匹配主流手机镜头参数；
人物数量：单人自拍、多人合影，最多包含20人的大型集体人像；
场景与环境：室内外场景、城市建筑、自然风光等人像常见背景，包含大量窗框、墙体、栏杆等直线结构；
成像条件：强光、逆光、弱光等复杂光照；人脸姿态包含正脸、侧脸、大角度转头；同时覆盖戴眼镜、帽子、肢体遮挡面部、发型多样等真实拍摄场景；
额外抽样子集 ：单独选取167张不同国家、不同机型拍摄的图片做鲁棒性专项测试，该子集存在画面噪声、背景杂乱、分割难度大等挑战。

2. 前置预处理

所有输入图像均提前依据EXIF元数据（焦距、传感器参数、镜头畸变系数）完成镜头畸变校正，并将镜头畸变矫正与本文的人脸透视畸变矫正合并为单次网格形变，减少重复计算。由于镜头校正后会进行矩形裁切，输入图像边缘内容略少于最终输出图像。

二、基础矫正效果测试（全视场角通用验证）

1. 不同视场角与画面位置的矫正效果

全域位置测试（97° FOV标准广角）
受控实验中将人物人脸布置在相机视场范围内5×3共15个网格点位（覆盖画面中心、边缘、四角）。原始透视投影下，距离画面中心越远，人脸拉伸、歪斜越严重，四角畸变达到峰值；本文算法可对任意位置的人脸完成均等化矫正，矫正后所有人脸形态自然、比例统一，画面中心原本无明显畸变的人脸几乎不会发生变化，完全保留原始状态。
常规主摄测试（78° FOV）
当下主流旗舰手机主摄视场角约为75°~80°，这类镜头虽不属于超广角，但依旧存在轻微透视畸变。实验证明本算法对常规视场角镜头同样有效，可进一步优化边缘人脸比例，提升人像观感。
超大视场角测试（103°/104° FOV超广角）
针对畸变最严重的超广角场景，算法依旧可以精准修复扭曲的面部轮廓，同时不破坏背景直线。

2. 多人大型合影测试

针对20人规模的集体人像（79° FOV），画面边缘多人脸同时出现拉伸畸变。算法可批量完成所有人脸的局部矫正，人脸与背景过渡自然，整张画面的透视关系、建筑线条完整保留，无批量矫正冲突。

3. 特殊拍摄模式：虚化（Bokeh）人像模式

手机人像模式会虚化背景、突出人脸，此时人脸畸变会被进一步放大，观感违和。传统做法是通过裁切缩小视场角来规避畸变，本文算法无需裁切，在保留完整广角视野与人像虚化效果的同时，修复面部畸变，优化人像模式成片质量。

三、量化指标：保角代价（Conformality Cost）分析

论文采用学界通用的保角代价（Conformality Cost） 量化透视畸变程度：该指标数值越高，代表图像局部几何畸变越严重。

原始透视投影图像：保角代价从画面中心向四角单调递增，画面边缘与四角畸变显著高于中心；
算法矫正后：人脸区域保角代价大幅下降，畸变被有效消除；降低的畸变代价均匀分散至非人脸背景区域，背景整体视觉无明显变化，直线结构不受影响。
该实验从数据层面证明算法精准实现了畸变的局部转移与消除，而非全局简单形变。

四、高难度挑战案例测试

针对真实拍摄中的复杂干扰项，算法开展极限场景验证，全部取得稳定效果：

人脸遮挡：帽子、墨镜、手臂遮挡面部；
极端姿态：完全侧脸、低头、面部被肢体包裹；
恶劣光照 ：逆光、暗光、低信噪比图像；
以上场景下，算法依托稳定的人脸分割与关键点扩展能力，依旧可以精准定位矫正区域，输出无伪影的自然结果。

五、多方案对比实验（核心对比模块）

本节将本文算法与传统全局投影算法、经典学术算法、主流商业软件、手机原厂功能四大类方案逐一对比，从视觉效果、功能缺陷、自动化程度三个维度展开分析。

5.1 对比传统全局投影算法

对比对象：球面投影、墨卡托投影、帕尼尼（Pannini）投影（全景、广角图像常用全局矫正方案）

球面/墨卡托投影：虽能修复人脸畸变，但会全局弯曲场景内所有直线（窗框、墙体、栏杆），破坏实景真实感；
帕尼尼投影：对画面角落人脸矫正不足，同时会错误放大画面中心人脸，造成二次畸变；
本文算法：仅局部修改人脸区域，背景直线完整保留，兼顾人脸矫正与场景真实性。

5.2 对比经典学术算法

Zorin和Barr参数化形变算法：可修复人脸几何畸变，但属于全局形变，会扭曲桌椅、显示器、墙面等背景物体；本文采用局部自适应网格，背景物体形态完全不变。
通用网格透视矫正算法：大多需要用户手动标注直线、消失点等约束条件，无法全自动运行，不适配手机即时拍摄的场景；本算法全程自动执行。

5.3 对比主流商业修图软件

Adobe Photoshop 透视变形（Perspective Warp）
纯手动调节控制点，矫正画面角落人脸时，必然改变整张图的透视关系，导致画面中心人物出现新畸变，同时图像边界变得不规则；本文全自动运行，不改变原图整体透视与视场角。
DxO ViewPoint 体积形变矫正
需要用户手动调节矫正强度，本质仍属于全局形变，会扭曲背景建筑、围栏等直线结构，还会造成画面边角内容丢失；本文局部矫正，视场角与画面内容完整保留。

5.4 对比手机原厂畸变矫正功能（三星Galaxy S9+ 脸型矫正）

三星该功能同样主打自动矫正广角人脸畸变，但存在明显缺陷：矫正边缘人脸的同时，会放大画面中心人脸，且扭曲窗框等背景直线；本文算法可保证所有人脸尺寸正常、背景线条笔直，综合效果更优。

六、主观用户调研（User Study）

为模拟普通用户的真实视觉感知，论文开展大规模主观测评，是算法落地可用性的核心佐证：

测评样本 ：从4131张图片中随机抽取1047张，覆盖各类场景、视场角与人物数量；
测评规则：每张图片随机打乱"原图"与"本文算法结果"的左右顺序，由5名测试人员投票，选择"畸变更少、观感更自然"的图片，以多数票作为最终结果；
核心数据
- 本文算法结果获选占比：92.4%，绝大多数用户认为矫正后画面更自然；
- 横向对比全局投影算法：相比球面投影、墨卡托投影、帕尼尼投影，用户偏好本文算法的比例分别为84%、81%、85%；
结论：从人眼视觉感知角度，该算法的畸变矫正效果显著优于传统全局方案。

七、算法现存缺陷与失败案例（客观边界说明）

论文如实记录算法的失效场景与局部瑕疵，对应后续6章节的局限性分析，主要分为四类：

依赖人脸检测与分割
密集大合影中存在极小尺寸人脸时，人脸检测器漏检、分割网络识别失败，漏检人脸无法得到矫正；分割掩码偏差也会引入局部伪影。该问题在测试集中出现7例，占比0.16%。
近人脸区域直线轻微形变
紧贴人脸轮廓的背景直线，可能出现轻微弯曲，属于两种投影平滑过渡带来的小幅副作用。该问题出现6例，占比0.1%。
矫正范围仅限面部
算法仅矫正人脸与头发区域，肩膀、躯干、手臂等部位不做处理。当面部形变修复而肢体依旧保留原始畸变时，头身比例衔接略显违和，但用户普遍仍接受"人脸正常"的最终效果。
特定场景完全不适用
- 印刷在海报、展板上的人像：不属于真实相机透视成像模型，算法会过度/不足矫正；
- 近距离拍摄导致的透视缩短畸变（Foreshortening）：本算法仅解决广角透视畸变，无法处理镜头过近造成的面部畸变。

八、本章总结

鲁棒性：在70°~120°全视场角、多人合影、复杂光照、人脸遮挡等真实场景下均能稳定输出优质结果，适配手机日常拍摄全场景；
技术优势 ：区别于全局形变方案，实现人脸局部矫正+背景直线保真，同时全程自动化、低延迟，契合移动端使用逻辑；
综合表现：无论是量化指标（保角代价）、客观视觉对比，还是大规模用户主观测评，效果均全面超越传统投影、学术算法与主流商业工具；
落地价值：算法兼顾精度与移动端算力，成为手机广角人脸矫正功能的核心技术原型；同时明确了算法边界，为后续优化方向提供依据。

手机里的计算摄影：广角形变校正算法

摘要

引言（Introduction）

1. 应用背景与现状

2. 现存核心痛点

3. 本文方案与优势

4. 论文核心贡献

相关工作（Related Work）

1. 三维投影

2. 镜头畸变

3. 透视畸变处理

4. 内容感知形变

5. 人脸畸变矫正

3 PRELIMINARIES AND OVERVIEW（预备知识与算法总览）

算法整体流程总览

人物掩码分割（Subject Mask Segmentation）

球面投影（Stereographic Projection）核心数学公式

网格定义（Mesh Placement）

朴素方案的缺陷

本节核心逻辑总结

4 LOCAL FACE UNDISTORTION（人脸局部去畸变）

4.1 整体优化目标

4.2 人脸目标能量项 EfE_fEf（核心矫正项）

总人脸能量

单人脸能量 Es,kE_{s,k}Es,k

人脸尺度正则项 λ(Sk)\lambda(S_k)λ(Sk)

4.3 直线弯曲能量项 EbE_bEb（背景保直线约束）

4.4 网格平滑正则项 ErE_rEr

Mesh Boundary Extension（网格边界扩展）

Optimization（整体能量组合与求解）

4.5 Implementation Details（实现细节，算法配套工程说明）

本节核心逻辑总结

5 RESULTS（实验结果与评估）

一、实验数据集与基础实验设定

1. 数据集规模与构成

2. 前置预处理

二、基础矫正效果测试（全视场角通用验证）

1. 不同视场角与画面位置的矫正效果

2. 多人大型合影测试

3. 特殊拍摄模式：虚化（Bokeh）人像模式

三、量化指标：保角代价（Conformality Cost）分析

四、高难度挑战案例测试

五、多方案对比实验（核心对比模块）

5.1 对比传统全局投影算法

5.2 对比经典学术算法

5.3 对比主流商业修图软件

5.4 对比手机原厂畸变矫正功能（三星Galaxy S9+ 脸型矫正）

六、主观用户调研（User Study）

七、算法现存缺陷与失败案例（客观边界说明）

八、本章总结