StyleSync 开源部分总结

https://github.com/guanjz20/StyleSync_PyTorch

这个是号称最强的模型. 说百分之99拟合真人. 我们赶紧来学习.

首先权重和训练是不开源的. 我也只能尽可能的根据发布的代码来看能学到什么.

先说结论: 整体跟wav2lip百分之90相似. 都是视频--->图片--->抽取人脸landmark->每个图片根据音频生成新的图片->ffmpeg把图片变成视频即可.

==========首先我们看inference.py
parser.add_argument('--img_size', type=int, default=256)======这里跟wav2lip 的96比变大了. 所以结果demo看得出来明显比wav2lip生成的分辨率高很多
face, affine_matrix = restorer.align_warp_face(img.copy(), lmks3=lmk3_, smooth=True) ==========这里进行了人脸变形.
face = cv2.resize(face, (args.img_size, args.img_size), interpolation=cv2.INTER_CUBIC) 然后人脸resize
然后他还使用了mask
face_masked = face.copy() * img_mask 对人脸以外部分进行了保护.
pred = model(img_batch, mel_batch) # 预测新脸
pred = cv2.resize(pred, (x2 - x1, y2 - y1), interpolation=cv2.INTER_CUBIC) # resize回去
out_img = restorer.restore_img(img, pred, affine_matrix) # 逆仿射把人脸变回去.
#最后ffmpeg写入视频.
总结确实比wav2lip 加入很多细节处理. 预处理和后处理!!!!!可以借鉴!!!!!!!!!!
================stylesync_model.py 下面我们分析这个文件
audioConv2d audio也用了conv计算.
加入了一些噪音好像
mask_n_noise. 后续的有时间看论文再找找有用的吸收洗手.
======================结束======================

相关推荐
我们的五年12 分钟前
MySQL 架构
数据库·mysql·开源
CCF ODC1 小时前
2025年第一期 | CCF ODC《开源战略动态月报》
开源
從南走到北2 小时前
挪车小程序挪车二维码php+uniapp
微信小程序·小程序·开源·微信公众平台
ObjectX前端实验室6 小时前
个人网站开发记录-引流公众号 & 谷歌分析 & 谷歌广告 & GTM
前端·程序员·开源
silianpan7 小时前
文档检索服务平台
elasticsearch·搜索引擎·开源
uhakadotcom18 小时前
如何为开源项目做贡献
前端·开源
小白狮ww1 天前
国产超强开源大语言模型 DeepSeek-R1-70B 一键部署教程
人工智能·深度学习·机器学习·语言模型·自然语言处理·开源·deepseek
时光追逐者1 天前
推荐几款开源免费的 .NET MAUI 组件库
microsoft·开源·c#·.net·.net core·maui
kcarly1 天前
Safari 插件开发流程
开源
蚝油菜花1 天前
HealthGPT:你的AI医疗助手上线了:支持X光到病理切片,诊断建议+报告生成全自动
人工智能·开源