StyleSync 开源部分总结

https://github.com/guanjz20/StyleSync_PyTorch

这个是号称最强的模型. 说百分之99拟合真人. 我们赶紧来学习.

首先权重和训练是不开源的. 我也只能尽可能的根据发布的代码来看能学到什么.

先说结论: 整体跟wav2lip百分之90相似. 都是视频--->图片--->抽取人脸landmark->每个图片根据音频生成新的图片->ffmpeg把图片变成视频即可.

==========首先我们看inference.py
parser.add_argument('--img_size', type=int, default=256)======这里跟wav2lip 的96比变大了. 所以结果demo看得出来明显比wav2lip生成的分辨率高很多
face, affine_matrix = restorer.align_warp_face(img.copy(), lmks3=lmk3_, smooth=True) ==========这里进行了人脸变形.
face = cv2.resize(face, (args.img_size, args.img_size), interpolation=cv2.INTER_CUBIC) 然后人脸resize
然后他还使用了mask
face_masked = face.copy() * img_mask 对人脸以外部分进行了保护.
pred = model(img_batch, mel_batch) # 预测新脸
pred = cv2.resize(pred, (x2 - x1, y2 - y1), interpolation=cv2.INTER_CUBIC) # resize回去
out_img = restorer.restore_img(img, pred, affine_matrix) # 逆仿射把人脸变回去.
#最后ffmpeg写入视频.
总结确实比wav2lip 加入很多细节处理. 预处理和后处理!!!!!可以借鉴!!!!!!!!!!
================stylesync_model.py 下面我们分析这个文件
audioConv2d audio也用了conv计算.
加入了一些噪音好像
mask_n_noise. 后续的有时间看论文再找找有用的吸收洗手.
======================结束======================

相关推荐
GitCode官方4 分钟前
智谱 GLM-5.1 正式开源并上线 AtomGit AI!
人工智能·开源
REDcker12 分钟前
Jenkins 开源 CI/CD 平台概览与版本演进
ci/cd·开源·jenkins
世人万千丶1 小时前
Flutter 框架跨平台鸿蒙开发 - 宠物语言翻译器应用
学习·flutter·华为·开源·harmonyos·鸿蒙
OctShop大型商城源码1 小时前
连锁商城开源_OctShop大型商城系统_零售业数字化转型新引擎
开源·商城源码·连锁商城系统·大型多用户商城系统
Are_You_Okkk_1 小时前
AI原生与外挂的区别:开源知识库的优势及优化方向
大数据·人工智能·开源
提子拌饭1331 小时前
番茄时间管理:鸿蒙Flutter 实现的高效时间管理工具
android·flutter·华为·架构·开源·harmonyos·鸿蒙
提子拌饭1332 小时前
星芒便签:鸿蒙Flutter框架 实现的美观便签应用
flutter·华为·架构·开源·harmonyos·鸿蒙
@不误正业2 小时前
第04章-开源鸿蒙的架构概览
架构·开源·harmonyos
独特的螺狮粉2 小时前
开源鸿蒙跨平台Flutter开发:近视防控数字疗法:基于 Flutter 的眼动物理追踪与睫状肌动力学舒缓测绘架构
flutter·华为·架构·开源·harmonyos·鸿蒙
世人万千丶2 小时前
Flutter 框架跨平台鸿蒙开发 - 家庭健康档案云应用
学习·flutter·华为·开源·harmonyos·鸿蒙