StyleSync 开源部分总结

https://github.com/guanjz20/StyleSync_PyTorch

这个是号称最强的模型. 说百分之99拟合真人. 我们赶紧来学习.

首先权重和训练是不开源的. 我也只能尽可能的根据发布的代码来看能学到什么.

先说结论: 整体跟wav2lip百分之90相似. 都是视频--->图片--->抽取人脸landmark->每个图片根据音频生成新的图片->ffmpeg把图片变成视频即可.

==========首先我们看inference.py
parser.add_argument('--img_size', type=int, default=256)======这里跟wav2lip 的96比变大了. 所以结果demo看得出来明显比wav2lip生成的分辨率高很多
face, affine_matrix = restorer.align_warp_face(img.copy(), lmks3=lmk3_, smooth=True) ==========这里进行了人脸变形.
face = cv2.resize(face, (args.img_size, args.img_size), interpolation=cv2.INTER_CUBIC) 然后人脸resize
然后他还使用了mask
face_masked = face.copy() * img_mask 对人脸以外部分进行了保护.
pred = model(img_batch, mel_batch) # 预测新脸
pred = cv2.resize(pred, (x2 - x1, y2 - y1), interpolation=cv2.INTER_CUBIC) # resize回去
out_img = restorer.restore_img(img, pred, affine_matrix) # 逆仿射把人脸变回去.
#最后ffmpeg写入视频.
总结确实比wav2lip 加入很多细节处理. 预处理和后处理!!!!!可以借鉴!!!!!!!!!!
================stylesync_model.py 下面我们分析这个文件
audioConv2d audio也用了conv计算.
加入了一些噪音好像
mask_n_noise. 后续的有时间看论文再找找有用的吸收洗手.
======================结束======================

相关推荐
AscendKing8 小时前
开源白板工具(SaaS),一体化白板,包含思维导图、流程图、自由画等
开源·流程图·好好学电脑·hhxdn.com
软件供应链安全指南10 小时前
悬镜安全源鉴SCA(软件成分分析)产品,开源商业化成果获肯定
开源
ajassi200011 小时前
开源 Objective-C IOS 应用开发(五)iOS操作(action)和输出口(Outlet)
ios·开源·objective-c
CloudWeGo12 小时前
提升流式开发效率与易用性:Kitex/Hertz 为大模型应用保驾护航
开源
NocoBase12 小时前
7 款最佳自托管 AI 工具,快速构建业务应用
低代码·开源·资讯
CloudWeGo12 小时前
用 Eino ADK 构建你的第一个 AI 智能体:从 Excel Agent 实战开始
人工智能·开源·github
m0_6501082413 小时前
MiniGPT-4:解锁 LLM 驱动的高级视觉语言能力
论文阅读·开源·视觉语言大模型·minigpt-4·跨模态对齐·强llm+视觉对齐
GitCode官方14 小时前
创意无限·开源共赢|2025「卡赢杯」开源游戏开发大赛正式启动!
游戏·开源
weixin_3776348414 小时前
【开源-AgentRL】创新强化学习 多项任务超闭源模型
开源·强化学习
百***468014 小时前
IoT DC3 是一个基于 Spring Cloud 的开源的、分布式的物联网(IoT)平台本地部署步骤
物联网·spring cloud·开源