第九届信也科技杯全球AI算法大赛——语音深度鉴伪识别参赛A榜 0.968961分

遗憾没有进复赛,只是第41名。先贴个A榜的成绩。A榜的前三十名晋级,个个都是99分的大佬,但是B榜的成绩就有点低了,应该是数据不同源的问题,第一名0.78分。官网链接:语音深度鉴伪识别

官方baselin:https://github.com/xinyebei/2024_finvcup_baseline
baseline源码:https://github.com/xieyuankun/Codecfake
实验的 源码:https://github.com/Shybert-AI/Codecfake_ResNet
任务描述:

简单的说一下本次比赛方案的想法,首先明确是语音深度鉴伪识别任务,于是发动互联网的强大的搜索功能,尽可能多的搜索到更多的语音深度鉴伪识别算法。也相应的搜索对应的数据集,在看到此帖子[深度伪造音频普遍检测的Codecfake数据集和对策],同时在github上找到相应的源码,因此方案基于Codecfake进行。通过将网络结构修改成ResNet等实验,提出Codecfake_ResNet模型,让语音鉴别模型的分类指标达到0.968961。(https://blog.csdn.net/robinfang2019/article/details/138673202)

模型架构:
训练步骤:

python 复制代码
1.下载finvcup9th_1st_ds5数据集,解压到data目录下
2.执行data_prepare.py 脚本生成训练的csv文件,修改finvcup9th_1st_ds5_valid_data.csv为finvcup9th_1st_ds5_dev_data.csv
python data_prepare.py
3.执行提取特征文件
python preprocess.py 
4.训练
python main_train.py  --path_to_features preprocess_xls-r-5  -f1 preprocess_xls-r-5 --out_fold ./pretrained_model/codec_w2v2aasist_ResNet50_CSAM_xls-r-5_300m/ --CSAM True --train_task codecfake  --num_epochs 50  --batch_size 16 --lr 0.001  --gpu 0   --seed  2024   --num_workers 1
5.预测
python predict.py

实验结果:

通过实验分析提升网络的层数和多模型融合可以提升。

相关推荐
martinzh12 分钟前
提示词工程师到底是干什么的?
人工智能
Coovally AI模型快速验证15 分钟前
SOD-YOLO:基于YOLO的无人机图像小目标检测增强方法
人工智能·yolo·目标检测·机器学习·计算机视觉·目标跟踪·无人机
黎燃16 分钟前
无人机+AI:精准农业的“降维打击”实践
人工智能
茫茫人海一粒沙18 分钟前
RAG 分块中表格填补简明示例:Markdown、HTML、Excel、Doc
人工智能
爱喝奶茶的企鹅27 分钟前
Ethan开发者创新项目日报 | 2025-08-18
人工智能
却道天凉_好个秋27 分钟前
计算机视觉(一):nvidia与cuda介绍
人工智能·计算机视觉
爱喝奶茶的企鹅41 分钟前
Ethan独立开发新品速递 | 2025-08-18
人工智能·程序员·开源
七夜zippoe41 分钟前
如何使用 AI 大语言模型解决生活中的实际小事情?
人工智能·语言模型·生活
算家计算1 小时前
一行命令,玩转所有主流音视频格式!一站式音视频处理工具——FFmpeg本地部署教程
人工智能
AAA修煤气灶刘哥1 小时前
Java+AI 驱动的体检报告智能解析:从 PDF 提取到数据落地全指南
java·人工智能·后端