2024.11.03 周报

一 实时超分音频同步问题:

处理方向:

  1. 按照胡学长的办法尝试: 前面处理视频, 将视频中音频提取出来, 将音频每隔 1-2 秒保存为一段 (这样将音频缓存在内存中) , 然后依次播放, 但是音频是44.1KHz采样率,每秒44100次的频率. 每次间隔中程序处理的极短时间也会出现不可在这里插入代码片避免的卡顿现象(人耳可以感觉到极短时间的声音卡顿). 底层全部实现的话,确实是需要一定时间.
  2. 查看ffmpeg 和 ffplay文档
    ffplay -i .\1_output_audio.aac -af "adelay=2000|2000" 使用 -af 参数, 应用音频滤镜,达到延迟效果。
    ffmpeg -i .\1.mp4 -itsoffset 2 -i .\1_output_audio.aac -map 0:v -map 1:a -c:v copy -c:a aac output.mp4 使用-itsoffset 2 参数设置输入时间戳的偏移量, 将输入音频流的时间戳延迟 2 秒。
    ffmpeg 解转码延迟, ffplay播放延迟均是一种可行性方案.

实际效果:

1. 离线视频:

实现一段离线360P视频实时超分+音视频同步,可以在康佳进行演示。

2. 视频流:

视频流中音频延迟稳定播放已经解决。我使用摄像头的视频流模拟实际电视视频流, 实现了音频的5秒延迟(可设置延迟时间),详细说明可见以下博文:

https://blog.csdn.net/SZ170110231/article/details/143449223?fromshare=blogdetail&sharetype=blogdetail&sharerId=143449223&sharerefer=PC&sharesource=SZ170110231&sharefrom=from_link

二 环境部署:

  1. 康佳PC机:部署超分环境,conda,python,torch, ffmpeg等。
  2. RK3588重装系统,从零开始部署了全套环境。

下周计划

  1. 板端整套的代码实现,整个演示系统。
  2. 模型推理优化加速。
相关推荐
Clover‘s Blog1 年前
【24.1.19】
周报
工科男小Y1 年前
周报/月报 Prompt
周报·月报