全模态

【Audio】Audio encoder相关BenchmarkHEAR 的目标就是评估“什么 audio embedding 能泛化到多种下游音频任务”，覆盖 speech、environmental sound、music，并且是 NeurIPS 2021 shared challenge 发展出来的 benchmark。

AI研究-129 Qwen2.5-Omni-7B 要点：显存、上下文、并发与成本Qwen2.5-Omni目前开源提供的是7亿参数（7B）版本。相对于GPT-4等数千亿参数的闭源模型，7B的规模非常小巧，这带来了低资源占用和易部署的优势。在FP16精度下模型权重约需14GB显存，使用INT4量化后可压缩到<4GB，使普通PC甚至高端手机都有能力运行。

示申○言舌

实时问答数字人现在数字人挺火的，这两天研究了一阵子，先将所得记录和总结一下，如果这篇文章能够帮到你，那就更好了。目前数字人大概分为两种，第一种是非实时的，本质上就是视频生成，有文生视频、图生视频还有参考视频生视频，这种比较适合直播，还有做视频的UP主，这种在我看来不太符合我的研究方向，懒得研究它。另一种，就是实时性的了，本文重点研究这种类型的。

我是有底线的