各位开发者期待已久的 LiveTalking 2.0 终于在 GitHub 正式发布啦!🎉
本次 v2.0 版本的更新,不是简单的小修小补,而是一次**"伤筋动骨"的底层代码大重构**。在这个版本中,我们听取了社区大量的反馈,将整个项目的扩展性、代码规范性和接入自由度提升到了一个全新的高度。
如果你一直关注并使用 LiveTalking,那么这次更新的"硬核"技术点,绝对不容错过!👇
🧩 01. 万物皆可 Plugin:数字人模型与语音的插件化接入
随着开源生态的发展,越来越多样化的 AI 引擎涌现。为了让大家能以最低成本接入自己喜欢的模型,我们在 2.0 版本中抛弃了原来强耦合的调用方式。
数字人重构为插件化 (Plugin) 系统 :
现在,无论是核心的数字人模型 、TTS 语音合成 ,还是后端的媒体流传输方式 ,全部都改为了按需配置的 Plugin 方式接入 。
这意味着,你可以像搭积木一样,轻松拔插不同的 TTS 和虚拟人引擎,而无需对主流程代码进行破坏性修改!
🏗 02. 代码结构的"断舍离"与"抽象封装"
为了让二次开发更加顺畅,我们对项目的目录结构进行了一次彻底的梳理与收纳:
-
统一核心底座 (
BaseAvatar&BaseAsr)在早期的版本中,各个模型的代码往往有大量重复。本次更新,我们将 数字人推理 和 面部回贴 的公共基础代码统一收拢到了
BaseAvatar基类中;同样,音频特征的切分逻辑也一并整合到了BaseAsr中。现在,各个新模型只需要关注并实现自己最核心的特有逻辑即可! 开发一款新模型插件的代码量大幅下降。 -
聚合专属模型目录 (
avatars)原先分散的数字人模型逻辑和音频特征分析代码,现在被干净利落地迁移到了
avatars目录下。项目工程结构一目了然。
📡 03. 流媒体再进化:独立 streamout 与 RTMP 加持
一直以来,数字人渲染后的画面如何顺滑、快速地推流出去,都是部署到直播环境时的痛点所在。
在 2.0 版本中,我们将传输方式彻底抽离成了并列的单独类 ,放置于专属的 streamout 目录下进行隔离管理。更令人振奋的是,本次更新原生地加入了社区呼声极高的 RTMP 输出支持 !
从此,使用 LiveTalking 对接 B站、抖音、视频号或是自定义直播流媒体服务器,将变得前所未有的丝滑。
🗣 04. 语音新干将:新增阿里云 QwenTTS
除了架构上的全面重构,我们在业务侧也持续引入优秀的生态力量。
本次 v2.0 更新正式加入了对阿里云通义千问 QwenTTS 的支持!强大的大模型驱动语音生成,将为数字人的拟真度和情感表达带来更加惊艳的效果。
🗺 总结与架构全景概览
如果说 v1.x 版本证明了 LiveTalking 的跑通能力,那么 v2.0 则标志着它正在向一个扩展性极强、架构高度规范的开源数字人框架平台迈进。
从底层抽象 BaseAvatar 到顶层 streamout,再到灵活的 Plugin 插件机制,这一切都为了让开发者能以更低的门槛,打造属于自己的定制化全双工 AI 交互数字人。
✨ 快速体验与升级指南:
欢迎前往 GitHub 仓库获取最新的代码!
🔗 项目地址 :https://github.com/lipku/LiveTalking
🔗 国内镜像 :https://gitee.com/lipku/LiveTalking
你的每一个 ⭐️ Star 都是对开源最大的鼓励。如果你在升级或使用中遇到任何问题,欢迎随时在 Issue 区或者社区群找我们交流!咱们下个版本见!👋