LiveTalking 2.0 发布:重构数字人底层架构,全面拥抱插件化!

各位开发者期待已久的 LiveTalking 2.0 终于在 GitHub 正式发布啦!🎉

本次 v2.0 版本的更新,不是简单的小修小补,而是一次**"伤筋动骨"的底层代码大重构**。在这个版本中,我们听取了社区大量的反馈,将整个项目的扩展性、代码规范性和接入自由度提升到了一个全新的高度。

如果你一直关注并使用 LiveTalking,那么这次更新的"硬核"技术点,绝对不容错过!👇


🧩 01. 万物皆可 Plugin:数字人模型与语音的插件化接入

随着开源生态的发展,越来越多样化的 AI 引擎涌现。为了让大家能以最低成本接入自己喜欢的模型,我们在 2.0 版本中抛弃了原来强耦合的调用方式。

数字人重构为插件化 (Plugin) 系统

现在,无论是核心的数字人模型TTS 语音合成 ,还是后端的媒体流传输方式 ,全部都改为了按需配置的 Plugin 方式接入

这意味着,你可以像搭积木一样,轻松拔插不同的 TTS 和虚拟人引擎,而无需对主流程代码进行破坏性修改!


🏗 02. 代码结构的"断舍离"与"抽象封装"

为了让二次开发更加顺畅,我们对项目的目录结构进行了一次彻底的梳理与收纳:

  • 统一核心底座 (BaseAvatar & BaseAsr)

    在早期的版本中,各个模型的代码往往有大量重复。本次更新,我们将 数字人推理面部回贴 的公共基础代码统一收拢到了 BaseAvatar 基类中;同样,音频特征的切分逻辑也一并整合到了 BaseAsr 中。现在,各个新模型只需要关注并实现自己最核心的特有逻辑即可! 开发一款新模型插件的代码量大幅下降。

  • 聚合专属模型目录 (avatars)

    原先分散的数字人模型逻辑和音频特征分析代码,现在被干净利落地迁移到了 avatars 目录下。项目工程结构一目了然。


📡 03. 流媒体再进化:独立 streamout 与 RTMP 加持

一直以来,数字人渲染后的画面如何顺滑、快速地推流出去,都是部署到直播环境时的痛点所在。

在 2.0 版本中,我们将传输方式彻底抽离成了并列的单独类 ,放置于专属的 streamout 目录下进行隔离管理。更令人振奋的是,本次更新原生地加入了社区呼声极高的 RTMP 输出支持

从此,使用 LiveTalking 对接 B站、抖音、视频号或是自定义直播流媒体服务器,将变得前所未有的丝滑。


🗣 04. 语音新干将:新增阿里云 QwenTTS

除了架构上的全面重构,我们在业务侧也持续引入优秀的生态力量。

本次 v2.0 更新正式加入了对阿里云通义千问 QwenTTS 的支持!强大的大模型驱动语音生成,将为数字人的拟真度和情感表达带来更加惊艳的效果。


🗺 总结与架构全景概览

如果说 v1.x 版本证明了 LiveTalking 的跑通能力,那么 v2.0 则标志着它正在向一个扩展性极强、架构高度规范的开源数字人框架平台迈进。

从底层抽象 BaseAvatar 到顶层 streamout,再到灵活的 Plugin 插件机制,这一切都为了让开发者能以更低的门槛,打造属于自己的定制化全双工 AI 交互数字人。

✨ 快速体验与升级指南:

欢迎前往 GitHub 仓库获取最新的代码!

🔗 项目地址https://github.com/lipku/LiveTalking

🔗 国内镜像https://gitee.com/lipku/LiveTalking

你的每一个 ⭐️ Star 都是对开源最大的鼓励。如果你在升级或使用中遇到任何问题,欢迎随时在 Issue 区或者社区群找我们交流!咱们下个版本见!👋

相关推荐
IvorySQL2 小时前
PostgreSQL & IvorySQL 技术交流 Meetup・郑州站| 4.18 线下开讲,只聊硬核技术
数据库·postgresql·开源
独特的螺狮粉3 小时前
开源鸿蒙跨平台Flutter开发:基于 CustomPaint 的高刷心电图 (ECG) 渲染引擎设计-临床体征实时监测终端
flutter·开源·harmonyos
FlDmr4i284 小时前
Aspire 开发者控制平面 (DCP) 开源
平面·开源
DoUfp0bgq4 小时前
Admin.NET开源版微服务改造记录
微服务·开源·.net
推理幻觉4 小时前
Codex / OpenCode / Cursor / OpenClaw 对比指南
人工智能·开源·codex
2301_822703205 小时前
开源鸿蒙跨平台Flutter开发:基因序列比对基础:Needleman-Wunsch 算法的 Dart 实现
算法·flutter·开源·鸿蒙
Hommy885 小时前
【开源剪映小助手-客户端】前端界面设计
前端·开源·github
取码网5 小时前
最新全开源礼品代发系统源码_电商快递代发_一件代发系统
开源·php
今夕资源网5 小时前
音谷 - AI 多角色多情绪配音平台 github开源的多角色、多情绪 AI 配音生成平台,支持小说、剧本、视频等内容的自动配音与导出。
人工智能·开源·github