和TEN、CosyVoice、Rokid一起「组装」你的专属多模态 Agent!丨RTE2024 AI 工坊报名

2024 年 10 月 25 日~26 日,由声网和 RTE 开发者社区联合主办的 RTE2024 第十届实时互联网大会 将在北京·悠唐皇冠假日酒店正式开启!

大会以「AI 爱」为主题,推出覆盖实时互联网全生态的论坛及周边活动共计 20 余场。

这次 RTE 开发者社区为大家准备了一场 RTE 2024 Workshop,与 builders 一起动手构建实时多模态 AI Agent!

00 <一份活动简介>

OpenAI Realtime API 发布,语音 AI 将迎来新一次爆发。AI 的实时语音和视觉互动能力将为我们带来多少新的创意和场景?

现在,让我们快速动手去体验,并实现一种想法。

在这场工作坊,你会接触到平台型开源框架 TEN Framework ,以及使用 TEN 开发的多模态实时互动 AI Agent --- TEN Agent ,并尝试自定义一个实时多模态 Agent。

与此同时,来自 CosyVoice、Rokid 的开发者导师,也会分享在语音生成模型、空间计算在 Agent 搭建的原理和实践。启发你更多想象。

TEN 是市面上第一个兼容了 OpenAI Realtime API 和 RTC 的实时多模态 AI Agent 框架,现在访问 agent.theten.ai 可以立刻体验接入 Realtime API beta 的最新版本 TEN Agent!

无需撰写代码,你就能创建多模态 Agent。当电脑响起 "Voice Agent connected!",你将亲身体验到 AI Agent 的实时对话能力,TEN Agent 能够立即响应你的语音指令,基于视频进行图像理解,并且还能进行网页和天气检索,让你感受到更自然的人机互动体验。

如果你还有口语陪练、儿童故事会、旅游助手等想法,不妨在 TEN 框架下进行自定义,为你的 Agent 赋予新的人设(persona)、音色和功能,即刻探索语音、视频交互的新场景!

现场会设置双重挑战,无论你是想体验多模态 Agent 抑或尝试自己的想法,这里都有适合你的内容。来自 TEN Framework 团队的技术导师们都会在现场为大家答疑。达成基础挑战的伙伴都能拿走我们的开发者奖品,完成进阶挑战更有好礼相赠!

时间: 2024 年 10 月 26 日(周六)14:00-18:00 地点: 北京朝阳悠唐皇冠假日酒店 · 多瑙会议室

即刻扫码报名!仅有三十余席位!本次报名需审核,通过后会邀请大家进入 workshop 专属答疑微信群。

*本 Workshop 门票包含:开发者伴手礼包、当日活动下午茶、大会千人高峰论坛及分论坛免费参与、展区参观体验、大会资料下载。

01 <现场指北针>

13:30-14:00 签到

领取开发者礼包 🎁

14:10-15:00 主题分享

主题分享 1: TEN 开源框架及最佳实践案例 嘉宾:TEN Framework 共同发起者 & RTE 开发者社区布道师 Plutoless

主题分享 2: 快速构建有情感的声音 - CosyVoice 语音生成大模型原理和实践

嘉宾:阿里巴巴通义实验室语音算法专家 吕翔

主题分享 3:

破次元 - Rokid 空间计算和实时 Agent 搭建

嘉宾:Rokid 全球开发者生态负责人 赵维奇

15:00-17:40 现场挑战 动手并随时茶歇补充能量!

17:40-18:00 本场回顾 别忘了兑换对应奖品

10 <对话技术>

  • TEN (Transformative Extensions Network) Framework 是一个平台型开源框架,能够让开发者一站式快速、灵活地搭建属于自己的多模态实时互动 AI Agent,这个框架包括了基于 Rust 语言开发的 all-in-one TEN manager,支持实时互动的多模态标准协议,支持多种编程语言混合使用的 TEN Runtime,用于可视化低代码编排逻辑的 Graph Designer,以及支持社区公开发布、分享的 Extension Store,供开发者在构建 AI Agent 的过程中即插即用地挑选心仪的模块灵活替换。

  • TEN Agent 是一个用 TEN Framework 开发的多模态实时互动的 demo AI Agent,玩家可以通过语音与 LLM 进行交互,还可以通过摄像头和它进行对话,同时也支持基于特定知识库内容回答问题。TEN Agent 完全开源,供社区使用。

11 <Game on!挑战开始>

分享结束后,就正式进入我们的现场创建环节啦!欢迎各位小伙伴参与 RTE 2024 Workshop,这次的主线任务是:

Your Voice/Video Agent has been connected!

基础挑战 在本地把 TEN Agent 跑起来。

(1)与它进行视频/语音对话。 (2)调用 OpenAI Realtime API,与它进行对话。

进阶挑战 通过调试 Graph Designer 或者更改代码实现自定义 Agent。

(1)切换自己喜欢的 LLM 。 (2)修改 LLM 的提示词(Prompt)、开场白(greeting)、温度(temperature)。 (3)切换自己想要的 TTS(TEN Agent 的默认 TTS 是 Azure)。

100 <工欲善其事,必先利其器>

在本场 AI Agent 工作坊中,我们需要现场动手跑通 TEN Agent,为了能让大家现场一秒进入状态,按时完成挑战、获得奖品,建议报名参与的同学提前做好如下软硬件配置:

知识:需要知道科学上网的方式(https + SSH), 会用命令行、git 和 Docker;

需要下载:Docker and Docker Compose 和 NodeJS 18。

报名并审核通过后, 将会邀请大家进入 workshop 专属答疑微信群,提前搞定前序工作,现场专注探索你的实时 AI 场景!

还可参考以下链接:

README 英文:github.com/TEN-framewo...

README 中文:github.com/ten-framewo...

101 <必不可少充电桩>

我们在现场为大家准备了:

丰富的奖品进行兑换,达成基础挑战的伙伴都能领取开发者奖品,完成进阶挑战更有好礼相赠 🎁

以及美味的茶歇 🍰

当然还有必不可少像德芙一样丝滑的网络环境 🗺️

玩得开心!

即刻扫码报名!仅有三十余席位!本次报名需审核,通过后会邀请大家进入 workshop 专属答疑微信群。

*关于我们

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。希望通过社区链接领域内的开发者和生态力量,萌芽更多新技术、新场景,探索实时互动领域的更多可能。不止于纯粹的技术交流,社区相信开发者具备更加丰盈的个体价值,我们会关注行业发展变革、开发者职涯发展、技术创业创新资源,陪跑开发者,共享、共建、共成长。

相关推荐
ZHOU_WUYI3 小时前
3.langchain中的prompt模板 (few shot examples in chat models)
人工智能·langchain·prompt
如若1233 小时前
主要用于图像的颜色提取、替换以及区域修改
人工智能·opencv·计算机视觉
老艾的AI世界4 小时前
AI翻唱神器,一键用你喜欢的歌手翻唱他人的曲目(附下载链接)
人工智能·深度学习·神经网络·机器学习·ai·ai翻唱·ai唱歌·ai歌曲
DK221514 小时前
机器学习系列----关联分析
人工智能·机器学习
Robot2514 小时前
Figure 02迎重大升级!!人形机器人独角兽[Figure AI]商业化加速
人工智能·机器人·微信公众平台
浊酒南街5 小时前
Statsmodels之OLS回归
人工智能·数据挖掘·回归
畅联云平台5 小时前
美畅物联丨智能分析,安全管控:视频汇聚平台助力智慧工地建设
人工智能·物联网
加密新世界5 小时前
优化 Solana 程序
人工智能·算法·计算机视觉
hunteritself6 小时前
ChatGPT高级语音模式正在向Web网页端推出!
人工智能·gpt·chatgpt·openai·语音识别
Che_Che_6 小时前
Cross-Inlining Binary Function Similarity Detection
人工智能·网络安全·gnn·二进制相似度检测