技术栈

多模态语音

阿杰学AI
2 小时前
人工智能·ai·语言模型·自然语言处理·aigc·语音识别·多模态语音
AI核心知识32——大语言模型之多模态语音(简洁且通俗易懂版)多模态语音(Multimodal Voice / Audio) 是指大语言模型不仅能“看懂”文字和图片,还能直接“听懂”声音并“说出”声音的能力。
我是有底线的