AI应用图文解说--百度智能云实现语音聊天

文章的目的为了记录AI应用学习的经历,降低AI的入门难度。同时记录开发流程和要点有些记忆模糊,防止忘记。也希望可以给看到文章的朋友带来一些收获。

相关链接:

开源 C# .net mvc 开发(一)WEB搭建_c#部署web程序-CSDN博客

开源 C# .net mvc 开发(二)网站快速搭建_c#网站开发-CSDN博客

开源 C# .net mvc 开发(三)WEB内外网访问-CSDN博客

开源 C# .net mvc 开发(四)工程结构、页面提交以及显示-CSDN博客

开源 C# .net mvc 开发(五)常用代码快速开发_c# mvc开发-CSDN博客

开源 C# .net mvc 开发(六)发送邮件、定时以及CMD编程-CSDN博客

开源 C# .net mvc 开发(七)动态图片、动态表格和json数据生成-CSDN博客

开源 C# .net mvc 开发(八)IIS Express轻量化Web服务器的配置和使用-CSDN博客

推荐链接:

开源 java android app 开发(一)开发环境的搭建-CSDN博客

开源 java android app 开发(二)工程文件结构-CSDN博客

开源 java android app 开发(三)GUI界面布局和常用组件-CSDN博客

开源 java android app 开发(四)GUI界面重要组件-CSDN博客

开源 java android app 开发(五)文件和数据库存储-CSDN博客

开源 java android app 开发(六)多媒体使用-CSDN博客

开源 java android app 开发(七)通讯之Tcp和Http-CSDN博客

开源 java android app 开发(八)通讯之Mqtt和Ble-CSDN博客

开源 java android app 开发(九)后台之线程和服务-CSDN博客

开源 java android app 开发(十)广播机制-CSDN博客

开源 java android app 开发(十一)调试、发布-CSDN博客

开源 java android app 开发(十二)封库.aar-CSDN博客

开源 java android app 开发(十三)绘图定义控件、摇杆控件的制作-CSDN博客

人工智能(AI)在多个领域发挥着重要作用,最典型最常见的就是语音识别聊天功能。文章是为了记录本人的AI应用的初次体验,同时希望可以带给大家AI应用快速入门的方法,实现0到1的突破,提高学习的小路,尽量用图文的方式来描述,在文中也有代码的链接,已经经过验证可以直接使用。

本章的主要内容是:通过百度智能云实现语音聊天功能,主要会用到它的语音识别(ASR)、语音合成(TTS),并结合大语言模型(如文心一言)来生成回复

目录:

1.流程和使用

2.ASR、TTS、千帆APP builer 注册和使用

3.各项成本

一、流程和使用

1.1 准备阶段

注册百度智能云 ,创建应用 , 配置认证信息

1.2 核心功能

语音识别 (ASR) 录制或读取音频 → 调用识别接口 → 获取文本 需注意音频格式(如wav)、采样率(16000Hz)18

文本处理与对话生成 将识别文本发送至大模型 → 获取回复文本 需调用大模型(如文心一言)的API2

语音合成 (TTS) 将回复文本 + 参数 → 调用合成接口 → 生成音频 可调整语速、音调、发音人等参数12

1.3 集成与交互

流程串联与交互逻辑 将上述三个核心模块按顺序连接 可加入循环实现连续对话

音频播放 播放合成后的音频文件 可使用 pygame 等库4

1.4 优化与成本

成本控制 关注语音识别/合成调用次数及大模型Token消耗 新人通常有免费额度2

体验优化 调整语音参数、处理网络异常、添加唤醒词等 提升应用可用性和用户体验

二、ASR、TTS、千帆APP builer 注册和使用

登录网址

复制代码
https://login.bce.baidu.com/

语音识别、语音合成、千帆大模型需分别开通

2.1 语音识别注册和使用

选择开通付费,默认赠送10小时流量,不购买资源

实名认证后获取 API Key 和 Secret Key

获得测试音频文件

进入示例代码中心进行调试

上传测试音频后实现效果

详细源码参考网址

开源 python 应用 开发(十一)AI应用--百度智能云ASR短语音转文本-CSDN博客

2.2 语音合成注册和使用

进入实例中心

使用实例代码进行调试

详细源码参考网址

开源 python 应用 开发(十三)AI应用--百度智能云TTS语音合成-CSDN博客

2.3 聊天模型的创建和使用

设置agent的名字和类型,并生成。

进行生成

简单调试

发布

官方的API代码调试

源码详细参考网址

开源 python 应用 开发(十一)AI应用--百度智能云ASR短语音转文本-CSDN博客

三、成本介绍

3.1 语音识别价格

3.2 语音合成的价格

3.3 千帆AppBuiler的免费资源