人工智能应用和智能体中的语音功能,使用户能够通过口语与之交互。
语音识别
用户语音输入转为文本的示意图。
语音识别是人工智能"听懂"并解读语音的能力。通常以语音转文本的形式呈现(即将语音的音频信号转录为文本)。
语音合成
文本转化为可听语音的示意图。
语音合成是人工智能将文字转化为口语表达的能力。通常以文本转语音的形式实现,即将文本信息转换为可听声音信号。
人工智能语音技术正快速发展,以应对消除背景噪音、检测中断、生成更具表现力且更接近人类声音等挑战。
人工智能语音应用场景
人工智能语音技术的常见应用包括:
能够理解语音输入、执行任务并以语音反馈结果的人工智能助手。
电话或会议的自动转录。
视频或文本的自动音频描述。
语言间的自动语音翻译。