AI数字人模拟面试机器人

.Katherine௰2026-02-08 17:03

该项目使用微软Azure技术文本转语音头像与实时合成配合使用，在对话框中输入答案，数字人会根据答案生成评价和评分。

Azure语音提供用户生成支持的应用程序的API:
语音转文本 ：语音识别API，应用程序接受语音输入；
文本转语言 ：语音合成API，应用程序提供语音输出；
语音翻译 ：将口语输入翻译为多种语言的API
关键字识别 ：应用程序能够识别关键字或短短语的API
意向识别：使用的对话语言理解来确定口语输入的语义含义的API

思路

用户--->生成回答（文字）----->服务器（基于大模型建）------>输出并抛出下一个疑问------>对等连接（webRTC）

WebRTC入门指南：什么是WebRTC？核心原理、组件、应用场景

WebRTC（Web 实时通信）是一项强大的技术，其核心目标是使 Web
应用程序和站点能够捕获和选择性地流式传输 音频或视频媒体，以及在浏览器之间交换任意数据，而无需中间件。它允许网络应用或站点，在不借助中间媒介的情况下，建立浏览器之间点对点（Peer-to-Peer）的连接 ，实现视频流和（或）音频流或者其他任意数据的传输 。WebRTC是一个免费的开放项目，通过简单的 API 为浏览器和移动应用程序提供实时通信（RTC）功能，并由 Google 在 2011 年将其开源。

（今天太晚了，忍不住了，眼睛睁不开了，明天接着写）