AI数字人模拟面试机器人

该项目使用微软Azure技术 文本转语音头像与实时合成配合使用,在对话框中输入答案,数字人会根据答案生成评价和评分。

Azure语音提供用户生成支持的应用程序的API:
语音转文本 :语音识别API,应用程序接受语音输入;
文本转语言 :语音合成API,应用程序提供语音输出;
语音翻译 :将口语输入翻译为多种语言的API
关键字识别 :应用程序能够识别关键字或 短语的API
意向识别:使用的对话语言理解来确定口语输入的语义含义的API

思路

用户--->生成回答(文字)----->服务器(基于大模型建)------>输出并抛出下一个疑问------>对等连接(webRTC)

WebRTC入门指南:什么是WebRTC?核心原理、组件、应用场景

WebRTC(Web 实时通信)是一项强大的技术,其核心目标是使 Web
应用程序
站点 能够捕获和选择性地流式传输 音频或视频媒体,以及在浏览器之间交换任意数据,而无需中间件。它允许网络应用或站点,在不借助中间媒介的情况下,建立浏览器之间点对点(Peer-to-Peer)的连接 ,实现视频流和(或)音频流或者其他任意数据的传输 。WebRTC是一个免费的开放项目,通过简单的 API 为浏览器和移动应用程序提供实时通信(RTC)功能,并由 Google 在 2011 年将其开源。

(今天太晚了,忍不住了,眼睛睁不开了,明天接着写)

相关推荐
冬奇Lab9 小时前
Agent 系列(一):Agent 是什么——不只是「会调工具的 LLM」
人工智能·llm·agent
冬奇Lab9 小时前
RAG 系列(二十四):代码 RAG——让 AI 理解你的代码库
人工智能·llm
南屹川9 小时前
【算法】动态规划实战:从入门到精通
人工智能
人工智能培训10 小时前
大模型与传统小模型、传统NLP模型的核心差异解析
人工智能·深度学习·神经网络·机器学习·生成对抗网络
沪漂阿龙10 小时前
面试题详解:智能客服 Agent 系统全栈拆解——Rasa Pro、对话管理、意图识别、GraphRAG、Qwen 与 RAG 优化实战
人工智能·架构
薛定猫AI10 小时前
【深度解析】Gemini Omni 多模态生成与 Agent 化创作工作流:从视频编辑到 UI 生成的技术演进
人工智能·ui·音视频
羊羊小栈10 小时前
AI赋能电力巡检:智能故障预警系统
人工智能·yolo·目标检测·毕业设计·大作业
Python私教10 小时前
视觉 Agent 爬取 vs Playwright 脚本:Browser Use 2026 选型表
人工智能
Python私教10 小时前
Crawlee StagehandCrawler:自然语言点 Load More 的工程化爬虫
人工智能
南屹川10 小时前
【容器化】Docker实战:从入门到生产环境部署
人工智能