机器人交互新纪元:讯飞星火大模型引领升级浪潮

放眼全球,大模型浪潮从前沿话题到规模落地,传统计划和商业模式正在"重构"。依托大模型的持续迭代与快速升级,从文本生成、图像生成乃至视频生成,AI不断改变工作本质,为产业发展注入"超能量"。

当众多行业还在探索大模型接入时,机器人行业已率先迭代,特别是在人形机器人领域。微软、亚马逊、谷歌、智元机器人、优必选、宇树等科技公司纷纷入局,马斯克公布了大模型加持的Optimus(擎天柱)第二代机器人,OpenAI则与人形机器人初创公司Figure合作推出了Figure 01机器人。
(图片由讯飞星火生成)

过去,语音识别、计算机视觉、自然语言理解等智能技术,推动机器人在多领域成为市场"宠儿"。2030年全球机器人市场规模将达到1600亿至2600亿美元。大模型时代,机器人行业迎来全新的发展机遇,新一代人机交互与具身智能正在重新定义!

机器人运动能力大幅提升 交互和脑力升级亟待突破

从1927年美国西屋造出第一台人形机器人Televox,到AlphaGo击败人类棋手成为第一个战胜围棋世界冠军的机器人,再到波士顿动力的机器人能够流畅奔跑、倒立、跳马甚至跳舞,机器人在智慧和运动上的能力持续突破。

然而,与科幻电影中呈现的全能机器人相比,现实中的机器人仍有很大的差距。在我们所处的物理现实世界里,机器人更接近于一种可编程的特定用途设备,在实现"听得清、听得懂、有温度的交流"方面,它们的表现尚未达到理想水准

多模态感知和行为决策构成了机器人的关键技能。然而,在与这些机器进行交互时,用户常常面临这样的挑战:

**复杂环境下的机器人交互挑战:**在医院、商场、地铁这样的繁忙公共场所中,用声音与机器人沟通往往伴随着识别错误。例如,当你在地铁里请求"购买一张到大东门的票",嘈杂的环境可能会干扰机器的听力,导致它难以立即准确回应,有时你甚至需要多次重复指令。

▲ 复杂环境下,人机交互容易出现语音识别错误

自由解释意图和计划行动的挑战:很多机器人搭载了简单的聊天功能,能应对诸如"北京有哪些旅游景点?"或"讲个笑话"等简单查询。但当问题稍微复杂,比如提出"如何安排五一假期三天游北京?"时,机器人可能就无法正确理解,并有可能给出错误或完全不相关的答复,后续更无法执行正确的行动。

最后是对于更贴近人类情感的需求:传统机器人通常仅能提供基于预设程序的标准响应,其语调听起来生硬且缺乏感情。由于它们难以捕捉人类语音中的情绪变化,有时会造成不合时宜的情况,比如在你悲伤时试图开玩笑,这限制了它们在情感上与人产生共鸣的能力。

如何让机器人能在更复杂场景下执行任务,更好地理解我们,满足我们的需求?大模型在自然语言连续对话、通识理解、少样本/零样本学习等能力的突破,带来了曙光。

大模型加持机器人超脑平台 为机器人注入"灵魂"

2022科大讯飞全球1024开发者节上,讯飞正式发布了讯飞机器人超脑平台。机器人超脑平台是以"讯飞超脑2030"技术为底座,面向物理世界、虚拟世界和元宇宙,以AI能力星云、多模态交互、大模型、模型训练、资产生成和软硬件接入为核心的机器人开发平台,帮助开发者快速搭建多场景适配、具有深厚知识底蕴以及擅长自我进化的实体机器人和虚拟数字人产品。

面对功能更多样、任务更专业、交互更自然、决策更智能的挑战,讯飞机器人超脑平台再次升级,全面接入讯飞星火认知大模型,从终端多模态交互和大模型理解决策两个方面出发,构建面向机器人的新交互,赋能机器人发展进入到一个全新的阶段

▲ 接入星火大模型的讯飞机器人超脑平台

**视听融合的感知交互:**平台融合了语音、视觉、语义等多个维度的信息,定义了包含开启交互、交互保持、切换交互权和结束交互在内的机器人交互新范式。升级麦克风阵列算法,融合人脸和唇形信息,使得机器人能够在嘈杂、高噪场景下精准拾音,利用语音大模型和超拟人合成使机器人聊天更有生命力,能够模拟人对话情况下的思考停顿,声音复刻和高表现力的语音合成能够提升机器人对话的感染力。
▲视听融合的感知交互可以在嘈杂环境下精准拾音

基于大模型的机器人交互大脑:以星火大模型为基础,实现控制级指令、官方技能、核心业务功能、快速知识问答、闲聊陪伴的多交互场景的统一。通过设计多风格多情感的AI人设,让每一个机器人都与众不同。整个体验会变得非常自然,像和身边的朋友交流一样,提供给我们更多的情绪价值。

▲人形机器人准确执行具体指令

将认知智能、运动智能和具身智能的多模态感知能力相结合,讯飞机器人超脑平台已为工业、教育、服务、特种等领域398家企业提供了服务。

2023科大讯飞全球1024开发者节上,科大讯飞董事长刘庆峰表示,下一步讯飞将以人形机器人为牵引,来推动'视觉-语言-动作'多模态具身大模型,能够更好地赋能人形机器人。

"星河行动"开启 打造机器人交互新纪元

2021年12月,《"十四五"机器人产业发展规划》明确了机器人产业规划的重大意义并提出了机器人产业规划的目标,将中国机器人产业再一次推向新的高度。

机器人产业的发展离不开整个生态。现在,讯飞开放平台联合讯飞创投正式启动"星河行动",面向机器人领域招募生态合作伙伴,与讯飞共建机器人产业生态。通过前沿大模型计划与机器人产业的融合,共同建立机器人交互领域全新里程碑。

讯飞创投是秉持"产业+技术+资本"的投资理念,专注于人工智能相关领域的创投平台,管理超20亿元创投基金。主要投资对象为中早期技术驱动型的优质创业公司,已先后投资了商汤科技、寒武纪、优必选、主线科技等优秀独角兽公司。

面对机器人产业变革升级的新时代,欢迎与讯飞携手一起探索人机协同的无限可能。

相关推荐
martian66510 分钟前
【人工智能数学基础篇】——深入详解多变量微积分:在机器学习模型中优化损失函数时应用
人工智能·机器学习·微积分·数学基础
人机与认知实验室1 小时前
人、机、环境中各有其神经网络系统
人工智能·深度学习·神经网络·机器学习
黑色叉腰丶大魔王1 小时前
基于 MATLAB 的图像增强技术分享
图像处理·人工智能·计算机视觉
迅易科技4 小时前
借助腾讯云质检平台的新范式,做工业制造企业质检的“AI慧眼”
人工智能·视觉检测·制造
古希腊掌管学习的神5 小时前
[机器学习]XGBoost(3)——确定树的结构
人工智能·机器学习
ZHOU_WUYI6 小时前
4.metagpt中的软件公司智能体 (ProjectManager 角色)
人工智能·metagpt
靴子学长6 小时前
基于字节大模型的论文翻译(含免费源码)
人工智能·深度学习·nlp
AI_NEW_COME7 小时前
知识库管理系统可扩展性深度测评
人工智能
海棠AI实验室7 小时前
AI的进阶之路:从机器学习到深度学习的演变(一)
人工智能·深度学习·机器学习
hunteritself7 小时前
AI Weekly『12月16-22日』:OpenAI公布o3,谷歌发布首个推理模型,GitHub Copilot免费版上线!
人工智能·gpt·chatgpt·github·openai·copilot