Unified-IO 2 模型: 通过视觉、语言、音频和动作扩展自回归多模态模型。给大家提前预演了GPT5?

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

首个自回归的多模态模型,能够理解和生成图像、文本、音频和动作。为了统一不同的模态,将输入和输出------图像、文本、音频、动作、方框等,标记化到一个共享的语义空间中,然后使用单一的编码器-解码器变换模型来处理它们。由于训练如此多样化的模态极其困难,提出了各种架构改进以稳定模型。从零开始训练的模型,在一个大型多模态预训练语料库上进行训练,该语料库来源于多种渠道,使用多模态去噪目标混合。为了学习广泛的技能,比如遵循多模态指令,构建并微调了一个由120个现有数据集组成的集合,其中包括提示和增强。通过单一的统一模型,统一输入输出 2 在 GRIT 基准测试中实现了最先进的性能,并在包括图像生成与理解、文本理解、视频和音频理解以及机器人操控等30多个基准测试中取得了强有力的成绩。

它基于区区70亿参数构建,并经过大量多模态数据的精心训练(包括10亿图像-文本配对、1万亿文本标记,以及大量的视频、图像和3D内容)。在超过35个不同的基准测试中表现出色,统一输入输出 2 不仅仅是人工智能领域的一步,而是一大跃进,展示了多模态训练在理解和生成复杂、跨媒介内容方面的巨大潜力。

所有模型发布给研究社区。

详细的区看看: https://unified-io-2.allenai.org/https://github.com/allenai/unified-io-2

相关推荐
AiTop1003 分钟前
微软VibeVoice-Realtime-0.5B正式上线:实时语音,快到“话未说完音已先到”!
人工智能·语音识别
ZKNOW甄知科技4 分钟前
AI-ITSM的时代正在到来:深度解读Gartner最新报告
大数据·运维·人工智能·低代码·网络安全·微服务·重构
zhaodiandiandian5 分钟前
AI 重塑就业生态:变革浪潮中的挑战与治理之道
人工智能
xinyuan_1234566 分钟前
数智化招采平台实战指南:AI如何让采购管理实现效率与价值落地
大数据·人工智能
爱写代码的小朋友7 分钟前
人工智能驱动的教育研究范式转型:从假设驱动到数据驱动的方法论创新
人工智能
Tezign_space7 分钟前
技术实战:Crocs如何构建AI驱动的智能内容矩阵,实现内容播放量提升470%?
大数据·人工智能·矩阵·aigc·内容运营·多智能体系统·智能内容矩阵
23遇见7 分钟前
AI会议与实时翻译
人工智能
通信小呆呆9 分钟前
面向万物互联的通信感知一体化用户端感知与云端通信人工智能体训练研究
人工智能·信息与通信·万物互联·通信感知一体化
free-elcmacom12 分钟前
机器学习入门<5>支持向量机形象教学:寻找最安全的“三八线”,人人都能懂的算法核心
人工智能·python·算法·机器学习·支持向量机
组合缺一15 分钟前
Solon AI 开发学习16 - generate - 生成模型(图、音、视)
java·人工智能·学习·ai·llm·solon