Hugging Face 引入了 Idefics2,一个 8B 开源视觉语言模型

Hugging Face 于 2023 年首次发布了其 Idefics 视觉语言模型,该模型使用 DeepMind 最初开发的技术提供支持。如今,Idefics 正在接受升级,具有更小的参数大小、开放许可证和改进的光学字符识别 (OCR) 功能。Idefics2 现已在 Hugging Face 上推出。

Idefics 是 Image-aware Decorder Enhanced à la Flamingo with Interleaved Cross-attentionS 的缩写,是一种可以响应文本和图像提示的通用多模态模型。虽然其前身的参数大小为 800 亿,但 Idefics2 的参数大小仅为 80 亿的十分之一,可与 DeepSeek-VL 和 LLaVA-NeXT-Mistral-7B 相媲美。

在其核心功能中,Idefics2 承诺在高达 980 x 980 像素的原始分辨率和原始纵横比下提供更好的图像处理。图像将不再需要调整大小以适应固定大小的平方比,这在计算机视觉中传统上是完成的。

通过转录图像或文档中的文本生成的数据集成,增强了 OCR 功能。Hugging Face的团队还提高了Idefics回答图表、数字和文档问题的能力。

最后,该模型的架构得到了简化,摆脱了 Idefics1 的门控交叉注意力。"图像被馈送到视觉编码器,然后是学习的感知器池化和[多层感知器]模态投影,"Hugging Face在一篇博客文章中说。 "然后将池化的序列与文本嵌入连接起来,以获得图像和文本的(交错)序列。

Hugging Face 使用公开可用的数据集(特别是 Mistral-7B-v0.1 和 siglip-so400m-patch14-384)来训练 Idefics2。此外,还利用了 Web 文档、图像标题对、OCR 数据、渲染文本和图像到代码数据。

它的发布是随着人工智能热潮的持续而推出的许多多模态模型的一部分,包括 Reka 的新 Core 模型、xAI 的 Grok-1.5V 和谷歌的 Imagen 2。

相关推荐
Clank的游戏栈3 小时前
AI游戏开发全自动编程课程体系(Cursor版,支持Unity/Cocos, Laya后续支持)
人工智能·unity·游戏引擎
雍凉明月夜3 小时前
深度学习网络笔记Ⅱ(常见网络分类1)
人工智能·笔记·深度学习
北岛寒沫3 小时前
北京大学国家发展研究院 经济学辅修 经济学原理课程笔记(第十三课 垄断竞争)
人工智能·经验分享·笔记
AI营销实验室3 小时前
AI 工具何高质量的为销售线索打分?
大数据·人工智能
Wang201220133 小时前
RNN和LSTM对比
人工智能·算法·架构
xueyongfu3 小时前
从Diffusion到VLA pi0(π0)
人工智能·算法·stable diffusion
jackylzh4 小时前
配置pytorch环境,并调试YOLO
人工智能·pytorch·yolo
安思派Anspire4 小时前
2026年AI技能将迎来爆发
aigc·openai
杜子不疼.4 小时前
AI Ping双款新模型同步免费解锁:GLM-4.7与MiniMax M2.1实测
人工智能
打码人的日常分享4 小时前
企业数据资产管控和数据治理解决方案
大数据·运维·网络·人工智能·云计算