Hugging Face 引入了 Idefics2,一个 8B 开源视觉语言模型

Hugging Face 于 2023 年首次发布了其 Idefics 视觉语言模型,该模型使用 DeepMind 最初开发的技术提供支持。如今,Idefics 正在接受升级,具有更小的参数大小、开放许可证和改进的光学字符识别 (OCR) 功能。Idefics2 现已在 Hugging Face 上推出。

Idefics 是 Image-aware Decorder Enhanced à la Flamingo with Interleaved Cross-attentionS 的缩写,是一种可以响应文本和图像提示的通用多模态模型。虽然其前身的参数大小为 800 亿,但 Idefics2 的参数大小仅为 80 亿的十分之一,可与 DeepSeek-VL 和 LLaVA-NeXT-Mistral-7B 相媲美。

在其核心功能中,Idefics2 承诺在高达 980 x 980 像素的原始分辨率和原始纵横比下提供更好的图像处理。图像将不再需要调整大小以适应固定大小的平方比,这在计算机视觉中传统上是完成的。

通过转录图像或文档中的文本生成的数据集成,增强了 OCR 功能。Hugging Face的团队还提高了Idefics回答图表、数字和文档问题的能力。

最后,该模型的架构得到了简化,摆脱了 Idefics1 的门控交叉注意力。"图像被馈送到视觉编码器,然后是学习的感知器池化和[多层感知器]模态投影,"Hugging Face在一篇博客文章中说。 "然后将池化的序列与文本嵌入连接起来,以获得图像和文本的(交错)序列。

Hugging Face 使用公开可用的数据集(特别是 Mistral-7B-v0.1 和 siglip-so400m-patch14-384)来训练 Idefics2。此外,还利用了 Web 文档、图像标题对、OCR 数据、渲染文本和图像到代码数据。

它的发布是随着人工智能热潮的持续而推出的许多多模态模型的一部分,包括 Reka 的新 Core 模型、xAI 的 Grok-1.5V 和谷歌的 Imagen 2。

相关推荐
weixin_66954520几秒前
支持 18W 快充的 2 节/3 节串联锂电池高效同步升压充电芯片 SW7306
人工智能·单片机·嵌入式硬件·硬件工程
wayz111 分钟前
Day 16:PCA主成分分析与降维
人工智能·算法·机器学习
昇腾CANN1 分钟前
4月28日直播丨基于TorchTitan的DeepSeek-V4昇腾续训练优化实践
人工智能·昇腾·cann·deepseek
jackyrongvip4 分钟前
快速理解本体论
人工智能·本体论
DanCheOo5 分钟前
我开源了一个工具,把 Cursor 37 个对话提取成 519 条结构化记忆——再也不用给 AI 重复解释背景了
aigc·ai编程·cursor
人工智能AI技术7 分钟前
Python 常见内置异常类型大全
人工智能
wuxinyan12311 分钟前
Java面试题53:一文深入了解RAG(检索增强生成)核心概念
java·人工智能·机器学习·面试·rag
果汁华13 分钟前
Claude Agent SDK Python:构建自主 AI 代理的官方引擎
开发语言·人工智能·python
User_芊芊君子13 分钟前
从零入门!MySQL 约束、范式设计与联合查询核心精讲
数据库·人工智能·mysql
生物信息与育种15 分钟前
JIPB | 一个表观多组学整合分析与可视化工具OmicsCanvas
运维·人工智能·算法·自动化·transformer