Hugging Face 引入了 Idefics2,一个 8B 开源视觉语言模型

Hugging Face 于 2023 年首次发布了其 Idefics 视觉语言模型,该模型使用 DeepMind 最初开发的技术提供支持。如今,Idefics 正在接受升级,具有更小的参数大小、开放许可证和改进的光学字符识别 (OCR) 功能。Idefics2 现已在 Hugging Face 上推出。

Idefics 是 Image-aware Decorder Enhanced à la Flamingo with Interleaved Cross-attentionS 的缩写,是一种可以响应文本和图像提示的通用多模态模型。虽然其前身的参数大小为 800 亿,但 Idefics2 的参数大小仅为 80 亿的十分之一,可与 DeepSeek-VL 和 LLaVA-NeXT-Mistral-7B 相媲美。

在其核心功能中,Idefics2 承诺在高达 980 x 980 像素的原始分辨率和原始纵横比下提供更好的图像处理。图像将不再需要调整大小以适应固定大小的平方比,这在计算机视觉中传统上是完成的。

通过转录图像或文档中的文本生成的数据集成,增强了 OCR 功能。Hugging Face的团队还提高了Idefics回答图表、数字和文档问题的能力。

最后,该模型的架构得到了简化,摆脱了 Idefics1 的门控交叉注意力。"图像被馈送到视觉编码器,然后是学习的感知器池化和多层感知器模态投影,"Hugging Face在一篇博客文章中说。 "然后将池化的序列与文本嵌入连接起来,以获得图像和文本的(交错)序列。

Hugging Face 使用公开可用的数据集(特别是 Mistral-7B-v0.1 和 siglip-so400m-patch14-384)来训练 Idefics2。此外,还利用了 Web 文档、图像标题对、OCR 数据、渲染文本和图像到代码数据。

它的发布是随着人工智能热潮的持续而推出的许多多模态模型的一部分,包括 Reka 的新 Core 模型、xAI 的 Grok-1.5V 和谷歌的 Imagen 2。

相关推荐
DevOpenClub26 分钟前
用 Agent 搭建网页内容采集与结构化处理流水线
人工智能
56AI31 分钟前
2026 企业级AI智能体开发平台推荐:聚焦底层安全与准确率的智能体平台
人工智能·安全·智能体
沫儿笙35 分钟前
库卡弧焊机器人白车身焊接节气装置
人工智能·机器人
AI智图坊43 分钟前
多件装组合SKU图的批量生产效率分析:从PS手工到AI自动化的工作流改造
大数据·运维·人工智能·gpt·ai作画·自动化·aigc
threelab1 小时前
Three.js 物理模拟着色器 | 三维可视化 / AI 提示词
开发语言·前端·javascript·人工智能·3d·着色器
RSTJ_16251 小时前
PYTHON+AI LLM DAY SEVENTY-ONE
人工智能
圣殿骑士-Khtangc1 小时前
单智能体落地实战:从 ReAct 到 Production-Ready AI Agent 全链路解析
人工智能·react.js
云烟成雨TD1 小时前
Spring AI 1.x 系列【56】用大模型评判大模型:递归顾问实现自动化评估方案
人工智能·spring·自动化
AI客栈2 小时前
K8s 自定义控制器中 WorkQueue 队列优化实践:基于 IPVS 转发原理的状态变化处理
人工智能
0xR3lativ1ty2 小时前
每周AI工具新动态
人工智能