GitCode 同步发布百度 ERNIE-4.5-VL-28B-A3B-Thinking 多模态大模型

百度文心多模态思考模型 ERNIE-4.5-VL-28B-A3B-Thinking 正式开源,GitCode 同步发布,快来体验!

👉 模型开源地址: https://ai.gitcode.com/paddlepaddle/ERNIE-4.5-VL-28B-A3B-Thinking

ERNIE-4.5-VL-28B-A3B-Thinking 是在 ERNIE-4.5-VL-28B-A3B 基础上训练的深度思考模型,在视觉语言多模态理解能力上实现了显著提升。模型具备领先的文档与图表理解能力,在理科与文科综合推理、通用视觉推理等任务中表现优异,展现出更强的跨模态推理与问题解决能力。同时,结合空间定位与工具调用,该模型推出"图像思考"等创新功能,为多模态思维与交互应用带来更丰富的可能。

ERNIE-4.5-VL-28B-A3B-Thinking 作为激活仅 3B 的轻量级模型,在各项测试中的表现紧咬业界顶级旗舰模型,以轻量级规模实现了接近 SOTA 的视觉表现。
小模型,大能量

👀|视觉推理

通过大规模强化学习策略,模型在复杂视觉任务中展现卓越的多步推理、图表解析与因果推理能力。

复杂图表解析,避开高峰时段

🔢|学科计算

凭借强大视觉能力,模型在拍照解题等学科推理中实现飞跃式提升,复杂题目也能轻松搞定!

解决物理学科电阻问题 📝

📌|视觉定位

定位更精准,指令执行更灵活,轻松触发复杂工业场景下的定位功能,效率直线上升!

快速识别穿西服戴礼帽人物数量及定位🎩

模型Grounding输出结果的可视化------图中边界框对应模型生成的 "穿西装的人" 的bbox_2d坐标。

🖼️|图像思考

如同真人般思考,模型可对图片自由放大缩小,把控每个细节,洞察每一处信息!

支持图片自由放大,识别图片细节信息 🔍

🔧|工具调用

具备强大的工具调用能力,模型可即时调用图片搜索等功能,轻松识别长尾知识,实现全方位信息获取!

工具调用认识更多热门IP🙌

📺|视频理解

模型具备卓越的时间感知与事件定位能力,能够精准识别视频中不同时间段的内容变化,让视频分析更智能、更高效!

卓越定位广告片不同时段内容变化、分析更智能📹

立即体验

ERNIE-4.5-VL-28B-A3B-Thinking 模型在 GitCode 发布并开源,开发者可访问 GitCode 平台免费体验。

👉 模型开源地址: https://ai.gitcode.com/paddlepaddle/ERNIE-4.5-VL-28B-A3B-Thinking

相关推荐
KaMeidebaby14 小时前
卡梅德生物技术快报|噬菌体筛选全流程技术方案:弧菌抑菌菌株筛选、特性鉴定与效果测试
前端·数据库·其他·百度·新浪微博
不做无法实现的梦~16 小时前
Git 新手到团队协作与 GitHub/GitCode 指南
git·github·gitcode
AI周红伟17 小时前
All in Token,移动,电信和联通,华为,阿里,百度,字节,卖Token Plan,卖算力时代结束,卖智力时代来了:Token经济万亿赛道全景解码
大数据·人工智能·机器学习·百度·华为·copilot·openclaw
AI周红伟20 小时前
All in Token, 移动,电信,联通,阿里,百度,华为,字节,Token石油战争,Token经济,百度要“重写”AI价值度量
大数据·人工智能·机器学习·百度·copilot·openclaw
AI周红伟20 小时前
Token经济学:AI时代的新货币战争,All in Token, 新时代的石油战争,华为,阿里,百度,字节的石油战争
大数据·人工智能·机器学习·百度·华为·copilot·openclaw
Afans_fire20 小时前
全域流量时代:如何用“漏斗模型”打通百度、抖音与小红书的营销闭环?
百度·内容运营·小红书·小红书运营·广告投放·巨量引擎
KaMeidebaby1 天前
卡梅德生物技术快报|骆驼纳米抗体:从原核表达、高通量测序到分子对接全流程实现
前端·数据库·其他·百度·新浪微博
largecode1 天前
打电话时,怎么让号码显示自己的品牌名称?办理号码认证服务流程
笔记·百度·微信·课程设计·微信公众平台·facebook·新浪微博
largecode1 天前
如何让电话显示店名?来电显示店铺名称,提升有效接通率
java·开发语言·spring·百度·学习方法·业界资讯·twitter
智慧医养结合软件开源1 天前
规范新增·精准赋能,凝聚志愿力量守护老人安康
大数据·安全·百度·微信·云计算