阿里开源多模态大模型Ovis1.6,重塑出海电商AI格局

阿里开源Ovis1.6:多模态领域再夺第一

阿里再一次证明了自己在多模态领域的实力。这一次,阿里国际AI团队开源的多模态大模型Ovis1.6,不仅成功开源,还在多模态评测基准OpenCompass上击败了Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2.6等主流开源模型,荣登300亿参数以下模型榜首。

Ovis1.6不仅仅是在视觉感知推理、数学推理以及科学分析等多项任务中表现优异,甚至在一些评测中超过了闭源模型GPT-4o-mini。无论是学术研究、生活场景,还是金融财报分析,Ovis1.6的表现堪称卓越。

Ovis1.6的实际应用

在应用方面,Ovis1.6展示了多模态大模型的广泛适用性。例如,它可以通过视觉理解和数学推理来帮助用户处理复杂的大学数学问题;

还能够解析论文,生成关键内容,或进行财务报表的分析。

这一模型甚至可以通过图像分析,生成简单易懂的烹饪指导,例如教用户如何做一道经典的炸鱼薯条。

更重要的是,Ovis系列大模型遵循Apache 2.0开源协议,允许开发者进行商用。这种开放性和灵活性使其在开发和商用环境中具有极高的实用价值。​

技术细节揭秘:视觉与文本嵌入的对齐

阿里国际AI团队在开发Ovis1.6时,针对多模态模型存在的视觉与文本信息不协调的问题提出了创新性的解决方案。传统多模态大模型往往通过简单的连接器将预训练的大语言模型(LLM)与视觉Transformer结合,但这种方法导致文本和视觉模块难以有效融合,影响模型的整体性能。

Ovis1.6引入了视觉Tokenizer、视觉嵌入表以及大语言模型相结合的架构,通过可学习的视觉嵌入表,将连续的视觉特征转化为结构化的视觉token。然后,这些视觉token会和文本token一起被处理,完成多模态任务。

这种架构设计,不仅解决了视觉和文本信息的对齐问题,还显著提升了模型在处理复杂视觉任务和文本生成任务时的性能。

优化与应用

Ovis1.6相较于前代产品Ovis1.5,在架构、数据以及训练策略等方面进行了全面优化。例如,采用动态子图方案来灵活处理不同分辨率的图像特征,在实际任务中提升了模型的应对能力。数据方面,Ovis1.6涵盖了丰富的数据集,如Caption、OCR、表格、图表和数学数据,确保模型在多个应用场景中保持优异表现。训练策略方面,通过DPO等优化手段,进一步增强了模型的生成和理解复杂任务的能力。

实验表明,Ovis1.6与基于MLP连接器的架构相比,性能提升了8.8%。此外,Ovis1.6已经应用于阿里国际的多项实际业务中,特别是在出海电商领域,展现出了显著的降本增效效果。

Ovis1.6助力出海电商

阿里国际通过Ovis1.6的强大AI能力,改变了跨境电商领域的工作方式。特别是在退货和退款审核环节,Ovis1.6通过处理用户提供的图文、视频信息,实现了秒级别的审核,极大减少了人力成本,提高了效率和一致性,确保了商家与消费者的公平权益。

此外,Ovis1.6还在商品属性提取、生成卖点等应用场景中被广泛应用,优化了商品发布流程,并提升了商品的搜索量和曝光度。阿里国际的AI能力已覆盖营销、客户服务、商品发布等40多个应用场景,日均调用超过5000万次。

AI助力商家:降本增效的秘密武器

Ovis1.6只是阿里国际AI能力的一部分,阿里国际还构建了多语言增强大模型Marco,以及电商版多模态大模型MarcoVL,专门为电商领域提供定制化服务。这些AI技术已经成为跨境商家在全球市场中提升竞争力的重要工具。

例如,通过AI生成的多语言商品描述,使得商家能够突破语言障碍,更加高效地与全球消费者沟通。AI图片处理技术,如一键生成虚拟试衣效果等,也让商品展示更加生动,进一步提高了购买转化率。

阿里国际的Ovis1.6大模型,不仅在技术上取得了重要突破,更在实际商业应用中展现了强大的降本增效能力。通过开源和AI技术的赋能,阿里国际为出海电商商家提供了更具竞争力的工具和服务,也为全球开发者和企业提供了更多技术创新的可能。

对于广大开发者而言,Ovis1.6的开源无疑是一个重大利好,为他们带来了强大的多模态技术,推动更多创新和应用的诞生。

Ovis1.6开源地址和Demo:

arXiv: https://arxiv.org/abs/2405.20797

Github: https://github.com/AIDC-AI/Ovis

Huggingface:https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B

Demo:https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B

相关推荐
琅琊榜首202029 分钟前
AI生成脑洞付费短篇小说:从灵感触发到内容落地
大数据·人工智能
Cisco_hw_zte32 分钟前
小型网络中部署Aruba无线
网络
imbackneverdie37 分钟前
近年来,我一直在用的科研工具
人工智能·自然语言处理·aigc·论文·ai写作·学术·ai工具
roman_日积跬步-终至千里1 小时前
【计算机视觉-作业1】从图像到向量:kNN数据预处理完整流程
人工智能·计算机视觉
春日见1 小时前
自动驾驶规划控制决策知识点扫盲
linux·运维·服务器·人工智能·机器学习·自动驾驶
人工智能AI技术2 小时前
【Agent从入门到实践】43 接口封装:将Agent封装为API服务,供其他系统调用
人工智能·python
hjs_deeplearning2 小时前
文献阅读篇#14:自动驾驶中的基础模型:场景生成与场景分析综述(5)
人工智能·机器学习·自动驾驶
nju_spy2 小时前
离线强化学习(一)BCQ 批量限制 Q-learning
人工智能·强化学习·cvae·离线强化学习·双 q 学习·bcq·外推泛化误差
副露のmagic2 小时前
深度学习基础复健
人工智能·深度学习