Google推出用于理解用户界面和信息图的AI模型ScreenAI

Google Research最近开发了多模态AI模型ScreenAI,专注于理解信息图和用户界面。该模型基于PaLI架构,已在多个任务中达到了行业领先水平。

ScreenAI通过分析网络爬虫生成的截图和自动与应用程序的交互学习。研究团队采用多种现成AI模型生成合成训练数据,如利用OCR技术标注截图并通过大语言模型(LLM)构造用户可能提出的问题。经过初步训练和后续精调,这一模型拥有五十亿参数,能够解答有关用户界面和信息图的问题、进行内容总结或导航操作。在WebSRC和MoTIF的基准测试中,ScreenAI刷新了性能记录,在Chart QA、DocVQA和InfographicVQA的基准测试上也超过了其他同等规模的模型。Google为了推动此类模型的研究和评估,发布了三个新的屏幕问题回答(QA)评估数据集。Google表示:

我们的模型虽然业界领先,但我们认为,在某些任务上仍需进一步研究,以弥补与GPT-4及Gemini等大型模型的性能差距。为了激发更多的研究活动,我们发布了一个包含统一表示的数据集以及两个其他基准数据集,以便更全面地评估屏幕相关任务的模型性能。

ScreenAI采用了Pathways Language and Image模型(PaLI)架构,该架构融合了视觉Transformer与编解码器大语言模型(如T5)。Google团队对此基础架构进行了关键改进,考虑到用户界面和信息图通常具有多样的分辨率和纵横比,他们调整了视觉Transformer的图像分块步骤,采用了来自Pix2Struct模型的分块策略,以适应不同形状的输入图像。

在预训练数据生成过程中,团队首先建立了一个自动化的标注流程,这个系统能够识别并分类屏幕截图中的UI元素和信息图元素,如图像、图标、文本和按钮,并生成一个包含这些元素位置的_screen schema_注释。

随后,这些screen schema数据被用来生成合成训练数据。研究团队向大语言模型提供了schema信息,并指示其这些schema代表屏幕截图,然后请求模型基于这些截图生成用户可能提问的问题。此外,研究人员还让模型对截图进行了总结。最终,这一数据集包含了约4亿个样本。

为评估这一模型,研究人员在多个公开的数据集上进行了微调,以用于导航、总结和问题回答。模型的性能不仅在两个基准测试中设立了新的行业标准,在三个测试中超越了其他最多只有5亿参数的模型,并在其他两个测试中也表现出竞争力。

X平台上的用户对ScreenAI的表现和潜力进行了热烈讨论。有用户提出疑问,Google是否会利用这一模型优化搜索结果的排名。还有评论指出:

竞争日益激烈。GPT-4 Vision已遇到Qwen-VL-Max的强劲挑战,现在Google的ScreenAI似乎也要加入这场竞争。Google的介入无疑增加了市场的期待。

虽然Google还没有公开模型的代码或参数权重,但他们已经在GitHub上开源了他们的评估数据集ScreenQA和Screen Annotation,以供研究社区使用。

原文链接:www.infoq.com/news/2024/0...

相关推荐
飞哥数智坊11 小时前
MiniMax 是谁?为什么 M2 一出,大家又沸腾了?
人工智能
leafff12311 小时前
AI研究:轻量模型和专用模型在算力优化上的差异对游戏制作的效率和质量有何影响?
人工智能·游戏
吃鱼不卡次12 小时前
RT-DETR解码模块(Decoder)
人工智能·深度学习·cross attention·rt-detr·匈牙利匹配·self attention·对比去噪训练
zhan11451412 小时前
解析平面卷积/pytorch的nn.Conv2d的计算步骤,in_channels与out_channels如何计算而来
人工智能·pytorch·深度学习·cnn·卷积神经网络
Juchecar12 小时前
假设人类能用光波沟通……
人工智能
K姐研究社12 小时前
AipexBase怎么用?AI 原生BaaS平台一句话做后端开发
人工智能
IT_陈寒12 小时前
SpringBoot 3.2新特性实战:这5个隐藏功能让开发效率翻倍🚀
前端·人工智能·后端
IT_陈寒12 小时前
Vue3性能优化实战:这5个技巧让我的应用加载速度提升70% 🚀
前端·人工智能·后端
Mr.Winter`12 小时前
自动驾驶运动规划 | 基于自行车模型的运动学模型和横向动力学模型详细推导图解
人工智能·机器人·自动驾驶·ros
唯道行12 小时前
计算机图形学·6 OpenGL编程3 谢尔宾斯基垫与三维编程
人工智能·算法·计算机视觉·计算机图形学·三维·谢尔宾斯基垫