An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA

本文是LLM系列文章,针对《An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA》的翻译。

GPT-3对基于小样本知识的VQA的实证研究

摘要

基于知识的视觉问答(VQA)涉及回答需要图像中不存在的外部知识的问题。现有的方法首先从外部资源中检索知识,然后对所选知识、输入图像和问答预测进行推理。然而,这种两步走的方法可能会导致失配,从而潜在地限制VQA性能。例如,检索到的知识可能是嘈杂的,与问题无关,并且在推理过程中重新嵌入的知识特征可能偏离其在知识库(KB)中的原始含义。为了应对这一挑战,我们提出了PICa,这是一种简单而有效的方法,通过使用图像字幕来提示GPT3,用于基于知识的VQA。受GPT-3在知识检索和问答方面的能力的启发,我们不再像以前的工作那样使用结构化知识库,而是将GPT-3视为一种隐式和非结构化知识库来联合获取和处理相关知识。具体来说,我们首先将图像转换为GPT-3能够理解的字幕(或标签),然后通过提供几个上下文中的VQA示例,调整GPT-3以以多样本的方式解决VQA任务。我们通过仔细研究来进一步提高性能:(i)什么样的文本格式最能描述图像内容,以及(ii)如何更好地选择和使用上下文中的示例。PICa解锁了GPT-3在多模式任务中的首次使用。通过仅使用16个示例,PICa在OK-VQA数据集上以绝对值+8.6分的优势超过了监督的现有技术。我们还在VQAv2上对PICa进行了基准测试,其中PICa也表现出了不错的小样本性能。

引言

相关工作

方法

OK-VQA上的实验

VQAv2上的实验

结论

我们提出了PICa,这是一种使用GPT-3进行基于小样本的VQA的方法。PICa没有使用明确的结构化知识库来检索和推理外部知识,而是通过提示GPT-3来联合获取和处理相关知识。它继承了GPT-3强大的小样本能力,并以显著的优势超过了OK-VQA上的监督技术。分析表明,我们的方法隐含地获取了相关知识来回答问题。

相关推荐
哦哦~921几秒前
基于AI-有限元融合的复合材料多尺度建模与性能预测前沿技术
人工智能·复合材料
howlet22 分钟前
AI生成cocos-creator打砖块游戏-跑通第1关(CodeBuddy)
人工智能·游戏·cocos2d
weixin_408099676 分钟前
OCR 识别率提升实战:模糊 / 倾斜 / 反光图片全套优化方案(附 Python / Java / PHP 代码)
图像处理·人工智能·后端·python·ocr·api·抠图
weixin_408099678 分钟前
【实战教程】懒人精灵如何实现 OCR 文字识别?接口调用完整指南(附可运行示例)
java·前端·人工智能·后端·ocr·api·懒人精灵
不懒不懒9 分钟前
【基于OpenCV+Dlib的人脸相关检测实战:疲劳、年龄性别、表情全实现】
人工智能·opencv·计算机视觉
健康人猿12 分钟前
ChatGPT 推出了 Pro 5x,Codex使用额度又会做出什么新调整?
人工智能·ai·chatgpt·codex·奥特曼
云安全助手12 分钟前
OpenClaw安全深度解析:开放生态下的AI智能体风险与防护实战
人工智能·网络安全
Jason_zhao_MR13 分钟前
机器人主控方案米尔RK3576 + ROS2,NPU加速实现目标跟随与机械臂抓取
人工智能·嵌入式硬件·机器人·嵌入式
蓦然乍醒13 分钟前
零成本实现文档智能:本地化 OCR 提取与 AI 处理全流程实战
人工智能·ocr
医学AI望远镜15 分钟前
两篇CVPR 2025的方法对比:从损失函数到LoRA微调!
人工智能·计算机视觉·医学图像分割