论文阅读_LMM 的黎明_GPT4_4V

ad-info 复制代码
英文名称: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
中文名称: LMM 的黎明:GPT-4V 的初步探索
文章: http://arxiv.org/abs/2309.17421
中文翻译:https://mp.weixin.qq.com/s/a8Y_yU5XYgJhQ2xMuTK13w
作者: Zhengyuan Yang
日期: 2023-09-29

1 读后感

GPT-4V 是基于 SOTA LLM 并使用大量多模态数据训练的最先进的具有视觉能力的 LMM。

论文是 2023 年 9 月 29 日微软发布 GPT-4V(视觉)的研究报告。主要讨论了多模态及其在各场景中的应用。文章不涉及公式及具体实现方法,整体偏重经验和测试,看了之后可以少走一些弯路。文章 166 页,近 3W 字,124 张图片,乍一看觉得挺长的,不过实验挺丰富挺有意思的,有点像在飞机上翻杂志的感觉。

整个文章看下来,感觉就像是培养一个机器 " 人 ",从底层的视觉和文本能力,推理能力,智商情商,到后面的与物理世界交互,解决具体问题的能力。虽然还不是很完美,但文档让我们对它的能力有一个大概的定位和评估。

我个人比较喜欢 3.4 节和 9 章。3.4 节涉及一些较为复杂的使用场景,Zero-shot 问题,以及多步推理问题,在不改变网络参数的情况下,如何通过少量示例让模型正常工作。有点像构建人的思考能力:通过构建底层的学习逻辑,让模型从死记硬背到举一返三。第 9 章 讨论模型的具体应用,以及与现有技术结合的方法。整体看来,虽然目前模型还不能做到完全自动,但可以实现很多辅助工作,且在各个领域都有许多可以深入发展的工作机会。

(阅读时请注意 LMMs 与 LLMs 的区别)

2 模型输入

  • 仅文本输入
  • 图像文本对
  • 交错的图像文本,如混合图像的网页

3 工作模式及提示技巧

  • 文本引导:列举了一些引导模型做出正常回答的提示,以及对回答格式的限制(如 json 串)
  • 视觉参考提示:在交互中提示模型,更关注图片中的哪些部分
  • 文本 + 视觉提示:合并上述两种方法,以及让模型通过示例学习
  • 上下文中的小样本学习:通过上下文示例,不调整模型参数,让模型通过少样本学习

4 视觉语言能力

  • 不同领域的图像描述,如:人物描述,地标识别,食物识别,医学图像(识别常见问题),标志识别(复杂场景),反事实示例(识别误导)。
  • 对象定位、计数和密集字幕,如:空间关系,计数,对象定位(边界框),密集字幕(对图中各区域生成标注),目前在复杂场景里还有一定问题。
  • 多模式知识和常识,如:解释笑话和梗图,科学知识(包括地理、物理、生物和地球科学),多模态常识(识别人及场景,视觉线索)。
  • 场景文本,表格,图表和文档推理,如:试卷,海报,图表,图示,流程图,公式,平面图等,展示了模型识别和推理的能力。未来还需要探索更高级的提示技术,如逐步思考采用更少的上下文范围,可能会提高模型的性能。
  • 多语言多模态理解:使用各种语言提问和回答,多文化理解能力(文化的差异)。
  • 视觉编码能力:为方程编写代码。

5 人机交互:视觉参考提示

  • 模型只关注提示区域,并参考全图作为上下文。
  • 视觉指示提示:模型理解人在图像上绘制的标记(提示和文本)。
  • 模型生成视觉输出(在图像上生成视觉标记)。

6 时间序列和视频理解

  • 多图像序列:除了对象和场景,还可识别视频帧变化中的关系。
  • 视频理解:
    • 时间排序:识别时间前后和因果关系
    • 时间预期:通过已知的时间序列,预测未来事件和步骤;支持长短期预测
    • 时间定位和推理:预测因果关系,如预测球和守门员的动作
  • 用提示来提升模型对时间的理解,如:指定区域内的人或事件

7 抽象视频推理和智力测试

  • 抽象视觉符号描述,如:将七巧板图形识别成有意义的图像
  • 发现和关联部件和对象:理解整体与部分的关系
  • IQ 测试,如:韦氏成人智力量表,雷文推理矩阵

8. 情商测试

同理心和情商

  • 从面部表情中识别和读取人类的情感
  • 理解不同的视觉内容如何引起情感,以及理解审美
  • 根据情感生成适当的文本输出

9. 新兴应用亮点

  • 图像找不同
  • 行业:缺陷检测(能识别常见问题),安全检查(工地安全法规),杂货结帐(不用扫条码识别物体,及通过商品目录提升效果)。
  • 医疗:根据图片生成报告(有一定误差,可作为初步结果和模板)
  • 汽车保险:损害评估和生成保险报告。
  • 定制化:识别家庭成员,生成标题,图像搜索。
  • 密集标注与分隔:识别图中对象,生成标注。
  • 图像生成:评估图像美学水平,评估文图一致性,为生成图像写提示。
  • 具体化智能体:指导智能体 Agent 与真实世界交互,如识别咖啡机按钮,室内导航。
  • 计算机 GUI 导航:通过对屏幕截图,模型预测及与计算机通过鼠标交互操作 UI,在没有人参与的情况下自动化"人机交互"过程。实现阅读新闻,打印食谱等操作,处理消息,推荐应用......

10. LLMs 增强智能体

讨论可能的未来研究方向,将应用扩展到多模态场景,使用的新能力。

  • 多模态插件,如:有效利用多模态的实时信息。
  • 多模态链,如:一组多模态插件集成使用,提升了只基于语言的交互。
  • 自我反思,促进手动修正。
  • 自我一致性,通过投票改进推理。
  • 检索增强,通过检索和整合相关信息加入提示,以增强文本生成,多用于专业领域。
相关推荐
鼎道开发者联盟1 天前
智能原生操作系统畅想:人智共生新时代的基石
人工智能·机器学习·自然语言处理
DuHz2 天前
无线通信与雷达感知融合的波形设计与信号处理——论文阅读(上)
论文阅读·信号处理
DuHz2 天前
无线通信与雷达感知融合的波形设计与信号处理——论文阅读(下)
论文阅读·汽车·信息与通信·信号处理
撸码猿2 天前
《Python AI入门》第9章 让机器读懂文字——NLP基础与情感分析实战
人工智能·python·自然语言处理
喜欢吃豆2 天前
使用 OpenAI Responses API 构建生产级应用的终极指南—— 状态、流式、异步与文件处理
网络·人工智能·自然语言处理·大模型
阿龙AI日记2 天前
详解Transformer04:Decoder的结构
人工智能·深度学习·自然语言处理
ModestCoder_3 天前
ROS Bag与导航数据集技术指南
开发语言·人工智能·自然语言处理·机器人·具身智能
7***A4433 天前
Vue自然语言处理应用
前端·vue.js·自然语言处理
张较瘦_3 天前
[论文阅读] AI + 软件工程 | LLM救场Serverless开发!SlsReuse框架让函数复用率飙升至91%,还快了44%
论文阅读·人工智能·软件工程
m0_650108243 天前
InstructBLIP:面向通用视觉语言模型的指令微调技术解析
论文阅读·人工智能·q-former·指令微调的视觉语言大模型·零样本跨任务泛化·通用视觉语言模型