视觉多模态多任务统一大模型(一些思考)

背景

1、传统的单一任务模型难以满足 开放世界场景下的多任务、多模态需求;

2、面对现实世界,模型需要具备在未知场景 中进行有效推理能力;

3、人工智能的主要目标是开发一个通用的模型,能够遵循多模态指令 ,满足人类的意图在真实环境中完成各种任务;

4、chatgpt4等大模型已经证明LLM具备遵循人类指令的能力;

关键问题

1、如何在大模型基础上构建多模态多任务视觉大模型 ,能够处理多模态数据,且多个视觉任务上推理性能优于单任务模型?

使用多个专家模型。

2、如何在视觉-语言预训练模型的基础上实现开放世界视觉和文本特征对齐

设计一个好的Vision-Language连接器(projection),提升视觉和语言特征的对齐精度。

3、如何利用基座大模型和多任务统一架构对开放世界的未知类别进行零样本识别

研究方向

1、多模态多任务 视觉大模型

(1)如何同时处理多种模态、多种任务,zero-shot学习能力强,且多个任务都能达到一个较好的性能?

2、面向开放视觉的视觉语言对齐

(1)如何选用有效的视觉语言对齐方法十分重要,这代表他们是否能够深度理解图像和文本?

(2)如何进行特征对齐预训练?

3、开放世界未知类别零样本学习

(1)如何产生较好的视觉-语言指令微调数据?(加上视频也可以考虑)

(2)如何产生基于粒度级、像素级理解的视觉指令微调数据?

(3)是否可以集成各类的视觉指令微调数据?

4、如何部署 多模态多任务大模型

(1)如何部署多模态多任务大模型?

(2)如何将多模态多任务大模型部署到一些边缘设备中,以实现这些模型的价值?