多模态前沿：从Agent构建到视频AIGC

iameyama2026-02-25 9:25

多模态

对于多模态来讲，他的提示词就不是单纯的文字。图像也是提示词

1，视觉和语言的打通

如何打通，能同时看懂视觉和文字

2，视觉识别和视觉推理

3，视觉生成

视觉推理通过图片来进行推理。

融合推理读懂图片读懂文字来进行推理。

这种模型没有什么应用层可以做的东西，不想大语言模型可以做rag，可以做agent。大部分只能在模型层标注数据，进行模型训练。进行数据标注

Yolo模型早期版本，v1 是吧图片分为7x7的49个方格。

视觉识别模型

传统的视觉识别，人脸

传统的视觉识别模型:　Yolo　UNet

自动驾驶大多也用Yolo模型

YoLO模型知识识别你提前定义好的图像，如果增加识别的图像种类，需要重新进行大预言模型训练。类似于需求变更

标注工作大部分是由人来做的，也可以使用标注软件，

每个图像需要有不同的参数 x y w h c

x y 图中心坐标

wh 图的宽高

c 自信度

w 概率

概率加起来要等于1

标注工程师，画出这三个图框，我虽然只是花了三个框，但是得到的标注数据是49组数据，但是只有三组数据是由意义的，其他46钟数据没有任何的意思。参数为0.

。。。。。。

比yolo有更高的精度，是像素级别的，会识别图像的大致形状，不想yolo只是画一个框，所以计算量会增加。所以，长用于人脑ct图像识别

使用方法是，在使用大预言模型的时候，在某一个方面使用yolo或者unet，而不是单纯的使用一种。