多模态
对于多模态来讲,他的提示词就不是单纯的文字。图像也是提示词
1,视觉和语言的打通
如何打通,能同时看懂视觉和文字
2,视觉识别和视觉推理
3,视觉生成
视觉推理 通过图片来进行推理。
融合推理 读懂图片读懂文字来进行推理。
二,视觉识别和视觉推理
这种模型没有什么应用层可以做的东西,不想大语言模型可以做rag,可以做agent。大部分只能在模型层标注数据,进行模型训练。进行数据标注
Yolo模型早期版本,v1 是吧图片分为7x7的49个方格。
视觉识别模型
传统的视觉识别,人脸
传统的视觉识别模型: Yolo UNet
Yolo 目标物体识别

只能识别哪些是顾客,哪些是员工(这种识别即是视觉识别模型)。如果要计算员工做了几杯咖啡Yolo就做不到了,需要用到大语言模型,来截取帧,进行判断,加1
自动驾驶大多也用Yolo模型
YoLO模型知识识别你提前定义好的图像,如果增加识别的图像种类,需要重新进行大预言模型训练。类似于需求变更
标注工作大部分是由人来做的,也可以使用标注软件,
每个图像需要有不同的参数 x y w h c
x y 图中心坐标
wh 图的宽 高
c 自信度
w 概率
概率加起来要等于1

标注工程师,画出这三个图框,我虽然只是花了三个框,但是得到的标注数据是49组数据,但是只有三组数据是由意义的,其他46钟数据没有任何的意思。参数为0.
1
2
3
。。。。。。
49
UNet 区域的分割
比yolo有更高的精度,是像素级别的,会识别图像的大致形状,不想yolo只是画一个框,所以计算量会增加。所以,长用于人脑ct图像识别
使用方法是,在使用大预言模型的时候,在某一个方面使用yolo或者unet,而不是单纯的使用一种。