多模态前沿:从Agent构建到视频AIGC

多模态

对于多模态来讲,他的提示词就不是单纯的文字。图像也是提示词

1,视觉和语言的打通

如何打通,能同时看懂视觉和文字

2,视觉识别和视觉推理

3,视觉生成

视觉推理 通过图片来进行推理。

融合推理 读懂图片读懂文字来进行推理。

二,视觉识别和视觉推理

这种模型没有什么应用层可以做的东西,不想大语言模型可以做rag,可以做agent。大部分只能在模型层标注数据,进行模型训练。进行数据标注

Yolo模型早期版本,v1 是吧图片分为7x7的49个方格。

视觉识别模型

传统的视觉识别,人脸

传统的视觉识别模型: Yolo UNet

Yolo 目标物体识别

只能识别哪些是顾客,哪些是员工(这种识别即是视觉识别模型)。如果要计算员工做了几杯咖啡Yolo就做不到了,需要用到大语言模型,来截取帧,进行判断,加1

自动驾驶大多也用Yolo模型

YoLO模型知识识别你提前定义好的图像,如果增加识别的图像种类,需要重新进行大预言模型训练。类似于需求变更

标注工作大部分是由人来做的,也可以使用标注软件,

每个图像需要有不同的参数 x y w h c

x y 图中心坐标

wh 图的宽 高

c 自信度

w 概率

概率加起来要等于1

标注工程师,画出这三个图框,我虽然只是花了三个框,但是得到的标注数据是49组数据,但是只有三组数据是由意义的,其他46钟数据没有任何的意思。参数为0.

1

2

3

。。。。。。

49

UNet 区域的分割

比yolo有更高的精度,是像素级别的,会识别图像的大致形状,不想yolo只是画一个框,所以计算量会增加。所以,长用于人脑ct图像识别

使用方法是,在使用大预言模型的时候,在某一个方面使用yolo或者unet,而不是单纯的使用一种。

相关推荐
kfaino21 小时前
码农的AI翻身(六)你好,我叫 Parameter
后端·aigc
用户6369790981431 天前
AI Skill构建的十个层次:从提示词到业务闭环
aigc
怕浪猫1 天前
第6章 多智能体协作:从单兵作战到群体智能
aigc·openai·ai编程
山间小僧1 天前
「AI学习笔记」Harness Engineering: 从 Claude Code 源码看 Harness Engineering 最佳实践
aigc·openai·ai编程
kfaino1 天前
码农的AI翻身(五)你好,我叫 Transformer
后端·aigc
狼爷2 天前
百年工业史启示:为什么AI落地普遍无效?读懂保罗·戴维的「天轴陷阱」
aigc
刘棕霆2 天前
22—AI Skill 测评中断后怎么续跑:active-pipeline.json 断点恢复设计
aigc·ai编程·测试
leeyi2 天前
Batch 处理:并发控制与可中断批处理
aigc·agent·ai编程
kfaino2 天前
码农的AI翻身·前传 一个大模型从出生到上岗的全过程
后端·aigc
小溪彼岸3 天前
CC Switch可视化管理Skill、提示词、会话
aigc·ai编程