多模态前沿:从Agent构建到视频AIGC

多模态

对于多模态来讲,他的提示词就不是单纯的文字。图像也是提示词

1,视觉和语言的打通

如何打通,能同时看懂视觉和文字

2,视觉识别和视觉推理

3,视觉生成

视觉推理 通过图片来进行推理。

融合推理 读懂图片读懂文字来进行推理。

二,视觉识别和视觉推理

这种模型没有什么应用层可以做的东西,不想大语言模型可以做rag,可以做agent。大部分只能在模型层标注数据,进行模型训练。进行数据标注

Yolo模型早期版本,v1 是吧图片分为7x7的49个方格。

视觉识别模型

传统的视觉识别,人脸

传统的视觉识别模型: Yolo UNet

Yolo 目标物体识别

只能识别哪些是顾客,哪些是员工(这种识别即是视觉识别模型)。如果要计算员工做了几杯咖啡Yolo就做不到了,需要用到大语言模型,来截取帧,进行判断,加1

自动驾驶大多也用Yolo模型

YoLO模型知识识别你提前定义好的图像,如果增加识别的图像种类,需要重新进行大预言模型训练。类似于需求变更

标注工作大部分是由人来做的,也可以使用标注软件,

每个图像需要有不同的参数 x y w h c

x y 图中心坐标

wh 图的宽 高

c 自信度

w 概率

概率加起来要等于1

标注工程师,画出这三个图框,我虽然只是花了三个框,但是得到的标注数据是49组数据,但是只有三组数据是由意义的,其他46钟数据没有任何的意思。参数为0.

1

2

3

。。。。。。

49

UNet 区域的分割

比yolo有更高的精度,是像素级别的,会识别图像的大致形状,不想yolo只是画一个框,所以计算量会增加。所以,长用于人脑ct图像识别

使用方法是,在使用大预言模型的时候,在某一个方面使用yolo或者unet,而不是单纯的使用一种。

相关推荐
爱吃的小肥羊1 天前
一个好玩技巧:我让Codex把我的工作流蒸馏成skill
aigc·openai·ai编程
Awu12271 天前
⚡精通 Claude 第 10 课:CLI 完全参考
人工智能·aigc·claude
摄影图1 天前
神经网络创意科技图片素材 满足多场景科技设计创作需求
人工智能·科技·神经网络·aigc·插画
92year2 天前
用 Google ADK 编排多 Agent 工作流:Sequential、Loop、Parallel 实战拆解
aigc
love530love2 天前
ComfyUI:为什么说它是 AIGC 应用层面的集大成者?
人工智能·pytorch·windows·aigc·devops·comfyui·extensions
Cobyte2 天前
Agent Skills 系统的本质原理
前端·aigc·ai编程
码农阿强2 天前
GPT-5.5 与 GPT-5.5-Pro 技术差异及接口接入实践
人工智能·gpt·ai·aigc·ai编程·ai写作·gpu算力
我没胡说八道2 天前
论文AI改写工具深度实测测评|避坑对比、优劣短板、场景适配全解析
人工智能·经验分享·深度学习·aigc·论文·wps
武雄(小星Ai)2 天前
GitHub Copilot Desktop 多 Agent 实测
人工智能·aigc·agent
冬奇Lab2 天前
理发师会被 AI 取代吗?这可能是 AI 时代最有意思的一个社会学问题
人工智能·aigc