多模态前沿:从Agent构建到视频AIGC

多模态

对于多模态来讲,他的提示词就不是单纯的文字。图像也是提示词

1,视觉和语言的打通

如何打通,能同时看懂视觉和文字

2,视觉识别和视觉推理

3,视觉生成

视觉推理 通过图片来进行推理。

融合推理 读懂图片读懂文字来进行推理。

二,视觉识别和视觉推理

这种模型没有什么应用层可以做的东西,不想大语言模型可以做rag,可以做agent。大部分只能在模型层标注数据,进行模型训练。进行数据标注

Yolo模型早期版本,v1 是吧图片分为7x7的49个方格。

视觉识别模型

传统的视觉识别,人脸

传统的视觉识别模型: Yolo UNet

Yolo 目标物体识别

只能识别哪些是顾客,哪些是员工(这种识别即是视觉识别模型)。如果要计算员工做了几杯咖啡Yolo就做不到了,需要用到大语言模型,来截取帧,进行判断,加1

自动驾驶大多也用Yolo模型

YoLO模型知识识别你提前定义好的图像,如果增加识别的图像种类,需要重新进行大预言模型训练。类似于需求变更

标注工作大部分是由人来做的,也可以使用标注软件,

每个图像需要有不同的参数 x y w h c

x y 图中心坐标

wh 图的宽 高

c 自信度

w 概率

概率加起来要等于1

标注工程师,画出这三个图框,我虽然只是花了三个框,但是得到的标注数据是49组数据,但是只有三组数据是由意义的,其他46钟数据没有任何的意思。参数为0.

1

2

3

。。。。。。

49

UNet 区域的分割

比yolo有更高的精度,是像素级别的,会识别图像的大致形状,不想yolo只是画一个框,所以计算量会增加。所以,长用于人脑ct图像识别

使用方法是,在使用大预言模型的时候,在某一个方面使用yolo或者unet,而不是单纯的使用一种。

相关推荐
少林码僧6 小时前
2.5 学术界的“GPT”:DeepResearch 深度研究助手从零到一创建与配置指南
aigc·openai·ai编程
后端小肥肠6 小时前
一句话出流程图!我把 OpenClaw + Skill 做成了自动生成业务图的能力
人工智能·aigc
flytam6 小时前
Claude Agent SDK 深度入门指南
前端·aigc·agent
92year6 小时前
省75%token的骚操作:给Claude Code装个caveman插件,写代码再也不废话了
aigc
安思派Anspire8 小时前
OpenClaw的爆发:OpenClaw如何催生了整个开源AI智能体生态系统
aigc·openai
幸福的猪在江湖9 小时前
🤖 Claude Code 高级完全指南(七):Sub-Agents 与团队协作
aigc·ai编程
向量引擎9 小时前
AI Agent 安全元年:OpenClaw 投毒事件如何改变整个生态安全标准,
运维·人工智能·安全·自动化·aigc·api调用
花千树-01011 小时前
Java AI + TTS:让大模型开口说话
java·人工智能·ai·chatgpt·langchain·aigc·ai编程
flytam14 小时前
Claude Agent SDK 深度入门指南 审核中
前端·人工智能·aigc
花千树-01014 小时前
IndexTTS2 入门指南:从模型概念到 macOS 安装实战
人工智能·ai·chatgpt·aigc