多模态前沿:从Agent构建到视频AIGC

多模态

对于多模态来讲,他的提示词就不是单纯的文字。图像也是提示词

1,视觉和语言的打通

如何打通,能同时看懂视觉和文字

2,视觉识别和视觉推理

3,视觉生成

视觉推理 通过图片来进行推理。

融合推理 读懂图片读懂文字来进行推理。

二,视觉识别和视觉推理

这种模型没有什么应用层可以做的东西,不想大语言模型可以做rag,可以做agent。大部分只能在模型层标注数据,进行模型训练。进行数据标注

Yolo模型早期版本,v1 是吧图片分为7x7的49个方格。

视觉识别模型

传统的视觉识别,人脸

传统的视觉识别模型: Yolo UNet

Yolo 目标物体识别

只能识别哪些是顾客,哪些是员工(这种识别即是视觉识别模型)。如果要计算员工做了几杯咖啡Yolo就做不到了,需要用到大语言模型,来截取帧,进行判断,加1

自动驾驶大多也用Yolo模型

YoLO模型知识识别你提前定义好的图像,如果增加识别的图像种类,需要重新进行大预言模型训练。类似于需求变更

标注工作大部分是由人来做的,也可以使用标注软件,

每个图像需要有不同的参数 x y w h c

x y 图中心坐标

wh 图的宽 高

c 自信度

w 概率

概率加起来要等于1

标注工程师,画出这三个图框,我虽然只是花了三个框,但是得到的标注数据是49组数据,但是只有三组数据是由意义的,其他46钟数据没有任何的意思。参数为0.

1

2

3

。。。。。。

49

UNet 区域的分割

比yolo有更高的精度,是像素级别的,会识别图像的大致形状,不想yolo只是画一个框,所以计算量会增加。所以,长用于人脑ct图像识别

使用方法是,在使用大预言模型的时候,在某一个方面使用yolo或者unet,而不是单纯的使用一种。

相关推荐
墨风如雪2 小时前
算个账也要开顶配 AI?我让 AI 自己劝我换了个小的
aigc
向量引擎3 小时前
向量引擎的新时代:从OpenClaw、Hermes到GPT Image 2与龙虾(Lobster)模型的深度对比与应用
人工智能·gpt·aigc·api·ai编程·key·api调用
92year9 小时前
LLM 应用上线后出了 bug,你怎么查?聊聊 Langfuse 全链路追踪的接入和踩坑
aigc
Awu12279 小时前
🍎Claude Code Playground:我愿称之为「前端调参神器」
前端·人工智能·aigc
爱吃的小肥羊9 小时前
从注册到订阅再到防封号,国内用 Claude 的完整避坑手册(2026 最新)
aigc·ai编程
Hommy8814 小时前
【开源剪映小助手】项目介绍
开源·github·aigc·剪映小助手
DanCheOo15 小时前
我开源了一个工具,把 Cursor 37 个对话提取成 519 条结构化记忆——再也不用给 AI 重复解释背景了
aigc·ai编程·cursor
杀生丸学AI16 小时前
【动态重建】SparseCam4D:基于稀疏相机实现时空一致的4D重建技术
数码相机·aigc·扩散模型·图像编辑·视觉大模型·点云分割
InfiniSynapse17 小时前
minimax_image插件基本上能做到无AI感出图了
人工智能·ai作画·数据分析·aigc
明天有专业课17 小时前
RAG-向量数据库Milvus
面试·aigc