多模态

AI生成未来1 天前
计算机视觉·语言模型·多模态·mllms
多模态大语言模型(MLLMs)如何重塑和变革计算机视觉?本文介绍了多模态大型语言模型(MLLM)的定义、使用挑战性提示的应用场景,以及正在重塑计算机视觉的顶级模型。
Ai多利5 天前
人工智能·神经网络·cnn·多模态
大模型被偷家?CNN结合多模态!卷积神经网络是一种特殊类型的神经网络,其主要结构包括卷积层、池化层、全连接层和输出层。卷积层通过卷积操作学习图像的特征,池化层通过下采样操作减少参数数量,全连接层和输出层通过分类或回归来完成任务。
lly_csdn1231 个月前
python·深度学习·ai·图像分类·多模态·字幕生成·属性识别
【Image Captioning】DynReferDynRefer是由中国科学院大学于2024年提出的用于1种用于区域级多模态任务的模型。DynRefer 通过模拟人类视觉认知过程,显著提升了区域级多模态识别能力。通过引入人眼的动态分辨率机制, 能够以同时完成区域识别、区域属性检测和区域字幕生成任务。
HyperAI超神经1 个月前
人工智能·深度学习·llm·html·数据集·多模态·gpt-4o
超越 GPT-4o!从 HTML 到 Markdown,一键整理复杂网页;AI 对话不再冰冷,大模型对话微调数据集让响应更流畅面对信息冗余的网页内容,如何快速提取全面的核心信息?Reader-LM 模型为你提供了专业的解决方案。Reader-LM 能高效处理高达 256K 字节的超长内容,精准将 HTML 转换为清晰的 Markdown 格式。它的表现甚至超过了 GPT-4o 等大型语言模型,其轻量化设计也使它更适合资源受限的场景。
大模型之路1 个月前
人工智能·语言模型·大模型·多模态·minicpm-o 2.6
MiniCPM-o 2.6:开源大型语言模型在多模态任务上超越GPT-4o和Claude 3.5MiniCPM-o 2.6是一款开源的大型语言模型(LLM),其在多模态任务上的表现令人瞩目,成功超越了GPT-4o和Claude 3.5等业界知名模型。以下是对MiniCPM-o 2.6的详细介绍:
youcans_2 个月前
人工智能·yolo·目标检测·计算机视觉·多模态
【YOLO 项目实战】(12)红外/可见光多模态目标检测欢迎关注『youcans动手学模型』系列 本专栏内容和资源同步到 GitHub/youcans 【YOLO 项目实战】(10)YOLO8 环境配置与推理检测 【YOLO 项目实战】(11)YOLO8 数据集与模型训练 【YOLO 项目实战】(12)红外/可见光多模态目标检测
好评笔记2 个月前
人工智能·深度学习·计算机视觉·aigc·transformer·多模态·coca
多模态论文笔记——Coca大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本文详细介绍多模态模型Coca,在DALL·E 3中使用其作为captioner基准模型的原因和优势。
小嗷犬2 个月前
论文阅读·人工智能·机器翻译·多模态·手语翻译·手语识别
【论文笔记】Visual Alignment Pre-training for Sign Language Translation🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
小任同学Alex2 个月前
人工智能·自然语言处理·大模型·大语言模型·多模态
Lagent:从零搭建你的 Multi-Agent环境配置 开发机选择 30% A100,镜像选择为 Cuda12.2-conda。 首先来为 Lagent 配置一个可用的环境
小嗷犬2 个月前
论文阅读·人工智能·多模态·少样本·手语翻译
【论文笔记】Cross-lingual few-shot sign language recognition🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
audyxiao0012 个月前
人工智能·计算机视觉·数据挖掘·多模态
AI一周重要会议和活动概览会议介绍:2024年CCF中国数据大会由中国科学院梅宏院士、中国工程院孙凝晖院士、中国科学院徐宗本院士、中国工程院蒋昌俊院士任大会主席,将于12月28-30日于海南琼海博鳌亚洲论坛国际会议中心举办。中国大数据技术大会创办于2008年,迄今已成功举办十七届,已是我国乃至全球大数据技术领域的重要盛会之一。CCF中国数据大会将依托中国大数据技术大会在业内的深厚基础与广泛影响,构建一个集战略研讨、政策解读、学术交流、技术创新与产业应用于一体的综合性平台。大会将联合CCF旗下的大数据专家委员会、信息系统专业委员会、
engchina2 个月前
prompt·多模态·抽取图片信息
多模态抽取图片信息的 Prompt下面使用多模态从图片中抽取文章,表格,Flowcharts的Prompt。
KeepThinking!2 个月前
人工智能·yolo·目标检测·多模态
YOLO-World:Real-Time Open-Vocabulary Object Detection目录摘要AbstractYOLO-World1 模型架构1.1 Text Encoder1.2 YOLO Backbone
威化饼的一隅2 个月前
人工智能·深度学习·大模型·swift·多模态
【多模态】swift-3框架使用接前面,swift3相比于swift2做了大升级,很多swift2能使用的在3里面error改改改…但是效率确实大升级,推理速度快了很多~~~
聆思科技AI芯片2 个月前
人工智能·机器人·大模型·aigc·多模态·智能音箱·语音交互
实操给桌面机器人加上超拟人音色前面我们讲了怎么用CSK6大模型开发板做一个桌面机器人充当AI语音助理,近期上线超拟人方案,不仅大模型语音最快可以1秒内回复,还可以让我们的桌面机器人使用超拟人音色、具备声纹识别等能力,本文以csk6大模型开发板为例实操怎么把超拟人音色用起来。
小嗷犬2 个月前
论文阅读·人工智能·深度学习·神经网络·多模态
【论文笔记】CLIP-guided Prototype Modulating for Few-shot Action Recognition🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
威化饼的一隅2 个月前
深度学习·多模态·视觉语言模型·多模态模型·minicpm·minicpm-v
【多模态】MiniCPM-V多模态大模型使用学习前面学习了一些常见多模态模型的架构,现在开始学习使用minicpm-v-2.6模型,记录学习过程,欢迎批评指正~
小嗷犬2 个月前
论文阅读·人工智能·语言模型·大模型·多模态
【论文笔记】VisionZip: Longer is Better but Not Necessary in Vision Language Models🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
爱睡觉的咋2 个月前
人工智能·计算机视觉·大模型·多模态
CLIP论文提炼与代码实战今天和大家分享一篇多模态的经典论文,大名鼎鼎的CLIP:Learning Transferable Visual Models From Natural Language Supervision[pdf]
小嗷犬3 个月前
论文阅读·人工智能·大模型·多模态·手语翻译
【论文笔记】Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。