多模态

HyperAI超神经16 小时前
人工智能·深度学习·llm·html·数据集·多模态·gpt-4o
超越 GPT-4o!从 HTML 到 Markdown,一键整理复杂网页;AI 对话不再冰冷,大模型对话微调数据集让响应更流畅面对信息冗余的网页内容,如何快速提取全面的核心信息?Reader-LM 模型为你提供了专业的解决方案。Reader-LM 能高效处理高达 256K 字节的超长内容,精准将 HTML 转换为清晰的 Markdown 格式。它的表现甚至超过了 GPT-4o 等大型语言模型,其轻量化设计也使它更适合资源受限的场景。
大模型之路5 天前
人工智能·语言模型·大模型·多模态·minicpm-o 2.6
MiniCPM-o 2.6:开源大型语言模型在多模态任务上超越GPT-4o和Claude 3.5MiniCPM-o 2.6是一款开源的大型语言模型(LLM),其在多模态任务上的表现令人瞩目,成功超越了GPT-4o和Claude 3.5等业界知名模型。以下是对MiniCPM-o 2.6的详细介绍:
youcans_17 天前
人工智能·yolo·目标检测·计算机视觉·多模态
【YOLO 项目实战】(12)红外/可见光多模态目标检测欢迎关注『youcans动手学模型』系列 本专栏内容和资源同步到 GitHub/youcans 【YOLO 项目实战】(10)YOLO8 环境配置与推理检测 【YOLO 项目实战】(11)YOLO8 数据集与模型训练 【YOLO 项目实战】(12)红外/可见光多模态目标检测
好评笔记21 天前
人工智能·深度学习·计算机视觉·aigc·transformer·多模态·coca
多模态论文笔记——Coca大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本文详细介绍多模态模型Coca,在DALL·E 3中使用其作为captioner基准模型的原因和优势。
小嗷犬1 个月前
论文阅读·人工智能·机器翻译·多模态·手语翻译·手语识别
【论文笔记】Visual Alignment Pre-training for Sign Language Translation🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
小任同学Alex1 个月前
人工智能·自然语言处理·大模型·大语言模型·多模态
Lagent:从零搭建你的 Multi-Agent环境配置 开发机选择 30% A100,镜像选择为 Cuda12.2-conda。 首先来为 Lagent 配置一个可用的环境
小嗷犬1 个月前
论文阅读·人工智能·多模态·少样本·手语翻译
【论文笔记】Cross-lingual few-shot sign language recognition🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
audyxiao0011 个月前
人工智能·计算机视觉·数据挖掘·多模态
AI一周重要会议和活动概览会议介绍:2024年CCF中国数据大会由中国科学院梅宏院士、中国工程院孙凝晖院士、中国科学院徐宗本院士、中国工程院蒋昌俊院士任大会主席,将于12月28-30日于海南琼海博鳌亚洲论坛国际会议中心举办。中国大数据技术大会创办于2008年,迄今已成功举办十七届,已是我国乃至全球大数据技术领域的重要盛会之一。CCF中国数据大会将依托中国大数据技术大会在业内的深厚基础与广泛影响,构建一个集战略研讨、政策解读、学术交流、技术创新与产业应用于一体的综合性平台。大会将联合CCF旗下的大数据专家委员会、信息系统专业委员会、
engchina1 个月前
prompt·多模态·抽取图片信息
多模态抽取图片信息的 Prompt下面使用多模态从图片中抽取文章,表格,Flowcharts的Prompt。
KeepThinking!1 个月前
人工智能·yolo·目标检测·多模态
YOLO-World:Real-Time Open-Vocabulary Object Detection目录摘要AbstractYOLO-World1 模型架构1.1 Text Encoder1.2 YOLO Backbone
威化饼的一隅1 个月前
人工智能·深度学习·大模型·swift·多模态
【多模态】swift-3框架使用接前面,swift3相比于swift2做了大升级,很多swift2能使用的在3里面error改改改…但是效率确实大升级,推理速度快了很多~~~
聆思科技AI芯片1 个月前
人工智能·机器人·大模型·aigc·多模态·智能音箱·语音交互
实操给桌面机器人加上超拟人音色前面我们讲了怎么用CSK6大模型开发板做一个桌面机器人充当AI语音助理,近期上线超拟人方案,不仅大模型语音最快可以1秒内回复,还可以让我们的桌面机器人使用超拟人音色、具备声纹识别等能力,本文以csk6大模型开发板为例实操怎么把超拟人音色用起来。
小嗷犬1 个月前
论文阅读·人工智能·深度学习·神经网络·多模态
【论文笔记】CLIP-guided Prototype Modulating for Few-shot Action Recognition🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
威化饼的一隅1 个月前
深度学习·多模态·视觉语言模型·多模态模型·minicpm·minicpm-v
【多模态】MiniCPM-V多模态大模型使用学习前面学习了一些常见多模态模型的架构,现在开始学习使用minicpm-v-2.6模型,记录学习过程,欢迎批评指正~
小嗷犬1 个月前
论文阅读·人工智能·语言模型·大模型·多模态
【论文笔记】VisionZip: Longer is Better but Not Necessary in Vision Language Models🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
爱睡觉的咋1 个月前
人工智能·计算机视觉·大模型·多模态
CLIP论文提炼与代码实战今天和大家分享一篇多模态的经典论文,大名鼎鼎的CLIP:Learning Transferable Visual Models From Natural Language Supervision[pdf]
小嗷犬2 个月前
论文阅读·人工智能·大模型·多模态·手语翻译
【论文笔记】Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
余俊晖2 个月前
人工智能·llm·多模态·rag
【RAG&多模态】mR^2AG:基于知识的多模态检索-反思增强生成方法浅尝在基于知识的视觉问答(Knowledge-based VQA)任务中,输入通常是一对图像和问题 ( I , Q ) (I, Q) (I,Q),并且依赖于可访问的知识库。文章提出的 m R 2 A G mR^2AG mR2AG框架通过两个新颖的反思操作来解耦生成过程,从而提高答案的质量。 m R 2 A G mR^2AG mR2AG将生成过程分为三个步骤:执行检索反思(Retrieval-Reflection)以确定是否需要检索,执行相关性反思(Relevance-Reflection)以识别证据段落并生成
R_Arisa2 个月前
图像分割·多模态·语义分割·参考分割
2024 TIP 论文 robust-ref-seg 复现过程本篇是 2024 年 TIP 论文 Toward Robust Referring Image Segmentation 的复现过程。 特点是对不存在的目标不会进行错误分割,鲁棒性较高,其结果如图:
HyperAI超神经2 个月前
人工智能·开源·自动驾驶·数据集·多模态·化学光谱·neurips 2024
NeurIPS 2024 有效投稿达 15,671 篇,数据集版块内容丰富NeurIPS,全称 Neural Information Processing Systems Conference,是神经信息处理系统的年度学术会议。该会议始于 1987 年,当时名为 NIPS。随着人工智能领域的快速发展,其影响力逐渐扩大,被越来越多的研究者和企业关注并熟知。为了更好地反映会议涵盖的广泛领域,NIPS 于 2017 年正式更名为 NeurIPS。