多模态

空山新雨后、5 小时前
人工智能·深度学习·chatgpt·多模态
Masked AutoEncoder(MAE)详解:高 Mask 率如何造就强视觉表征在 NLP 领域,BERT 的 Masked Language Modeling(MLM)已成为最成功的自监督学习范式之一:随机遮掉部分 token,训练模型用上下文恢复它们。这种“预测缺失信息”的训练方式非常高效,并且可以产生强大的可迁移表示。
淬炼之火5 小时前
图像处理·笔记·计算机视觉·多模态·图像融合
笔记:Contrastive Object-Aware Fusion论文源:10.1109/TMM.2025.3599097代码源:https://github.com/li554/COFNet
AI生成未来2 天前
计算机视觉·aigc·多模态·思维链·视觉生成
北交&字节最新开源ThinkGen:首次显式利用多模态CoT处理生成任务,多项任务性能SOTA论文链接:https://arxiv.org/pdf/2512.23568 项目链接:https://github.com/jiaosiyuu/ThinkGen HF 链接:https://huggingface.co/JSYuuu/ThinkGen
Keep_Trying_Go4 天前
人工智能·python·算法·多模态·目标统计
基于无监督backbone无需训练的类别无关目标统计CountingDINO算法详解视频讲解1:Bilibili视频讲解视频讲解2:https://www.douyin.com/video/7591321594094423332?count=10&cursor=0&enter_method=post&modeFrom=userPost&previous_page=personal_homepage&secUid=MS4wLjABAAAA0NVS_BfnZjuBUqHzrh-1oSxoNxExvuesrznu1Wu4-fc
keep_learning1118 天前
人工智能·算法·计算机视觉·大模型·多模态
Z-Image模型架构全解析Z-Image是阿里通义推出的高效6B参数图像生成基础模型,核心采用S³-DiT(Scalable Single-Stream Diffusion Transformer) 架构,通过单流设计实现跨模态信息的密集交互,以显著更高的参数效率达到顶尖性能。
TracyCoder12310 天前
人工智能·多模态
多模态人工智能 (Multimodal AI) —— 打通感知的边界在人工智能的发展历程中,我们经历了从单一文本处理(NLP)到图像识别(CV)的独立发展阶段。而今,多模态学习(Multimodal Learning) 正成为通往通用人工智能(AGI)的关键钥匙。本文将深入探讨多模态的核心概念、关键架构(如 CLIP, Flamingo, GPT-4V)、对齐技术以及未来的挑战。
夏日白云10 天前
pdf·llm·大语言模型·多模态·rag·文档解析
《PDF解析工程实录》第 9 章|端到端多模态模型:不是接不住,而是要看业务能接受什么点此进入系列专栏如果你一路写到了 pipeline、融合、阅读顺序,再回头看端到端多模态模型,视角其实会发生明显变化。
万里鹏程转瞬至11 天前
论文阅读·多模态
论文简读:Kwai Keye-VL Technical Report论文地址:https://ar5iv.labs.arxiv.org/html/2509.01563 github:https://github.com/Kwai-Keye/Keye 模型地址:https://huggingface.co/Kwai-Keye 开源时间:2025年7月2日
熊猫钓鱼>_>11 天前
ai·大模型·llm·多模态·deepseek-r1·文心4.5·qwen3.0
「源力觉醒 创作者计划」_巅峰对话:文心4.5 vs DeepSeek R1 vs 通义Qwen3.0 谁最符合中国人体验?目录开场:一、明星登场:三种“中国方案”同台竞技,切磋国产大模型真功夫!1. 文心4.5:多模态异构MoE,请叫我国产首个“全能选手”!
沛沛老爹11 天前
人工智能·llm·多模态·rag·深度优化·web转型ai
Web开发者玩转AI工作流:Dify工作流开发深度解析图片来源网络,侵权联系删。在传统 Web 开发中,我们构建的是确定性流程:用户点击按钮 → 发起 API 请求 → 后端处理 → 返回结果。每一步都清晰、可控。
WWZZ202512 天前
大模型·sam·slam·多模态·具身智能·dino·grounded-sam2
快速上手大模型:实践(Grounded-SAM2与Depth Anything V2)博主使用云服务器训练,配置环境版本为:PyTorch2.3.0、Python3.12、CUDA12.1,GPU4090 24GB;本次使用数据集是20G,考虑后续打包传输建议给到220G+、直接文件传输需要给到120G+。
沛沛老爹12 天前
llm·多模态·rag·深度优化·web转型ai·图文联合
Web开发者实战多模态RAG:图表文检索系统从0到1图片来源网络,侵权联系删。在传统Web开发中,我们处理的是结构化数据(JSON、数据库)和非结构化文本(Markdown、富文本)。但现实世界的信息远不止于此——图表、截图、流程图、产品示意图等视觉内容无处不在。
龙腾亚太12 天前
langchain·多模态·dify·具身智能·智能体·vla
如何有效整合文本、图像等不同模态信息,提升模型跨模态理解与生成能力关键词:人工智能大模型 人工智能培训 大模型培训 具身智能培训 智能体 VLA有效整合文本、图像等不同模态信息,以提升模型的跨模态理解与生成能力,是当前多模态人工智能(Multimodal AI)研究的核心问题。以下从架构设计、对齐策略、训练方法、应用场景等多个维度系统阐述关键技术和实践路径:
胡伯来了14 天前
人工智能·transformer·多模态·transformers
19. Transformers - 文本领域的任务类在 Transformers 库中,可以对文本进行分类,包括文本分类(“sentiment-analysis” 或 “Text classification”)任务类、零样本文本分类(“zero-shot-classification”)任务类和命名实体识别(“ner”)任务类;可以实现文本生成,包括文本摘要(“summarization”)任务类、问答(“question-answering”)任务类、表格问答(“table-question-answering”)任务类、文本生成(“text-gene
真·skysys15 天前
ocr·多模态·deepseek·上下文工程·deepseek-ocr·上下文压缩·上下文光学压缩
【技术报告解读】DeepSeek-OCR: Contexts Optical Compression我们提出了 DeepSeek-OCR,作为通过光学二维映射压缩长上下文可行性的初步探索。DeepSeek-OCR 由两个组件构成:DeepEncoder 和作为解码器的 DeepSeek3B-MoE-A570M。具体而言,DeepEncoder 作为核心引擎,旨在在高分辨率输入下保持低激活值,同时实现高压缩率,以确保视觉 token 数量可控且高效。实验表明,当文本 token 数量不超过视觉 token 数量的 10 倍(即压缩率小于 10×)时,模型可实现 97% 的 OCR 解码精度。即使在 20×
小刘的AI小站15 天前
多模态
手撕MoE学习记录参考b站视频记录学习过程输入的token不再经过每一个专家处理, 而是选择topk个专家处理,其他专家不处理这个token;
七夜zippoe15 天前
架构·大模型·多模态·轻量·qwen3
轻量级多模态模型实战:从Qwen3-VL-4B到企业级应用目录🎯 摘要一、技术原理深度解析1.1 架构设计理念:轻量级与高性能的平衡术1.1.1 混合架构设计
智算菩萨16 天前
大数据·人工智能·多模态
高效多模态大语言模型:从统一框架到训练与推理效率的系统化理论梳理目录1 引言2 理论知识与技术基础2.1 多模态表示的“鸿沟”与对齐目标2.2 Transformer 自注意力机制与复杂度来源
AI生成未来16 天前
aigc·多模态·视频编辑·视频生成·世界模拟器·世界交互
超越Veo和Runway!可灵开源Kling-Omni:一个模型通吃视频生成、剪辑和多模态推理!论文链接:https://arxiv.org/pdf/2512.16776 体验链接:https://app.klingai.com/global/omni/new