技术栈
多模态
空山新雨后、
6 小时前
人工智能
·
深度学习
·
chatgpt
·
多模态
Masked AutoEncoder(MAE)详解:高 Mask 率如何造就强视觉表征
在 NLP 领域,BERT 的 Masked Language Modeling(MLM)已成为最成功的自监督学习范式之一:随机遮掉部分 token,训练模型用上下文恢复它们。这种“预测缺失信息”的训练方式非常高效,并且可以产生强大的可迁移表示。
淬炼之火
6 小时前
图像处理
·
笔记
·
计算机视觉
·
多模态
·
图像融合
笔记:Contrastive Object-Aware Fusion
论文源:10.1109/TMM.2025.3599097代码源:https://github.com/li554/COFNet
AI生成未来
2 天前
计算机视觉
·
aigc
·
多模态
·
思维链
·
视觉生成
北交&字节最新开源ThinkGen:首次显式利用多模态CoT处理生成任务,多项任务性能SOTA
论文链接:https://arxiv.org/pdf/2512.23568 项目链接:https://github.com/jiaosiyuu/ThinkGen HF 链接:https://huggingface.co/JSYuuu/ThinkGen
Keep_Trying_Go
4 天前
人工智能
·
python
·
算法
·
多模态
·
目标统计
基于无监督backbone无需训练的类别无关目标统计CountingDINO算法详解
视频讲解1:Bilibili视频讲解视频讲解2:https://www.douyin.com/video/7591321594094423332?count=10&cursor=0&enter_method=post&modeFrom=userPost&previous_page=personal_homepage&secUid=MS4wLjABAAAA0NVS_BfnZjuBUqHzrh-1oSxoNxExvuesrznu1Wu4-fc
keep_learning111
8 天前
人工智能
·
算法
·
计算机视觉
·
大模型
·
多模态
Z-Image模型架构全解析
Z-Image是阿里通义推出的高效6B参数图像生成基础模型,核心采用S³-DiT(Scalable Single-Stream Diffusion Transformer) 架构,通过单流设计实现跨模态信息的密集交互,以显著更高的参数效率达到顶尖性能。
TracyCoder123
10 天前
人工智能
·
多模态
多模态人工智能 (Multimodal AI) —— 打通感知的边界
在人工智能的发展历程中,我们经历了从单一文本处理(NLP)到图像识别(CV)的独立发展阶段。而今,多模态学习(Multimodal Learning) 正成为通往通用人工智能(AGI)的关键钥匙。本文将深入探讨多模态的核心概念、关键架构(如 CLIP, Flamingo, GPT-4V)、对齐技术以及未来的挑战。
夏日白云
10 天前
pdf
·
llm
·
大语言模型
·
多模态
·
rag
·
文档解析
《PDF解析工程实录》第 9 章|端到端多模态模型:不是接不住,而是要看业务能接受什么
点此进入系列专栏如果你一路写到了 pipeline、融合、阅读顺序,再回头看端到端多模态模型,视角其实会发生明显变化。
万里鹏程转瞬至
11 天前
论文阅读
·
多模态
论文简读:Kwai Keye-VL Technical Report
论文地址:https://ar5iv.labs.arxiv.org/html/2509.01563 github:https://github.com/Kwai-Keye/Keye 模型地址:https://huggingface.co/Kwai-Keye 开源时间:2025年7月2日
熊猫钓鱼>_>
11 天前
ai
·
大模型
·
llm
·
多模态
·
deepseek-r1
·
文心4.5
·
qwen3.0
「源力觉醒 创作者计划」_巅峰对话:文心4.5 vs DeepSeek R1 vs 通义Qwen3.0 谁最符合中国人体验?
目录开场:一、明星登场:三种“中国方案”同台竞技,切磋国产大模型真功夫!1. 文心4.5:多模态异构MoE,请叫我国产首个“全能选手”!
沛沛老爹
11 天前
人工智能
·
llm
·
多模态
·
rag
·
深度优化
·
web转型ai
Web开发者玩转AI工作流:Dify工作流开发深度解析
图片来源网络,侵权联系删。在传统 Web 开发中,我们构建的是确定性流程:用户点击按钮 → 发起 API 请求 → 后端处理 → 返回结果。每一步都清晰、可控。
WWZZ2025
12 天前
大模型
·
sam
·
slam
·
多模态
·
具身智能
·
dino
·
grounded-sam2
快速上手大模型:实践(Grounded-SAM2与Depth Anything V2)
博主使用云服务器训练,配置环境版本为:PyTorch2.3.0、Python3.12、CUDA12.1,GPU4090 24GB;本次使用数据集是20G,考虑后续打包传输建议给到220G+、直接文件传输需要给到120G+。
沛沛老爹
12 天前
llm
·
多模态
·
rag
·
深度优化
·
web转型ai
·
图文联合
Web开发者实战多模态RAG:图表文检索系统从0到1
图片来源网络,侵权联系删。在传统Web开发中,我们处理的是结构化数据(JSON、数据库)和非结构化文本(Markdown、富文本)。但现实世界的信息远不止于此——图表、截图、流程图、产品示意图等视觉内容无处不在。
龙腾亚太
12 天前
langchain
·
多模态
·
dify
·
具身智能
·
智能体
·
vla
如何有效整合文本、图像等不同模态信息,提升模型跨模态理解与生成能力
关键词:人工智能大模型 人工智能培训 大模型培训 具身智能培训 智能体 VLA有效整合文本、图像等不同模态信息,以提升模型的跨模态理解与生成能力,是当前多模态人工智能(Multimodal AI)研究的核心问题。以下从架构设计、对齐策略、训练方法、应用场景等多个维度系统阐述关键技术和实践路径:
胡伯来了
14 天前
人工智能
·
transformer
·
多模态
·
transformers
19. Transformers - 文本领域的任务类
在 Transformers 库中,可以对文本进行分类,包括文本分类(“sentiment-analysis” 或 “Text classification”)任务类、零样本文本分类(“zero-shot-classification”)任务类和命名实体识别(“ner”)任务类;可以实现文本生成,包括文本摘要(“summarization”)任务类、问答(“question-answering”)任务类、表格问答(“table-question-answering”)任务类、文本生成(“text-gene
真·skysys
15 天前
ocr
·
多模态
·
deepseek
·
上下文工程
·
deepseek-ocr
·
上下文压缩
·
上下文光学压缩
【技术报告解读】DeepSeek-OCR: Contexts Optical Compression
我们提出了 DeepSeek-OCR,作为通过光学二维映射压缩长上下文可行性的初步探索。DeepSeek-OCR 由两个组件构成:DeepEncoder 和作为解码器的 DeepSeek3B-MoE-A570M。具体而言,DeepEncoder 作为核心引擎,旨在在高分辨率输入下保持低激活值,同时实现高压缩率,以确保视觉 token 数量可控且高效。实验表明,当文本 token 数量不超过视觉 token 数量的 10 倍(即压缩率小于 10×)时,模型可实现 97% 的 OCR 解码精度。即使在 20×
小刘的AI小站
15 天前
多模态
手撕MoE学习记录
参考b站视频记录学习过程输入的token不再经过每一个专家处理, 而是选择topk个专家处理,其他专家不处理这个token;
七夜zippoe
15 天前
架构
·
大模型
·
多模态
·
轻量
·
qwen3
轻量级多模态模型实战:从Qwen3-VL-4B到企业级应用
目录🎯 摘要一、技术原理深度解析1.1 架构设计理念:轻量级与高性能的平衡术1.1.1 混合架构设计
智算菩萨
16 天前
大数据
·
人工智能
·
多模态
高效多模态大语言模型:从统一框架到训练与推理效率的系统化理论梳理
目录1 引言2 理论知识与技术基础2.1 多模态表示的“鸿沟”与对齐目标2.2 Transformer 自注意力机制与复杂度来源
AI生成未来
16 天前
aigc
·
多模态
·
视频编辑
·
视频生成
·
世界模拟器
·
世界交互
超越Veo和Runway!可灵开源Kling-Omni:一个模型通吃视频生成、剪辑和多模态推理!
论文链接:https://arxiv.org/pdf/2512.16776 体验链接:https://app.klingai.com/global/omni/new