技术栈
多模态
TGITCIC
2 天前
人工智能
·
开源
·
多模态
·
ai大模型
·
开源大模型
·
视觉模型
·
大模型ai
LLaVA-OV:开源多模态的“可复现”革命,不只是又一个模型
在大模型狂飙突进的今天,开源社区似乎陷入一种奇特的悖论:模型权重免费公开,但真正能复现结果的人寥寥无几。你下载一个号称“SOTA”的多模态模型,跑起来却发现效果平平;想自己训练?数据来源模糊、训练脚本缺失、超参配置像谜语——开源成了“半开源”,复现成了玄学。这种困境,在视觉语言模型(VLM)领域尤为突出。
余俊晖
2 天前
人工智能
·
算法
·
剪枝
·
多模态
多模态文档理解视觉token剪枝思路
多模态大模型VLMs视觉token数量多会影响推理的计算性能,也有相关工作在token压缩上进行了研究,如往期:
桃子叔叔
3 天前
人工智能
·
大模型
·
多模态
从0到1讲解大模型中的关键步骤(一)分词、词性标注、命名实体识别
分词是将连续的文本序列切分成有意义的词汇单元的过程,是自然语言处理的基础步骤。最大正向匹配 (Maximum Forward Matching)
Xxtaoaooo
5 天前
人工智能
·
架构
·
分布式训练
·
多模态
·
模型优化
原生多模态AI架构:统一训练与跨模态推理的系统实现与性能优化
人们眼中的天才之所以卓越非凡,并非天资超人一等而是付出了持续不断的努力。1万小时的锤炼是任何人从平凡变成超凡的必要条件。———— 马尔科姆·格拉德威尔
oe1019
6 天前
人工智能
·
笔记
·
去中心化
·
多模态
好文与笔记分享 Paris, A Decentralized Trained Open-Weight Diffusion Model
简介 最近,一篇名为《Paris: A Decentralized Trained Open-Weight Diffusion Model》的论文在引起了我的关注。我在简单研读其代码和关联工作(DDM, DiT)后,想以开发者的视角,与各位一同拆解Paris论文,分享我们从中学到的经验。技术的进步始于敏锐的观察与开放的交流,希望本文能成为一块引玉之砖。
AI生成未来
9 天前
多模态
·
扩散模型
·
图像生成
统一高效图像生成与编辑!百度&新加坡国立提出Query-Kontext,多项任务“反杀”专用模型
论文链接:https://arxiv.org/pdf/2509.26641亮点直击Query-Kontext,一种经济型集成多模态模型(UMM),能够将视觉语言模型(VLMs)中的多模态生成推理与扩散模型执行的高保真视觉渲染相分离。
山顶夕景
13 天前
大模型
·
llm
·
多模态
·
mllm
【MLLM】Qwen3-Omni全模态模型源码解读
Qwen3-Omni-MoE代码实现可以理解为三层拼装:最终的统一入口是 Qwen3OmniMoeForConditionalGeneration.generate(),既能只出文本,也能同时出文本+音频;文本/音频两路的采样参数还可以分别设置(以 thinker_*/talker_* 参数前缀区分)。([Hugging Face][1])
Carl_奕然
17 天前
人工智能
·
python
·
语言模型
·
prompt
·
多模态
【大模型】Agent之:从Prompt到Context的演进之路
小屌丝:鱼哥,国庆假期去哪啊? 小鱼:哪也不去啊 小屌丝:哎呦呦 ~ 哎呦呦~ 小鱼:饭菜很热? 小屌丝:不热啊,温度正好 小鱼:我还以为这饭菜热,烫到你嘴呢。 小屌丝:那倒没有 小鱼:没有,你哎呦呦啥? 小屌丝:你这十一期间哪也不去,我很是意外,不是你的性格 小鱼:人嘛~ 总是要陪陪家人的嘛 小屌丝:呀~ 鱼哥,你变了 小鱼:你指的是我的颜值吗? 小屌丝:看图
般若Neo
25 天前
游戏
·
元宇宙
·
多模态
人工智能与数字艺术 - AI技术创意应用(多模态、数字展演、游戏、元宇宙)
多模态大模型是将文本、图像、音频、视频等不同模态的数据,通过注意力机制和特征投影层等关键技术映射到统一的语义空间,实现图文动态关联,嵌入对齐的多维空间中,从而构建跨模态的语义关联。
陈敬雷-充电了么-CEO兼CTO
1 个月前
人工智能
·
gpt
·
机器学习
·
机器人
·
多模态
·
blip
·
多模态大模型
BLIP-2革新多模态预训练:QFormer桥接视觉语言,零样本任务性能飙升10.7%!
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
陈敬雷-充电了么-CEO兼CTO
1 个月前
人工智能
·
chatgpt
·
大模型
·
多模态
·
世界模型
·
kimi
·
deepseek
视频理解新纪元!VideoChat双模架构突破视频对话瓶颈,开启多模态交互智能时代
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
这张生成的图像能检测吗
1 个月前
人工智能
·
计算机视觉
·
语言模型
·
自然语言处理
·
多模态
·
智能体
(论文速读)从语言模型到通用智能体
论文题目:From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons(从多模式大型语言模型到多面手具身代理:方法和教训)
算法打盹中
1 个月前
人工智能
·
计算机视觉
·
语言模型
·
自然语言处理
·
树莓派
·
多模态
·
jetson nano
基于树莓派与Jetson Nano集群的实验边缘设备上视觉语言模型(VLMs)的性能评估与实践探索
2018年,TensorFlow Lite团队的Pete Warden曾提出:“机器学习的未来在于微型化”。如今,随着人工智能向高性能视觉强大的视觉语言模型(Vision-language models, VLMs)发展,对高性能计算资源的需求急剧增长。图形处理器(GPU)的需求达到历史峰值,引发了对长期可持续性的担忧。时至2025年,七年后的今天,一个关键问题浮现——我们是否已迈入这一微型化未来?本文通过定制的树莓派集群与Jetson Nano开发板,在边缘设备上对视觉语言模型展开测试。
陈敬雷-充电了么-CEO兼CTO
1 个月前
人工智能
·
python
·
gpt
·
语言模型
·
自然语言处理
·
chatgpt
·
多模态
具身智能多模态感知与场景理解:融合语言模型的多模态大模型
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
全息数据
1 个月前
深度学习
·
stable diffusion
·
多模态
·
ddpm
DDPM代码讲解【详细!!!】
UNet网络的总体框架如下,右边是UNet网络的整体框架,左边是residual网络和attention网络,
大数据AI人工智能培训专家培训讲师叶梓
2 个月前
人工智能
·
音视频
·
多模态
·
大模型微调
·
人工智能讲师
·
人工智能培训
·
微调大模型
腾讯混元开源视频拟音模型,破解 AI 视频 “无声” 难题
想要掌握如何将大模型的力量发挥到极致吗?叶梓老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。
泡泡茶壶_ovo
2 个月前
人工智能
·
深度学习
·
计算机视觉
·
语言模型
·
prompt
·
多模态
·
imagecaptioning
RORPCAP: retrieval-based objects and relations prompt for image captioning
研究方向:Image Captioning本文提出了一种基于检索的对象与关系提示用于图片标题生成(RORPCap),以最短的训练时间达到了与基于检测器与图卷积网络(GCN)的模型相当的性能指标。
一只齐刘海的猫
2 个月前
人工智能
·
多模态
部署Qwen2.5-VL-7B-Instruct-GPTQ-Int3
Struart_R
2 个月前
人工智能
·
深度学习
·
计算机视觉
·
3d
·
大语言模型
·
多模态
LLaVA-3D,Video-3D LLM,VG-LLM,SPAR论文解读
目录一、LLaVA-3D1、概述2、方法3、训练过程4、实验二、Video-3D LLM1、概述2、方法
顾道长生'
2 个月前
人工智能
·
计算机视觉
·
音视频
·
多模态
(Arxiv-2025)SkyReels-A2:在视频扩散变换器中组合任意内容
paper是昆仑天工发布在Arxiv 2025的工作paper title:SkyReels-A2: Compose Anything in Video Diffusion Transformers