多模态

_张一凡3 小时前
llm·aigc·大语言模型·多模态·qwen3·大语言模型微调·全参量微调
【大语言模型学习】一文详解阿里Qwen3大模型以及全参量微调入门实战教程(代码完整)2025年4月,阿里巴巴正式发布新一代通义千问大模型Qwen3系列,这是继Qwen2.5之后又一次重大技术跃迁。作为目前全球最活跃的开源大模型家族之一,Qwen3不仅在多项权威基准测试中登顶榜首,更通过混合专家架构(MoE)与混合推理模式的创新,重新定义了大模型的效率边界。本文将带您全面了解Qwen3的技术全景、核心突破以及上手微调一个自己的对话模型。
大傻^5 小时前
人工智能·spring·架构·多模态·rag·混合检索·重排序
Spring AI 2.0 企业级 RAG 架构:混合检索、重排序与多模态知识库模块六 - 14/14 基于 Spring AI 2.0 最新版本深度解析 目标:构建企业级 AI 应用
人工智能培训咨询叶梓7 小时前
人工智能·深度学习·语言模型·大模型·检索增强·多模态·rag
SYNCHECK:提升检索增强型语言模型的可信度大模型在生成内容时存在信任度问题,比如可能会产生毫无根据的信息或与检索到的上下文相矛盾。针对这一挑战,加州大学洛杉矶分校(UCLA)的研究人员提出了SYNCHECK,这是一个轻量级的监测工具,能够在生成过程中同步检测不忠实的句子。
xx_xxxxx_1 天前
论文阅读·机器学习·transformer·多模态
多模态动态融合模型Predictive Dynamic Fusion论文阅读与代码分析4-代码架构参考文:Cao B, Xia Y, Ding Y, et al. Predictive Dynamic Fusion[J]. arXiv preprint arXiv:2406.04802, 2024.[2406.04802] Predictive Dynamic Fusion
xx_xxxxx_3 天前
论文阅读·机器学习·transformer·多模态
多模态动态融合模型Predictive Dynamic Fusion论文阅读与代码分析3-部分数学理论基础在区间[x,y]上的变量可以表示成xt+y(1-t),t越大越靠近x,很好理解。那么这个图就很好理解这个不等式:
最初的↘那颗心3 天前
spring boot·大模型·多模态·通义千问·spring ai
Spring AI Alibaba 多模态全家桶:图片理解、图片生成与语音合成实战本文围绕 Spring AI Alibaba 的三大多模态能力——图片理解(Vision)、图片生成(通义万象)和语音合成(CosyVoice),从项目搭建到完整业务实战,覆盖发票 OCR、商品鉴定、电商配图生成、风格化出图、文字转语音、AI 语音对话和定时语音播报七个真实场景。面向有 Spring Boot 基础、正在用 Spring AI 做大模型应用开发的后端工程师。
rgb2gray5 天前
人工智能·python·llm·大语言模型·需求分析·多模态·maup
论文详解 | HDAM:破解 MAUP 的城市出行需求分析新方法,实现关键驱动精准识别原文:Unveiling the key drivers of travel demand via hotspot analysis: a new approach to mitigate the modifiable areal unit problem
大傻^6 天前
transformer·生成式ai·多模态·qwen模型·大模型基础·deepseek架构·参数规模
从感知机到DeepSeek:AI大模型基础认知全栈解析(演进史·架构对比·参数详解)摘要:本文基于"AI大模型基础认知"知识体系,系统梳理从早期NLP到现代大模型的技术演进脉络,深度解析DeepSeek与Qwen底层架构差异,并通过可视化方式拆解"大模型究竟大在哪里"这一核心命题。适合作为大模型技术入门的系统性学习手册。
山顶夕景1 个月前
大模型·llm·多模态·vlm
【VLM】Qwen3-VL模型架构和训练流程链接:https://arxiv.org/pdf/2511.21631模型家族包含密集型(2B/4B/8B/32B)与混合专家(Mixture-of-Experts, MoE)两种架构(30B-A3B/235B-A22B),以适应不同延迟-质量权衡需求。
雪碧聊技术1 个月前
aigc·多模态·2b·2c
AIGC简介目录一.AIGC是什么1.定义①官方②大白话2.从技术上划分①内容孪生②内容编辑③内容生成3.从生成内容上划分
山顶夕景1 个月前
大模型·llm·多模态·infra
【MLLM】Qwen3.5模型✦ 基于混合结构,397B总参/17B激活,能力匹配 >1T 参数的 Qwen3-Max; ✦ 原生多模态设计,同量级下多模态任务表现优于 Qwen3-VL; ✦ 覆盖 201 种语言; ✦ 在代码生成、智能体推理与多模态理解方面表现卓越;
Together_CZ1 个月前
llm·语音识别·多模态·自然语言·asr·技术报告·index-asr
Index-ASR Technical Report——Index-ASR 技术报告这篇文章介绍了 Index-ASR,一个由哔哩哔哩团队开发的大规模、基于大语言模型(LLM)的自动语音识别(ASR)系统。其主要研究内容可概括为以下几点:
小宋加油啊1 个月前
学习·多模态
多模态方法学习在当今数字化高速发展的时代,多模态技术正逐渐成为人工智能领域的核心研究方向。通过整合不同类型的数据源——包括文字、图像、音频、视频及传感器信号,多模态技术正在重塑我们与机器交互、处理信息的方式,为各行各业带来前所未有的创新可能。 多模态技术的基本概念多模态技术指的是同时处理和理解多种不同形式数据输入的系统。与传统单一模态技术相比,多模态系统能够更全面地捕捉和解析信息,就像人类感知世界时会同时…
乌萨奇5371 个月前
人工智能·深度学习·考研·计算机视觉·nlp·多模态
【2025考研复试】深度学习扩展知识:从ViT到多模态,以及简历项目挖掘策略(第11章复盘)目录前言:复试中的“降维打击”第一部分:打破CNN统治——Vision Transformer (ViT)
山顶夕景1 个月前
llm·多模态·图生文
【MLLM】科学领域Innovator-VL多模态模型【科学领域多模态大模型进展】之前讲过interns1多模态模型,这个系列继续看一个新的模型Innovator-VL: A Multimodal Large Language Model for Scientific Discovery,https://arxiv.org/pdf/2601.19325,Homepage: https://InnovatorLM.github.io/Innovator-VL,Github: https://InnovatorLM/Innovator-VL,Instruct M
s1ckrain1 个月前
论文阅读·多模态·具身智能
【论文阅读】Towards Learning a Generalist Model for Embodied Navigation摘要研究痛点:解决方案:训练优势:实验成果:核心问题与动机AGI目标: 创造能像人一样在物理世界中互动和学习的智能体。
feasibility.1 个月前
人工智能·docker·多模态·教育电商·dify·rag·智能体/工作流
基于Qwen3-VL多模态嵌入/重排序模型+Dify(docker)工作流的电商图文检索系统打开终端,选择一个目录,执行git clone https://github.com/langgenius/dify.git克隆dify项目
MoyiTech1 个月前
深度学习·大模型·多模态·kimi·k2.5
③模型架构-Kimi K2.5 技术报告解读模型主要包含三个部分:MoonViT-3D、MLP投影器、Kimi-K2。没错,刚发现Kimi-K2其实是单模态的,这里面使用的是Kimi-K2的模型架构而非其训练参数。
小马过河R1 个月前
人工智能·语言模型·aigc·多模态·ai视频·智能体·视频大模型
Seedance 2.0 模型原理与案例体验记得去年10月Sora2爆火,小马还写过体验文章《国庆爆火的Sora2使用初探和实例生成》,时隔数月,号称国内的Sora2大模型Seedance 2.0再次火了一把。小马自然要去试一下了。
uncle_ll1 个月前
milvus·多模态·向量数据库·ann·rag·搜索·检索
Milvus介绍及多模态检索实践:从部署到实战全解析在AI技术高速迭代的今天,多模态数据(文本、图像、音频、视频)爆发式增长,如何高效存储、检索这些非结构化数据,成为解锁AI应用落地的关键。向量数据库作为非结构化数据检索的核心载体,其中Milvus凭借生产级的稳定性、高扩展性,成为大规模向量检索场景的首选工具。