技术栈
多模态
深念Y
2 天前
ide
·
ai
·
语音识别
·
agi
·
多模态
·
文字识别
·
实时语言
多模态技术详解:TTS、ASR、OCR
随着 AI 技术的发展,计算机正在从“看懂文字”向“听懂声音、看懂图像”全面进化。这就是多模态技术——让机器像人类一样,综合运用视觉、听觉、语言等多种感知能力来理解世界。
羊小猪~~
2 天前
大模型
·
llm
·
nlp
·
多模态
·
多模态大模型
·
vit
·
ai算法
LLM--VIT简介
论文精度视频:VIT论文精度,这里做简要概述CNN神经网络是ai算法中最重要,最经典的算法之一,在vit出现之前,Resnet模型一直都是最好的视觉模型;当然CNN也不是没有缺点,其中有两个典型的缺点:局部性和平移不变性。
Flying pigs~~
3 天前
自然语言处理
·
大模型
·
agent
·
多模态
·
rag
·
prompt提示词
多模态RAG实战:从表格到音视频的全链路落地指南
多模态处理 = 对文本、表格、图片、音频、视频等不同模式的数据,分别用最优方案处理,最终融合得到结果的过程。
xixixi77777
5 天前
人工智能
·
安全
·
ai
·
微软
·
大模型
·
多模态
·
合规
微软推出 Critique 双模型协作系统:GPT + Claude 协同,开启“生成 + 审查”新范式
大语言模型的爆发让 AI 辅助工作成为常态,但单一模型的“独角戏”往往存在局限:GPT 系列擅长创意生成与广泛知识,却可能在事实准确性上失分;Claude 以安全、对齐见长,生成内容相对谨慎,有时会“过于保守”。如何兼得两者之长?微软近日推出的 Critique 双模型协作系统给出了答案——通过在同一任务中同时调用 GPT 与 Claude,实现“生成 + 审查”的协同机制,让企业办公与科研效率迈上新台阶。
袋鼠云数栈
7 天前
大数据
·
数据结构
·
人工智能
·
多模态
集团数字化统战实战:统一数据门户与全业态监管体系构建
在能源行业数字化转型加速的当下,集团型企业的数字化建设已从单点信息化升级为系统级、全局化的数据治理。本次直播围绕集团数字化统战核心,聚焦统一数据门户搭建与全业态监管体系建设,拆解集团数字化痛点、输出解决方案,并结合头部能源企业实践案例,为大型集团数字化转型提供可落地的实战路径。
xx_xxxxx_
11 天前
人工智能
·
深度学习
·
机器学习
·
transformer
·
多模态
常见多模态架构CLIP/BLIP/Llava/CogVLM
CLIP(Contrastive Language-Image Pre-Training)模型是一种多模态预训练神经网络,由OpenAI在2021年发布,是从自然语言监督中学习的一种有效且可扩展的方法。CLIP在预训练期间学习执行广泛的任务,包括OCR,地理定位,动作识别,并且在计算效率更高的同时优于公开可用的最佳ImageNet模型。 该模型的核心思想是使用大量图像和文本的配对数据进行预训练,以学习图像和文本之间的对齐关系。CLIP模型有两个模态,一个是文本模态,一个是视觉模态,包括两个主要部分: 1.
xixixi77777
11 天前
人工智能
·
安全
·
ai
·
多模态
·
数据
·
通信
·
合规
安全嵌入全链路:从模型训练到智能体交互,通信网络是AI安全的“地基”
当AI能力逼近人类专家,当智能体开始自主执行任务,安全不能再是“事后补丁”。原生安全必须贯穿模型训练、推理、数据跨境、智能体交互的全链路,而通信网络的安全加固,正是这一切的“地基”。
余俊晖
13 天前
人工智能
·
ocr
·
多模态
多模态文档解析新思路:MinerU-Diffusion通过扩散解码进行文档OCR
继续跟进【文档智能】解析进展。在前期介绍了非常多的多模态视觉语言模型在OCR场景的方法思路,在模型架构上,基本都是vit+MLP+LLM的框架,以自回归(AR)【即文本以从左到右、逐个词元的方式生成。】的方式进行OCR解码,存在顺序延迟问题,其延迟与文档长度呈线性关系。AR的因果生成导致错误传播,即初始错误会在输出中逐级放大。
Struart_R
13 天前
人工智能
·
计算机视觉
·
3d
·
视频
·
多模态
StreamVGGT、Stream3R、InfiniteVGGT论文解读
这三篇工作都是解决视频流中进行高效、在线、可扩展的4D几何重建问题。目录一、StreamVGGT1、概述
Struart_R
15 天前
计算机视觉
·
多模态
·
三维重建
PAGE-4D、4RC、Track4World论文解读
motivation:由于VGGT训练数据通常是静态的,当遇到人体、可变形物体时等复杂动态元素的真实世界场景中,性能就会出现下降。另外在动态场景进行4D重建时,不同的子任务会出现张力,pose estimation依赖静态场景的极几何约束,depth和point cloud则需要动态区域的运动线索来建模物体,所以VGGT在动态场景中误差极大。
千桐科技
15 天前
ai
·
知识图谱
·
开源软件
·
多模态
·
非结构化数据
·
qknow
·
知识平台
qKnow 知识平台开源版 v1.1.1 发布:多模态知识获取新一步,新增 .docx 解析、重构并发引擎、确立 PR 规范
qKnow 开源版 v1.1.1 是继 v1.1.0 版本后的又一次重要迭代。本次更新聚焦于非结构化数据抽取能力的深度增强、研发流程规范化以及核心体验的细节打磨。我们新增了对 Word 文档的智能识别支持,重构了任务执行引擎以支持更高效的并发控制与进度追踪,并全面优化了官方文档站,旨在为用户提供一个更强大、更透明、更易用的知识管理平台。
袋鼠云数栈
17 天前
大数据
·
数据结构
·
人工智能
·
架构
·
多模态
黄仁勋 GTC 2026 之后,为何AI 时代的数据底座正在被重新定义?
GTC 2026 之后,外界最容易被放大的,依然是芯片、算力、推理、Agent、物理 AI 这些高热度议题。但如果把黄仁勋这场演讲仅仅理解为一次“算力迭代更新”,其实只看到了表层。真正值得企业重视的,是他在整场演讲中反复释放出的一个更底层的信号:AI 的竞争正在从模型层继续下沉,落到数据处理体系、软件栈和数据基础设施本身。
余俊晖
18 天前
人工智能
·
自然语言处理
·
多模态
多模态大模型后训练强化学习训练方法:Shuffle-R1
LLM/MLLM RL微调的时大概率都踩过这个致命的坑:90%的GPU算力都花在了rollout采样上,可模型精度就是纹丝不动;训到后期看梯度,几乎全是接近0的无效值,烧了算力,全做了无用功。
余俊晖
19 天前
人工智能
·
自然语言处理
·
多模态
多模态文档解析新进展:多模态OCR解析文档中的任意内容实现方案
继续跟进【文档智能】解析进展。之前的一些多模态OCR(MOCR)方案主要关注文本识别(表格、文字、公式等),图表、UI组件等视觉图形截图保留,不进行解析(图到SVG代码等,如下图),本文介绍的工作提到:图形中蕴含的结构语义信息,不进行解析会导致文档解析存在固有信息损失了;同时,现有方法无法挖掘文本与图形之间的语义关联,也无法将图形转化为可复用的监督信号用于多模态模型训练。
余俊晖
19 天前
人工智能
·
自然语言处理
·
ocr
·
多模态
多模态文档解析最新开源进展:2B参数FireRed-OCR模型方法、数据
继续跟进【文档智能】解析进展,小红书今天又开源了一个多模态文档解析模型:基于qwen3-vl-2B参数微调训练的参数量的FireRed-OCR,与paddleocr-vl等不同的是Layout阶段采用的也是2b的模型(整体方式与mineru2.5相似)。下面来看看整体的方法。
_张一凡
20 天前
llm
·
aigc
·
大语言模型
·
多模态
·
qwen3
·
大语言模型微调
·
全参量微调
【大语言模型学习】一文详解阿里Qwen3大模型以及全参量微调入门实战教程(代码完整)
2025年4月,阿里巴巴正式发布新一代通义千问大模型Qwen3系列,这是继Qwen2.5之后又一次重大技术跃迁。作为目前全球最活跃的开源大模型家族之一,Qwen3不仅在多项权威基准测试中登顶榜首,更通过混合专家架构(MoE)与混合推理模式的创新,重新定义了大模型的效率边界。本文将带您全面了解Qwen3的技术全景、核心突破以及上手微调一个自己的对话模型。
大傻^
20 天前
人工智能
·
spring
·
架构
·
多模态
·
rag
·
混合检索
·
重排序
Spring AI 2.0 企业级 RAG 架构:混合检索、重排序与多模态知识库
模块六 - 14/14 基于 Spring AI 2.0 最新版本深度解析 目标:构建企业级 AI 应用
人工智能培训咨询叶梓
21 天前
人工智能
·
深度学习
·
语言模型
·
大模型
·
检索增强
·
多模态
·
rag
SYNCHECK:提升检索增强型语言模型的可信度
大模型在生成内容时存在信任度问题,比如可能会产生毫无根据的信息或与检索到的上下文相矛盾。针对这一挑战,加州大学洛杉矶分校(UCLA)的研究人员提出了SYNCHECK,这是一个轻量级的监测工具,能够在生成过程中同步检测不忠实的句子。
xx_xxxxx_
22 天前
论文阅读
·
机器学习
·
transformer
·
多模态
多模态动态融合模型Predictive Dynamic Fusion论文阅读与代码分析4-代码架构
参考文:Cao B, Xia Y, Ding Y, et al. Predictive Dynamic Fusion[J]. arXiv preprint arXiv:2406.04802, 2024.[2406.04802] Predictive Dynamic Fusion
xx_xxxxx_
23 天前
论文阅读
·
机器学习
·
transformer
·
多模态
多模态动态融合模型Predictive Dynamic Fusion论文阅读与代码分析3-部分数学理论基础
在区间[x,y]上的变量可以表示成xt+y(1-t),t越大越靠近x,很好理解。那么这个图就很好理解这个不等式: