技术栈
多模态
AI 菌
12 小时前
人工智能
·
大模型
·
ocr
·
多模态
DeepSeek-OCR v2 解读
DeepSeek-OCR 发布于25年10月,而这次DeepSeek-OCR 2发布仅隔了三个月。这会不会是DeepSeek V4发布前上的前菜呢?让我们一起尝尝鲜吧。
山顶夕景
1 天前
大模型
·
llm
·
ocr
·
多模态
【VLM】Visual Merit or Linguistic Crutch? 看DeepSeek-OCR
《Visual Merit or Linguistic Crutch? A Close Look at DeepSeek-OCR》,https://arxiv.org/pdf/2601.03714,相关实验数据在https://anonymous.4open.science/r/ACL26-84B5/Readme.md
勇气要爆发
2 天前
人工智能
·
gpt
·
机器学习
·
llm
·
微调
·
多模态
·
预训练
【AI扫盲】大模型(LLM)原理详解:从 DeepSeek 到 GPT-5 全面解析 (2026最新版)
难度:⭐⭐ 关键词:LLM, 参数, 预训练, 微调, 多模态, DeepSeek大家好,我是飞哥!👋
余俊晖
4 天前
人工智能
·
自然语言处理
·
多模态
多模态文档解析开源进展:端到端OCR模型LightOnOCR-2-1B架构、效果测试
多模态OCR赛道依旧卷,继续看一下新的多模态文档解析模型-LightOnOCR-2-1B系列,按照之前的划分(文档智能解析方案总结进展更新(含ocr-pipline、layout+VLM+纯多模态端到端解析)),这是一个端到端的模型,这个模型开源了其两个用于训练的开放标注数据集:lightonai/LightOnOCR-mix-0126一个包含超过 1600w标注的文档页面,另一个lightonai/LightOnOCR-bbox-mix-0126包含近50w标注,包括图形和图像的边界框。
余俊晖
4 天前
人工智能
·
自然语言处理
·
多模态
强化学习GRPO(格式奖励)在多模态文档解析中的运用方法
现有的多模态文档解析模型在对ocr(公式、表格)等进行格式化解码时,解码不是特别稳定,如下图:基于视觉语言模型(VLM)的端到端方法虽简化流程,但在处理公式、表格等格式化文本时,输出熵值(不确定性)远高于纯文本(常相差一个数量级)。
2401_84149564
5 天前
大数据
·
边缘计算
·
实时计算
·
多模态
·
分布式存储
·
数据价值
·
大数据技术
大数据技术:从技术革命到产业重构的核心引擎
目录一、引言二、大数据的核心定义与特征:解码海量数据的本质三、大数据技术架构:构建全链路数据处理体系(一)数据采集与传输:筑牢数据源头根基
一个无名的炼丹师
5 天前
python
·
pdf
·
大模型
·
多模态
·
rag
DeepSeek+LangGraph构建企业级多模态RAG:从PDF复杂解析到Agentic智能检索全流程实战
摘要: 传统的文本RAG(检索增强生成)在面对包含复杂表格、图片和多栏排版的PDF文档时往往力不从心。本文将带你从零开始,基于 Unstructured + PaddleOCR 实现“结构解析重建法”,将复杂的PDF逆向转化为高质量的Markdown文档;并结合 DeepSeek 大模型与 LangGraph 智能体框架,构建一个具备自我修正能力的 Agentic RAG 引擎。本文包含完整的环境配置、核心代码实现及架构原理解析。
Struart_R
7 天前
计算机视觉
·
大语言模型
·
强化学习
·
多模态
·
r1
VideoLLM相关论文(二)
补充(一)中的VideoChat-R1和VideoAuto-R1motivation:在RL+MLLM基础上扩展更泛化的任务,比如时序定位,目标跟踪,并通过不同的奖励来强化。
AI 菌
8 天前
人工智能
·
大模型
·
文生图
·
多模态
何恺明团队新作:Just Image Transformers(JiT)生成模型
扩散生成模型的发展历程中,核心设计逐渐偏离了“直接预测干净图像”这一经典去噪目标。早期扩散模型虽以去噪为初衷,但后续关键进展(如ε-预测、v-预测)转向了预测噪声或含噪量,这类预测目标需在高维空间中保留全部噪声信息,导致模型对网络容量要求极高,且严重依赖预训练 latent 空间、额外损失函数等辅助组件,难以实现自包含的建模框架。
程序员学习Chat
10 天前
多模态
多模态-1 基础理论
这个系列开始介绍多模态模型相关知识,需要一定知识基础:Transformer结构介绍可以看:深度学习基础-5 注意力机制和Transformer 基于Transformer结构的Backbone可以看:计算机视觉Transformer-1 基础结构
山顶夕景
11 天前
大模型
·
llm
·
ocr
·
多模态
·
文档智能
·
vlm
【VLM】Format Decoupled Reinforcement Learning for Document OCR
【文档智能进展】讲的故事是格式化文本(公式、表格等)比纯文本熵值高一个数量级,导致模型输出不确定性大、解析准确率低,所以搞了个应对思路。工作在:Reading or Reasoning? Format Decoupled Reinforcement Learning for Document OCR,https://arxiv.org/pdf/2601.08834,
_小苔藓_
16 天前
深度学习
·
开源
·
大模型
·
微调
·
多模态
混合Token与LoRA结合Qwen3-VL高效微调(代码开源)
代码在自己的一个关于多模态大模型与Multi Agent的开源小项目中,如果喜欢可以点个star~https://github.com/xi029/Qwen3-VL-MoeLORAhttps://github.com/xi029/Qwen3-VL-MoeLORA
TTGGGFF
18 天前
人工智能
·
多模态
·
图片生成
【零基础教程】从零部署 NewBie-image-Exp0.1:避开所有源码坑点
NewBie-image-Exp0.1 是一款基于 Next-DiT 架构的 3.5B 参数动漫图像生成模型。它支持 XML 结构化提示词,在多角色控制和属性绑定上表现卓越。部署 NewBie-image-Exp0.1 具有一定的挑战性,因为它不仅涉及多个顶尖模型(Gemma 3, Jina CLIP, Flux VAE)的组合,其源码在适配 Diffusers 格式推理时也存在一些维度和类型的硬伤。 以下是我整理的部署教学博客,旨在帮助大家一键式避坑。
淬炼之火
18 天前
图像处理
·
笔记
·
计算机视觉
·
多模态
·
特征融合
笔记:Cross Modal Fusion-Mamba
目录一. 引言二. 网络总览三. Mamba Block 的结构3.1. SSCS(State Space Channel Swapping)Module
Elaine336
19 天前
python
·
opencv
·
支持向量机
·
cnn
·
多模态
·
数字图像处理
【验证码识别算法性能对比实验系统——KNN、SVM、CNN 与多模态大模型的性能博弈与机理分析】
在自动化数据采集与逆向工程中,验证码识别始终是横亘在开发者面前的一道技术屏障。本文记录了一场横跨传统数字图像处理(DIP)到前沿多模态大模型(MLLM)的深度实验历程。 在长达数小时的开发周期内,笔者完整经历了从寻找开源数据失败到自创建62 类全字符数据集的逻辑转折,攻克了字符粘连切分、ASCII标签错位、端到端 CRNN 训练不收敛等核心痛点。
钱彬 (Qian Bin)
19 天前
人工智能
·
算法
·
机器学习
·
多模态
·
全球证件识别
项目实践15—全球证件智能识别系统(切换为Qwen3-VL-8B-Instruct图文多模态大模型)
项目实践15—全球证件智能识别系统(后端推理引擎升级与业务逻辑修正)在前序的系统构建中,后端服务集成了Qwen3-VL-8B-Thinking多模态大模型,用于实现针对国外证件的版面信息结构化提取与翻译。该Thinking系列模型在处理数理逻辑推演等复杂任务时表现优异,其核心机制在于输出最终结果前会进行长思维链推理。然而,在证件OCR及多语种翻译这一特定业务场景下,系统主要需求是对图像文字的直接提取与转换,而非深度的逻辑推理。实测表明,Thinking模型的过度推理导致单次请求响应时间较长(平均约15-3
喜欢吃豆
19 天前
人工智能
·
架构
·
ffmpeg
·
大模型
·
音视频
·
多模态
深度解析:FFmpeg 远程流式解复用原理与工程实践
在数字视频工程的浩瀚领域中,“流媒体”(Streaming) 是一个被广泛使用却常被误解的概念。对于终端用户而言,流媒体意味着即点即看、随意的拖拽进度条(Seeking)以及无需等待完整下载的便捷体验。然而,从底层系统工程师的视角来看,实现这一体验的技术路径却大相径庭。
AI架构师易筋
20 天前
人工智能
·
llm
·
多模态
·
多模态llm
多模态 LLM 与本地多模态检索 PoC:从原理到工程落地(图片 / 视频关键帧 / LaTeX 公式)
本文目标:用 4 种难度梯度递增 的方式解释什么是多模态 LLM(Multimodal LLM),并系统说明 数学公式、图片、视频 在真实工程中如何被 存储、查询(检索)、创造(生成)。随后给出一套 本地可跑的多模态检索 PoC(FAISS + SQLite + OpenCLIP),包含 数据结构、向量库选型、索引参数、评估指标(Recall@K、nDCG、latency),以及可直接运行的最小 Repo 结构与用法。
空山新雨后、
21 天前
人工智能
·
深度学习
·
chatgpt
·
多模态
Masked AutoEncoder(MAE)详解:高 Mask 率如何造就强视觉表征
在 NLP 领域,BERT 的 Masked Language Modeling(MLM)已成为最成功的自监督学习范式之一:随机遮掉部分 token,训练模型用上下文恢复它们。这种“预测缺失信息”的训练方式非常高效,并且可以产生强大的可迁移表示。
淬炼之火
21 天前
图像处理
·
笔记
·
计算机视觉
·
多模态
·
图像融合
笔记:Contrastive Object-Aware Fusion
论文源:10.1109/TMM.2025.3599097代码源:https://github.com/li554/COFNet