vlm

【VLM】Qwen3-VL-SFT微调简要流程1. alpaca-gpt4-data-zh (中文指令数据)2. la_te_x_ocr (LaTeX公式OCR)

【VLM】Qwen3-VL模型架构和训练流程链接：https://arxiv.org/pdf/2511.21631模型家族包含密集型（2B/4B/8B/32B）与混合专家（Mixture-of-Experts, MoE）两种架构（30B-A3B/235B-A22B），以适应不同延迟-质量权衡需求。

AI时代之向量数据库概览向量数据库作为AI时代的新型基础设施，正迅速成为处理非结构化数据的核心工具。随着大模型技术的普及，企业越来越依赖向量数据库实现语义检索、知识库增强(RAG)、智能推荐等应用。本文将全面解析主流向量数据库产品，包括其开发商背景、适用场景、优缺点分析及收费模式，帮助企业或开发者根据自身需求选择最合适的向量数据库解决方案。

一个处女座的程序猿

CV之VLM之LLM-OCR：《DeepSeek-OCR 2: Visual Causal Flow》翻译与解读CV之VLM之LLM-OCR：《DeepSeek-OCR 2: Visual Causal Flow》翻译与解读

深入解析 π₀ 与 π₀.5：Physical Intelligence 的机器人基础模型演进本文详细对比分析 Physical Intelligence 公司发布的两代视觉-语言-动作（VLA）模型：π₀ 和 π₀.5，从设计目标、模型架构、训练方法、数据策略等多个维度进行深入解读。

国家一级假勤奋大学生

InternVL系列 technical report 解析论文链接： [2312.14238] InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

具身智能之心

ICLR 2026中稿工作VLASER: 究竟哪些多模态能力和数据对提升机器人的控制表现最关键？在具身智能（Embodied AI）的浪潮中，研究界致力于将强大的视觉-语言模型（VLM）转化为具备机器人操控能力的 Vision-Language-Action (VLA) 模型。然而，这一转化过程面临着一道巨大的“鸿沟”：上游 VLM 通常依托海量互联网数据预训练，拥有卓越的通用推理能力；而下游 VLA 却需要在具体的物理环境中实现精准的动作控制。

《VLA 系列》从 VLM 到 VLA 机器人控制，关键的多模态数据和能力是什么？| Vlaser | ICLR 2026Vlaser 是一款基于 InternVL3 构建的视觉-语言-行动（VLA）模型，核心亮点是集成协同具身推理与端到端机器人控制能力。

从 OCR 到多模态 VLM Agentic AI：智能文档问答的范式转移全解传统的 OCR 正在沦为历史。本文将带你深度复盘智能文档处理技术的演进：从 Tesseract 到 PaddleOCR，从布局检测再到基于 VLM 智能体的端到端解析，更附带了基于 AWS Serverless 与 LandingAI ADE API 的生产级代码实现。

hjs_deeplearning

认知篇#15：ms-swift微调中gradient_accumulation_steps和warmup_ratio等参数的意义与设置MS-SWIFT（Scalable lightWeight Infrastructure for Fine-Tuning）是由ModelScope（魔搭）社区推出的一个开源框架，专为大模型和多模态大模型提供全流程的轻量化微调、部署与评估解决方案。它集成了LoRA、QLoRA等高效的训练技术，支持对超过500种大模型和200多种多模态模型（如Qwen、DeepSeek、GLM系列）进行训练、量化与推理，并兼容从消费级显卡到专业服务器等多种硬件。通过命令行、Python API或图形界面，用户可以快速实现对模

Qwen3-VL 目标检测 | 生成训练标签 | LabelMe格式 | COCO格式用Qwen3-VL模型实现端到端检测，无需额外训练检测器，通过自然语言提示词约束模型输出。文章详细介绍了transformers和vLLM两种实现版本，包括模型初始化、图像处理、推理流程、结果清理和格式转换等关键环节。

【VLM】Format Decoupled Reinforcement Learning for Document OCR【文档智能进展】讲的故事是格式化文本（公式、表格等）比纯文本熵值高一个数量级，导致模型输出不确定性大、解析准确率低，所以搞了个应对思路。工作在：Reading or Reasoning? Format Decoupled Reinforcement Learning for Document OCR，https://arxiv.org/pdf/2601.08834，

【Qwen3-VL】请你用易懂且简洁的语言来介绍一下Qwen3VL的图像预处理在传统的 VLM（如 LLaVA v1.5）中，图像处理简单粗暴：无论原图什么样，一律强行拉伸/填充成 336×336336 \times 336336×336 的正方形。这种做法既破坏了长宽比，又浪费了计算量（大量 padding）。

基于vlm+ocr+yolo的一键ai从模之屋下载模型https://www.bilibili.com/video/BV1fYvZBUET8还是得给他帮亿把，7步尚且如此，做个mod几十步，我不敢想

ai自己制作mod2 ocr vlm识别模型页面点击打开模型页面ai自己制作mod2 ocr vlm识别模型页面点击打开模型页面_哔哩哔哩_bilibiliocr识别不了点赞图标，不然点赞收藏一气喝成就能下载模型了

视觉语言大模型Qwen3-VL-8B-Instruct概述通义千问3-VL-8B-Instruct是阿里巴巴通义千问团队于2025年10月15日发布的开源视觉语言模型，参数规模为80亿 [6] 。该模型基于Dense架构设计，通过三项核心技术创新实现了视觉与语言能力的平衡发展：交错MRoPE多维位置编码、DeepStack特征融合技术和文本-时间戳对齐机制 [5] 。在32项核心评测指标中，该模型超越了Gemini 2.5 Pro和GPT-5等闭源模型，同时性能接近前代超大规模模型Qwen2.5-VL-72B [3] ，标志着多模态AI从”参数竞赛”向”效率优先

多模态模型演变仅供学习参考监督学习：输入+模型+求损失（预测值，标签）自监督学习：输入+模型+求损失（预测值，输入中找标签）

Flamingo：打破模态壁垒的少样本视觉语言模型在多模态机器学习领域，如何让模型仅通过少量标注样本就快速适配新任务，是长期以来的核心挑战。DeepMind 于 2022 年提出的 Flamingo 系列视觉语言模型（VLM），通过创新性的架构设计和训练策略，成功实现了这一目标。

一种面向整体零样本视频异常分析的统一推理框架A Unified Reasoning Framework for Holistic Zero-Shot Video Anomaly Analysis NIPS’25 北京交通大学信息科学研究所；英国伯明翰大学 MIx 课题组

『大模型量化』Qwen3-VL + Lora监督微调 + 8bit量化 + 实践推理本文记录分享Qwen3-VL使用Lora完成监督微调后，进行8bit量化的过程；目录一、对Qwen3-VL进行Lora 监督微调