技术栈

vl

core512
20 天前
lora·微调·swift·qwen·qwen3·vl
使用 `ms-swift` 微调 Qwen3-VL-2B 详细指南本文仅针对图片OCR场景训练。租赁的AutoDL服务器,配置如下: 使用情况如下: 综上,不用租配置太高的显卡。
core512
20 天前
lora·微调·swift·qwen·vl
Swift SFT Qwen-VL LoRA 微调指令详解接上文:使用 ms-swift 微调 Qwen3-VL-2B 详细指南这条指令是使用 ModelScope Swift 框架对 Qwen-VL(视觉语言大模型)进行 LoRA 微调 的完整脚本。
core512
2 个月前
人工智能·微调·qwen·unsloth·vl
【实战】用 Unsloth 微调 Qwen2.5-VL 构建“汽车保险查勘” AI 专家在多模态大模型(LMM)爆发的今天,Qwen2.5-VL 凭借其强大的视觉理解能力成为了开源界的佼佼者。然而,通用模型在特定垂直领域(如医疗影像、工业质检、保险理赔)的表现往往难以达到生产级要求。
kaaokou
9 个月前
论文阅读·大模型·llm·ocr·多模态·vl
论文笔记——QWen2.5 VL视觉理解和自然语言处理的集成一直是人工智能研究的一个重要焦点,促成了日益复杂的视觉语言模型 (VLMs) 的发展。由阿里巴巴集团 Qwen 团队开发的 Qwen2.5-VL 代表了该领域的重大进步,尤其侧重于增强精细感知能力。
我是有底线的