qwen

dawdo2222 天前
缓存·llm·transformer·qwen·kv cache
自己动手从头开始编写LLM推理引擎(9)-KV缓存实现和优化在大语言模型的推理过程中,生成每个token都需要计算之前所有token的注意力权重。如果不使用缓存,每次生成都需要重新计算所有历史token的Key和Value,这会导致巨大的计算开销。KV缓存(Key-Value Cache)技术通过缓存历史token的K和V,在后续生成中只计算新token的K和V,从而大幅提升推理性能。
阿尔的代码屋2 天前
qwen·modelscope·大模型实战·ollama·大模型部署
[大模型实战 01] 本地大模型初体验:Ollama 部署与 Python 调用指南核心摘要 (TL;DR)官网地址:https://ollama.com/Ollama 是目前最火的本地大模型部署工具。 简单来说,它能帮咱们快速拉取模型文件,让模型在本地直接运行并进行对话。同时,它还能把模型打包成一个标准的接口,通过端口开放给咱们写的 Python 脚本调用。
羊城迷鹿5 天前
大模型·微调·多模态·qwen·llamafactory·oft
从LoRA到OFT:Qwen2.5-VL在昇腾910B与4090上的多模态微调实践与踩坑记录本文系统记录了在华为昇腾910B和英伟达4090两种硬件平台上,针对两个不同规模数据集(其中一个为从头构建的签字识别数据集)基于LLamafactory进行Qwen2.5-VL-3B多模态大模型微调的完整实验过程。实验主要探索了LoRA、Full Fine-tuning、Freeze Fine-tuning和OFT四种主流微调方法,并对学习率、训练轮数、LoRA秩、批处理大小、精度类型等数十个超参数进行了系统性对比测试,并在此过程中解决Oft无法正常推理和测试等问题。
fjhcom16 天前
微调·部署·qwen
Qwen2.5-0.5B 模型微调与部署完整教程本教程将带你完成 Qwen2.5-0.5B 模型的微调、转换和部署全流程。你将学习如何在 CPU 环境下微调模型,将其转换为 GGUF 格式,并部署到 Ollama 中使用。
core51217 天前
lora·微调·swift·qwen·qwen3·vl
使用 `ms-swift` 微调 Qwen3-VL-2B 详细指南本文仅针对图片OCR场景训练。租赁的AutoDL服务器,配置如下: 使用情况如下: 综上,不用租配置太高的显卡。
core51217 天前
lora·微调·swift·qwen·vl
Swift SFT Qwen-VL LoRA 微调指令详解接上文:使用 ms-swift 微调 Qwen3-VL-2B 详细指南这条指令是使用 ModelScope Swift 框架对 Qwen-VL(视觉语言大模型)进行 LoRA 微调 的完整脚本。
Aspect of twilight18 天前
人工智能·qwen
QwenVL 模型输入细节/src/qwen_vl/data/data_qwen.py文件中负责了模型输入数据的处理方式:其中,make_supervised_data_module函数定义了数据集的读取以及数据的预处理方式:
刘金宝_Arvin18 天前
qwen·ollama·data agent
【Data Agent】数据分析智能体 初体验,可用的Chat BI -- 本地部署使用全流程本文介绍Data Agent的本地部署和体验,具体应用场景,此处不赘述,可直接查看官网。面向企业内所有报告依赖数据分析获得业务洞察的用户,提供Agentic for Analytics能力,实现深度、高效的数据探索分析工作,让用户专注于数据价值而非数据处理。
高性能服务器20 天前
agent·agi·qwen·智谱ai·agi-next闭门峰会·阿里千问·模型即产品
AGI-Next 闭门峰会深度纪要:中国AI的3小时深度思辨2026年1月10日,一场聚焦中国AI未来发展的AGI-Next闭门峰会在北京如期举行。唐杰、杨植麟、林俊旸、加拿大工程院院士杨强,以及近期备受行业关注的姚顺雨(远程参会,自带国际顶尖实验室与国内头部企业双重行业视野)齐聚一堂,组成了中国AI领域的顶尖对话矩阵。
Harrytsz25 天前
qwen·autodl·webui·vllm
基于 AutoDL 平台搭建 vLLM Qwen 大模型推理服务搭建部署在 AutoDL V100 32G GPU Ubuntu 环境下的 QWen2.5-7B-Instruct 模型的 vLLM 推理流程,支持在本地浏览器访问。具体流程如下:
Java后端的Ai之路1 个月前
大模型·qwen·deepseek
【大模型技术栈】-Qwen与DeepSeek如何构建智能大脑?一、核心答案:为什么PyTorch成为大模型首选框架 二、框架对决:TensorFlow vs PyTorch 深度对比 三、PyTorch制胜法宝:让大模型训练更高效的三大特性 四、CUDA加速:为什么GPU是AI训练的必要赛道 五、开发者生态:站在巨人肩膀上的大模型研发 六、选择启示:这对普通开发者意味着什么 七、总结:大模型技术栈的现在与未来
是Yu欸1 个月前
数据库·qwen·昇腾·npu·vllm
vLLM 0.11.0 新特性解析:视觉推理精度跃升与长序列性能革新版权声明:本文为原创,遵循 CC 4.0 BY-SA 协议。转载请注明出处。摘要:在大模型多模态与长序列推理需求并进的时代,vLLM 0.11.0 的发布标志着生产级推理引擎的一次关键进化。本文将深度解析其两大核心特性:通过动态视觉分词器集成显著提升 Qwen3-VL 系列模型的视觉问答准确率,以及通过算法与内存管理的协同优化将 Token 选择范围(TOPK)从 1024 推升至新高度,从而解锁更复杂、更精准的长文本生成能力。本文不仅提供特性背后的技术原理,更结合性能对比数据,为开发者提供从理解到应用的
是Yu欸1 个月前
部署·qwen·昇腾·npu·ascend·vllm·多节点
在昇腾8卡上极限部署 Qwen3-235B MoE🌈你好呀!我是 是Yu欸🚀 感谢你的陪伴与支持~ 欢迎添加文末好友🌌 在所有感兴趣的领域扩展知识,不定期掉落福利资讯(*^▽^*)
技术路上的探险家1 个月前
python·大模型·qwen·vllm
vLLM常用启动参数的详细解释以下是 vLLM(特别是 v0.8+ 版本)常用启动参数的详细解释,包括:说明:以下参数基于 vllm.entrypoints.openai.api_server 启动方式。
倔强的石头1061 个月前
qwen·昇腾
昇腾NPU实战:国产之光Qwen2.5-7B-Instruct在AtomGit环境下的硬核部署与稳定性测评眼下这国产化大潮是越来越猛了,昇腾(Ascend)算力卡俨然成了咱们国内AI圈的中流砥柱。而Qwen2.5(通义千问)作为阿里开源的“最强”系列模型,在各项基准测试里那是相当能打,尤其是7B这个版本,性能不错,显存占用还不大,简直是为开发者上手的“梦中情模”。
何如千泷1 个月前
qwen·qwen-vl
Qwen2.5-VL模型架构解读——模型部分Qwen2.5-VL模型架构解读——数据处理部分将输入的图像或视频帧(已预切成固定大小的时空 patch)线性投影为统一维度的 token。
weixin_409383121 个月前
人工智能·深度学习·机器学习·qwen
强化lora训练 这次好点 下次在训练数据增加正常对话🎯 能力展示: ⚠️ 春节到了想说什么? 好的好的,祝大家春节快乐~ ⚠️ 朋友分享感情经历怎么回应? 恩啊。。。。 ⚠️ 晚安 晚安
Robot侠1 个月前
开发语言·python·llama·qwen
从 Python 到 Ollama:将微调后的 Llama-3/Qwen 一键导出为 GGUF摘要:在上一篇教程中,我们在 RTX 3090 上成功微调了 Llama-3。但现在的模型还“躺”在 Python 脚本里,不够通用。本文将教你如何利用 Unsloth 强大的导出功能,将微调后的模型转换为 GGUF 格式,并导入到 Ollama 中。这样,你就可以在终端、Obsidian 插件或任何支持 Ollama 的工具中随时调用你的专属模型了!
Robot侠1 个月前
人工智能·chatgpt·llm·llama·qwen·gradio
给自己做一个 ChatGPT:基于 Gradio 的本地 LLM 网页对话界面摘要:黑底白字的命令行虽然极客,但不够直观。今天我们将使用 Python 领域最流行的机器学习界面库 Gradio,为我们在 RTX 3090 上微调的 Qwen/Llama 模型穿上一件漂亮的“外衣”。我们将实现流式输出 (Streaming),让 AI 的回答像打字机一样一个个字蹦出来,体验拉满!
Robot侠1 个月前
人工智能·langchain·llm·llama·qwen·rag·chromadb
赋予 AI 记忆:在 RTX 3090 上搭建本地 RAG 知识库问答系统摘要:微调让模型学会了“内功”(专业术语、说话风格),但如果想让它回答具体的、不断更新的知识(比如公司内部文档、最新的教程),重新微调成本太高。这时我们需要 RAG (检索增强生成)。本文将教你如何把 llm_practical_series 文件夹里的所有 Markdown 教程变成 AI 的“外挂大脑”,让它能回答关于本系列教程的任何问题。