模型推理

猫先生Mr.Mao

从“更大”到“更会做事”：Kimi K3 的开放前沿智能路线【从零走向AGI】旨在深入了解通用人工智能（AGI）的发展路径，从最基础的概念起，逐步构建完整的知识体系。项目地址🔗：https://github.com/AI-mzq/From-Zero-to-AGI.git

Day 0 实测｜在 GPUStack 上部署 GLM-5.2-FP8-DSpark本文由 GPUStack 社区用户实测分享整理。GLM-5.2-FP8-DSpark 是在 GLM-5.2-FP8 基础上，通过挂载 RedHatAI 提供的外置草稿模型（Speculator）做投机解码（Speculative Decoding）的增强方案——同一份主模型权重，额外加载一个草稿模型，用来提升解码吞吐。社区用户在模型放出当天（Day 0）就在 8 卡 H20-141G 环境上，通过 GPUStack 完成了部署，并和原生 GLM-5.2-FP8 做了同硬件对比压测。

程序猿编码

用C++从零开始造一个微型GPT，不借助任何第三方库这个项目本质上是在做一件"返璞归真"的事——用C++从零开始造一个微型GPT，不依赖PyTorch、TensorFlow，甚至不用Eigen之类的矩阵库。所有东西，从张量（Tensor）的内存管理、矩阵乘法的CUDA核函数，到Transformer的注意力机制、AdamW优化器，全部自己手写。

Flask + PyTorch模型部署实战：从训练权重到API接口完整工程解析（附完整代码）在深度学习项目的落地环节中，模型训练只是万里长征的第一步。如何将训练好的模型权重封装成可调用的Web服务，让其他应用程序（如移动端、前端页面、第三方系统）能够便捷地使用模型推理能力，是算法工程师必须掌握的工程技能。

大模型训练框架 ➕ 推理部署框架训练用 DeepSpeed，推理选 vLLM 或 Ollama，入门看 Transformers，生产上 TGI。大模型从训到跑，一套框架全搞定。 🚀

NVIDIA H200/H20 DeepSeek-V4-Pro 部署指南、压测性能与稳定性调优建议随着 DeepSeek 正式发布 DeepSeek-V4 系列，大模型的工程边界再次被明显推高。该系列基于 MoE 架构，提供了 DeepSeek-V4-Flash 284B 和 DeepSeek-V4-Pro 1.6T 两种规格，同时在推理阶段仅激活数十亿参数，在性能与成本之间取得了新的平衡。配合百万级上下文窗口与全新的注意力优化机制，其在长文本理解、复杂推理以及智能体任务中的表现，已经开始逼近甚至挑战当前主流闭源模型。

Day 0 部署：昇腾 910B DeepSeek-V4 部署指南与压测表现随着 DeepSeek 正式发布 DeepSeek-V4 系列，大模型的工程边界再次被明显推高。该系列基于 MoE 架构，提供了 DeepSeek-V4-Flash 284B 和 DeepSeek-V4-Pro 1.6T 两种规格，同时在推理阶段仅激活数十亿参数，在性能与成本之间取得了新的平衡。配合百万级上下文窗口与全新的注意力优化机制，其在长文本理解、复杂推理以及智能体任务中的表现，已经开始逼近甚至挑战当前主流闭源模型。

Yolo 多任务推理，摄像头+视频实时推理，实现关键点、分割、检测等模型推理部署部分源码：https://live.csdn.net/v/522949

Token 不再焦虑：用 GPUStack + OpenClaw 搭一个“无限用”的本地 AI 助手关注🌟⌈GPUStack⌋ 💻 一起学习 AI、GPU 管理与大模型相关技术实践。这两年，越来越多团队把 AI 接入了日常工作流。但很快，一个现实问题摆在了面前：

模型持久化（二）：从 KingbaseES 加载模型，实现离线预测——别再让模型“睡在库房”，它该上生产线了大家好，我是那个总在凌晨被叫醒、因为线上预测服务挂了，又不得不手动从 KES 里捞出模型临时跑批的老架构。上一期我们把训练好的随机森林序列化存进了电科金仓 KingbaseES 的 BYTEA 字段，解决了“模型去哪儿”的问题。

vLLM、SGLang 融资背后，AI 推理正在走向系统化与治理最近，推理引擎领域出现了两件具有标志意义的事件：vLLM 和 SGLang 相继走向公司化。vLLM 核心团队成立 Inferact，完成 1.5 亿美元融资，估值达 8 亿美元：

Qwen3-VL 目标检测 | 生成训练标签 | LabelMe格式 | COCO格式用Qwen3-VL模型实现端到端检测，无需额外训练检测器，通过自然语言提示词约束模型输出。文章详细介绍了transformers和vLLM两种实现版本，包括模型初始化、图像处理、推理流程、结果清理和格式转换等关键环节。

vllm笔记(1)：最基础的离线推理vllm是一个知名的推理框架，也是开始尝试接触vllm了。本代码来源https://github.com/vllm-project/vllm/blob/main/examples/offline_inference/basic/basic.py

GPUStack Windows（WSL2）部署指南GPUStack v2 以高性能推理与生产级稳定性为核心演进方向，对整体架构进行了全面重构，实现了组件间的灵活解耦，并对多推理引擎和异构算力进行了深度优化，充分释放推理引擎在吞吐、延迟与并发方面的性能潜力。

AI核心知识51——大语言模型之LLM Inference（简洁且通俗易懂版）大语言模型推理 (LLM Inference)，简单来说，就是使用大模型的过程。如果说 “训练” (Training) 是模型在“上学读书”，那么 “推理” (Inference) 就是模型毕业后“参加工作”或“上考场答题”。

给算法爸爸上香

模型部署在docker中对外提供服务这里采用flask框架实现，项目文件如下： main.pyrequirements.txtDockerfile

triton backend 模式docker 部署 pytorch gpu模型镜像选择参考官方tag 对应的镜像地址 https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver?version=25.09-trtllm-python-py3

0.9B PaddleOCR-VL 登顶 SOTA！GPUStack 高效推理部署实战指南在全球多模态文档解析的激烈竞赛中，百度凭借 PaddleOCR-VL 模型给行业投下了一颗重磅炸弹。这个仅有 0.9B 参数量的轻量级多模态模型，不仅在 OmniDocBench V1.5 榜单上以 92.6 的综合得分登顶全球，更在文本识别、公式识别、表格理解和阅读顺序四大核心能力上全面斩获 SOTA，刷新了文档解析领域的性能天花板。

百度智能云技术站

PD 分离推理的加速大招，百度智能云网络基础设施和通信组件的优化实践为了适应 PD 分离式推理部署架构，百度智能云从物理网络层面的「4us 端到端低时延」HPN 集群建设，到网络流量层面的设备配置和管理，再到通信组件和算子层面的优化，显著提升了上层推理服务的整体性能。