大模型推理

华师数据学院·王嘉宁

DeepSeek-Math-V2解读：稠密Reward信号回归到RLVR最近半年博主工作科研比较繁忙，有段时间没有写博客了，但并不代表博主没有更新相关技术，后续会补上更多科研信息。

ToT与ReAct：突破大模型推理能力瓶颈大模型知识渊博，却时常“有知识，欠智慧”。传统的推理方式如同单线程的直线，限制了其解决复杂问题的潜力。

【AI算力系统设计分析】1000PetaOps 算力云计算系统设计方案（大模型训练推理专项版）随着 GPT-4、Grok 等超大规模语言模型的爆发式发展，训练与推理场景对算力密度、网络带宽、存储性能的需求呈指数级增长。本方案聚焦大模型全生命周期需求，以 NVIDIA H100 GPU 为核心算力载体，深度参考阿里云神龙架构、腾讯云 HCC 高性能集群、xAI Colossus 超算的技术精髓，构建一套具备低延迟互联、高算力持续供给、弹性调度适配的云计算系统，可支撑千亿参数模型训练（如 GPT-4 级）与高并发推理服务，实现训练周期缩短 60%、推理吞吐量提升 3 倍的核心目标。

Eagle论文解析https://arxiv.org/pdf/2401.15077 EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

大模型-attention汇总解析之-MQAMQA，即 “Multi-Query Attention”，是减少 KV Cache 的一次的一种大胆尝试，首次提出自《Fast Transformer Decoding: One Write-Head is All You Need》，在2019 年减少 KV Cache 就已经是研究人员非常关注的一个课题了。MQA 的思路很简单，直接让所有 Attention Head 共享同一个 K、V。

大模型推理--从零搭建大模型推理服务器：硬件选购、Ubuntu双系统安装与环境配置自从大模型火了之后就一直想自己组装一台机器去深入研究一下大模型，奈何囊中羞涩，迟迟也没有行动。在下了很大的勇气之后，终于花了接近4万块钱组装了一台台式机，下面给大家详细介绍一下我的装机过程。

解码未来：大语言模型训练与推理的双螺旋进化之路训练始于海量数据的"营养摄入"。如同厨师需要收集世界各地的菜谱才能成为米其林主厨，谷歌BERT模型在预训练阶段吞下了800万网页文本、维基百科全集和30亿个英文句子。这些数据经过清洗、标注和分词处理，形成模型学习的"食材库"。某医疗AI公司为训练癌症诊断模型，收集了100万张标注CT影像，每张标注耗时2.3小时——这相当于让100个医生连续工作3年。数据质量决定模型的"食谱"丰富度，正如米其林餐厅对食材产地的苛求。

【大模型实战篇】使用GPTQ量化QwQ-32B微调后的推理模型之所以做量化，就是希望在现有的硬件条件下，提升性能。量化能将模型权重从高精度（如FP32）转换为低精度（如INT8/FP16），内存占用可减少50%~75%。低精度运算（如INT8）在GPU等硬件上计算效率更高，推理速度可提升2~4倍。

Scaled_dot_product_attention(SDPA)使用详解在学习huggingFace的Transformer库时，我们不可避免会遇到scaled_dot_product_attention(SDPA)这个函数，它被用来加速大模型的Attention计算，本文就详细介绍一下它的使用方法，核心内容主要参考了torch.nn.functional中该函数的注释。

【论文解读】《Training Large Language Models to Reason in a Continuous Latent Space》语言空间与推理的矛盾目前大多数大语言模型（LLMs）在解决复杂问题时采用链式思维（Chain-of-Thought, CoT）方法，即利用自然语言逐步推导出答案。然而，论文指出：

【大模型实战篇】GLM-Zero模型初代版本的尝鲜在 2024 年的最后一天，智谱发布了 GLM-Zero 的初代版本 GLM-Zero-Preview，是基于扩展强化学习技术训练的推理模型【1】。GLM-Zero-Preview的推理能力还挺强的，类似于open ai的o1模型，擅长在一些有确定性结果的场景，比如逻辑推理、数学、编程。

Python算法实战

在华为昇腾 910B 上进行阿里大模型 Qwen2.5 推理最近已有不少大厂都在秋招宣讲了，也有一些在 Offer 发放阶段。节前，我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。

汀、人工智能

人工智能大模型之开源大语言模型汇总（国内外开源项目模型汇总）Large Language Model (LLM) 即大规模语言模型，是一种基于深度学习的自然语言处理模型，它能够学习到自然语言的语法和语义，从而可以生成人类可读的文本。

LLM 推理优化探微 (3) ：如何有效控制 KV 缓存的内存占用，优化推理速度？编者按：随着 LLM 赋能越来越多需要实时决策和响应的应用场景，以及用户体验不佳、成本过高、资源受限等问题的出现，大模型高效推理已成为一个重要的研究课题。为此，Baihai IDP 推出 Pierre Lienhart 的系列文章，从多个维度全面剖析 Transformer 大语言模型的推理过程，以期帮助读者对这个技术难点建立系统的理解，并在实践中做出正确的模型服务部署决策。

vLLM介绍vLLM 工程github地址 Paged attention论文地址vLLM: A high-throughput and memory-efficient inference and serving engine for LLMs. SkyPilot: A framework for easily and cost effectively running machine learning workloads on any cloud.

我是有底线的