技术栈
大模型推理
yutianzuijin
2 天前
服务器
·
ubuntu
·
llm
·
大模型推理
大模型推理--从零搭建大模型推理服务器:硬件选购、Ubuntu双系统安装与环境配置
自从大模型火了之后就一直想自己组装一台机器去深入研究一下大模型,奈何囊中羞涩,迟迟也没有行动。在下了很大的勇气之后,终于花了接近4万块钱组装了一台台式机,下面给大家详细介绍一下我的装机过程。
TGITCIC
22 天前
人工智能
·
语言模型
·
自然语言处理
·
大模型训练
·
大模型推理
·
推理训练
解码未来:大语言模型训练与推理的双螺旋进化之路
训练始于海量数据的"营养摄入"。如同厨师需要收集世界各地的菜谱才能成为米其林主厨,谷歌BERT模型在预训练阶段吞下了800万网页文本、维基百科全集和30亿个英文句子。这些数据经过清洗、标注和分词处理,形成模型学习的"食材库"。某医疗AI公司为训练癌症诊断模型,收集了100万张标注CT影像,每张标注耗时2.3小时——这相当于让100个医生连续工作3年。数据质量决定模型的"食谱"丰富度,正如米其林餐厅对食材产地的苛求。
Nicolas893
2 个月前
性能调优
·
量化
·
大模型推理
·
大模型量化
·
推理模型量化
·
qwq32b
·
gptq量化
【大模型实战篇】使用GPTQ量化QwQ-32B微调后的推理模型
之所以做量化,就是希望在现有的硬件条件下,提升性能。量化能将模型权重从高精度(如FP32)转换为低精度(如INT8/FP16),内存占用可减少50%~75%。低精度运算(如INT8)在GPU等硬件上计算效率更高,推理速度可提升2~4倍。
yutianzuijin
2 个月前
人工智能
·
深度学习
·
llm
·
大模型推理
Scaled_dot_product_attention(SDPA)使用详解
在学习huggingFace的Transformer库时,我们不可避免会遇到scaled_dot_product_attention(SDPA)这个函数,它被用来加速大模型的Attention计算,本文就详细介绍一下它的使用方法,核心内容主要参考了torch.nn.functional中该函数的注释。
k layc
2 个月前
人工智能
·
python
·
机器学习
·
语言模型
·
自然语言处理
·
大模型推理
【论文解读】《Training Large Language Models to Reason in a Continuous Latent Space》
语言空间与推理的矛盾 目前大多数大语言模型(LLMs)在解决复杂问题时采用链式思维(Chain-of-Thought, CoT)方法,即利用自然语言逐步推导出答案。然而,论文指出:
Nicolas893
4 个月前
大模型
·
大模型推理
·
o1
·
强化推理
·
多步推理
·
glm强化推理
【大模型实战篇】GLM-Zero模型初代版本的尝鲜
在 2024 年的最后一天,智谱发布了 GLM-Zero 的初代版本 GLM-Zero-Preview,是基于扩展强化学习技术训练的推理模型【1】。GLM-Zero-Preview的推理能力还挺强的,类似于open ai的o1模型,擅长在一些有确定性结果的场景,比如逻辑推理、数学、编程。
Python算法实战
6 个月前
人工智能
·
算法
·
语言模型
·
自然语言处理
·
大模型
·
transformer
·
大模型推理
在华为昇腾 910B 上进行阿里大模型 Qwen2.5 推理
最近已有不少大厂都在秋招宣讲了,也有一些在 Offer 发放阶段。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。
汀、人工智能
1 年前
人工智能
·
语言模型
·
自然语言处理
·
大模型
·
大模型推理
人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总)
Large Language Model (LLM) 即大规模语言模型,是一种基于深度学习的自然语言处理模型,它能够学习到自然语言的语法和语义,从而可以生成人类可读的文本。
Baihai IDP
1 年前
人工智能
·
深度学习
·
llm
·
白海科技
·
大模型推理
·
kv 缓存
LLM 推理优化探微 (3) :如何有效控制 KV 缓存的内存占用,优化推理速度?
编者按: 随着 LLM 赋能越来越多需要实时决策和响应的应用场景,以及用户体验不佳、成本过高、资源受限等问题的出现,大模型高效推理已成为一个重要的研究课题。为此,Baihai IDP 推出 Pierre Lienhart 的系列文章,从多个维度全面剖析 Transformer 大语言模型的推理过程,以期帮助读者对这个技术难点建立系统的理解,并在实践中做出正确的模型服务部署决策。
shui123546yi
1 年前
llm
·
aigc
·
vllm
·
大模型推理
vLLM介绍
vLLM 工程github地址 Paged attention论文地址vLLM: A high-throughput and memory-efficient inference and serving engine for LLMs. SkyPilot: A framework for easily and cost effectively running machine learning workloads on any cloud.