cudatoolkit

CHPCWWHSU16 天前
人工智能·llm·llama·cpp·cudatoolkit
深入 llama.cpp:词汇表与分词——从文本到 Token (4)大语言模型无法直接处理原始字符串,必须先将文本切分为词元(Token);随后结合模型内置的词汇表与嵌入(Embedding)矩阵,将词元数组映射为高维向量序列,作为后续模型推理计算的输入基础。本章将深入探讨大语言模型推理的关键准备环节——词汇表与分词,从基础知识、实验与现象和分析与结论三个方面展开详细的介绍。
CHPCWWHSU21 天前
llm·llama·cpp·cudatoolkit
模型加载与初始化(3)在 llama.cpp 中,模型推理主要基于 GGUF 格式展开。GGUF 是一种专为存储基于 GGML 及其相关执行器进行推理的模型文件而设计的格式。作为一种二进制格式,其设计初衷在于实现模型的高效加载与保存,并确保良好的易读性。本章将深入探讨大语言模型推理的关键准备环节——模型的加载与初始化部分,并从 GGUF格式介绍及GGUF格式加载与解析两个维度展开详细介绍。
CHPCWWHSU1 个月前
llm·llama·cpp·cudatoolkit
llama-server - 从命令行到HTTP Serverllama-server是llama.cpp中用于发布大模型服务的工具。它通过极简的命令行配置,将复杂的模型推理过程封装为通用的 HTTP 接口;在底层,它选择以纯 C++ 编写的 cpp-httplib 作为服务框架的底层。本章分为应用实战与底层架构两部分。首先,我们将介绍不同参数下的大模型服务发布;接着,我们将详细解析 cpp-httplib 在项目中的具体实现,帮助读者掌握该服务端在网络调度层面的运行逻辑。
CHPCWWHSU1 个月前
llm·llama·cpp·cudatoolkit
初识llama.cpp - 轻量级推理引擎在 LLM 落地应用的过程中,推理效率和部署门槛是开发者面临的两大痛点。llama.cpp 以其卓越的跨平台兼容性和惊人的推理速度,成为了当前本地推理事实上的工业标准。本系列文章将构建一条从“应用使用”到“源码解析”的学习曲线,包含入门与概览、模型加载与初始化、推理循环核心、计算后端与性能调优、总结与展望五个部分。第一章“初识 llama.cpp-轻量级推理引擎”作为入门与概览的首篇文章,将从简介、编译、本地运行三个方面,快速建立对llamacpp的认识。
AI大模型学徒4 个月前
pytorch·nvidia·cudnn·nimiconda·5090驱动安装·cudatoolkit
5090NVIDIA、CUDAToolkit、cuDNN、Miniconda、PyTorch安装经查询从官网下载 RTX5090驱动报错没权限后显示🔹 建议(AI / GPU 开发场景)你做智能体开发、Docker + GPU、PyTorch / CUDA → 推荐用 .run 文件安装最新驱动(580 系)
我是有底线的