llm 推理

GitHub 开源项目解析：rk‑llama.cpp —— 基于 llama.cpp 的 Rockchip NPU 加速本地推理引擎随着大语言模型（LLM）在边缘设备和本地部署场景的广泛应用，如何在资源受限的硬件上高效运行这些模型成为一个热门课题。标准的 LLM 推理引擎提供了一套轻量、高效、跨平台的 C/C++ 推理框架，可在 CPU、GPU 甚至 Vulkan、SYCL 等多种硬件上运行 LLM 推理。

LLM 推理优化探微 (4) ：模型性能瓶颈分类及优化策略编者按：在人工智能浪潮袭卷全球的大背景下，进一步提升人工智能模型性能，满足更多应用需求已经刻不容缓。如何优化模型延迟和吞吐量，成为了业界亟待解决的重要问题。

我是有底线的