大模型部署

猫先生Mr.Mao

2025年10月AGI月评｜OmniNWM/X-VLA/DreamOmni2等6大开源项目：自动驾驶、机器人、文档智能的“技术底座”全解析〔更多精彩AI内容，尽在「魔方AI空间」，引领AIGC科技时代〕本文作者：猫先生知识库主页：https://oizxc9sdhbc.feishu.cn/wiki/FGS5wST0Hiy6xJklyPTcTVOqnAd

llama.cpp：本地大模型推理的高性能 C++ 框架llama.cpp是由Georgi Gerganov发起的纯C/C++开源框架，专注于在本地设备（如普通PC、树莓派、嵌入式终端）上实现低资源、高性能的大语言模型（LLM）推理。其核心目标是打破云端依赖，让开发者能在消费级硬件上本地运行Meta LLaMA、Mistral、Gemma等主流开源模型，兼顾隐私保护与推理效率。

【ShiMetaPi】边缘计算高并发视频流AI分析应用：BM1684X算力盒子上的ResNet部署指南深度神经网络（DNN）的性能通常随网络层数增加而提升，但当层数超过一定阈值时，会出现 “退化问题”（Degradation Problem）：网络准确率饱和甚至下降，并非由于过拟合或梯度消失 / 爆炸，而是深层网络难以优化。

汀、人工智能

AI-Compass宝藏资源库：构建最全面的AI学习与实践生态，服务AI全群体AI-Compass将为你和社区提供在AI技术海洋中航行的方向与指引。无论你是刚踏入AI领域的初学者，还是寻求技术突破的进阶开发者，都能在这里找到通往AI各大技术方向的清晰路径和实践指南。作为一个全面覆盖人工智能技术栈的综合性开源项目，AI-Compass 不仅仅是一个简单的资源收集库，更是一个经过精心策划和系统化组织的AI学习生态系统。我们深度整合了从基础理论到前沿应用的完整知识体系，涵盖大语言模型、多模态AI、机器学习、深度学习、计算机视觉、自然语言处理、推荐系统、强化学习等核心技术领域，以及RAG、

2025人工智能AI新突破：PINN内嵌物理神经网络火了最近在淘金的时候发现基于物理信息的神经网络（简称PINN）也是个研究热点，遂研读了几篇经典论文，深觉这也是个好发论文的方向，所以火速整理了一些个人认为很值得一读的PINN论文和同学们分享。

阿色树新风

〖大系统观数智〗: 油气大模型部署应用策略讨论概述：根据业务层级和专业角色部署规模适当的模型。从基础模型到行业/领域模型，再到各层级和专业模型，按照大系统观全息思维，采取逐级知识蒸馏的策略保持系统的结构完整性、一致性和协作能力，逐级缩小模型规模，同时按需分布式自组织部署，配合本地知识库等，建设全息有机系统，不宜过度大集中。

（一）DeepSeek大模型安装部署-Ollama安装访问ollama网址library可以支持下载 1.5b 7b 8b 14b 32b 70b 671b模型

爱睡觉的咋

怎么理解BeamSearch？在大模型推理中，常会用到BeamSearch，本文就BeamSearch原理与应用理解展开讲解。Beam Search 是一种启发式搜索算法，常用于自然语言处理（NLP）和其他需要生成序列的任务中，比如机器翻译、自动摘要和语音识别，大模型推理等。它是一种改进的贪心算法，旨在平衡计算效率与搜索质量。

汀、人工智能

Xinference实战指南：全面解析LLM大模型部署流程，携手Dify打造高效AI应用实践案例，加速AI项目落地进程Xorbits Inference (Xinference) 是一个开源平台，用于简化各种 AI 模型的运行和集成。借助 Xinference，您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理，并创建强大的 AI 应用。通过 Xorbits Inference，可以轻松地一键部署你自己的模型或内置的前沿开源模型

LLM - 使用 HuggingFace + Ollama 部署最新大模型 (GGUF 格式与 Llama 3.1)欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/141028040

大模型推理：vllm多机多卡分布式本地部署单台机器GPU资源不足以执行推理任务时，一个方法是模型蒸馏量化，结果就是会牺牲些效果。另一种方式是采用多台机器多个GPU进行推理，资源不足就堆机器虽然暴力但也是个不错的解决方法。值得注意的是多机多卡部署的推理框架，也适用于单机多卡，单机单卡，这里不过多赘述。

开源模型破局OpenAI服务限制，15分钟灵活搭建RAG和Agent应用简介：今天，我们做了两个实验，目标在15分钟内，完成下载社区的开源模型，部署成API，替换LlamaIndex中RAG和LangChain中OpenAI接口Agent的最佳实践，并取得符合预期的结果。

LLM大模型实战 —— DB-GPT阿里云部署指南简介： DB-GPT 是一个实验性的开源应用，它基于FastChat，并使用vicuna-13b作为基础模型, 模型与数据全部本地化部署, 绝对保障数据的隐私安全。同时此GPT项目可以直接本地部署连接到私有数据库, 进行私有数据处理，目前已支持SQL生成、SQL诊断、数据库知识问答、数据处理等一系列的工作。

汀、人工智能

LLM 大模型学习必知必会系列(十三)：基于SWIFT的VLLM推理加速与部署实战GPU设备: A10, 3090, V100, A100均可.vllm不支持bnb量化的模型. vllm支持的模型可以查看支持的模型.

我是有底线的