技术栈
大模型部署
爱睡觉的咋
20 天前
大模型
·
llm
·
大模型部署
怎么理解BeamSearch?
在大模型推理中,常会用到BeamSearch,本文就BeamSearch原理与应用理解展开讲解。Beam Search 是一种启发式搜索算法,常用于自然语言处理(NLP)和其他需要生成序列的任务中,比如机器翻译、自动摘要和语音识别,大模型推理等。它是一种改进的贪心算法,旨在平衡计算效率与搜索质量。
汀、人工智能
4 个月前
人工智能
·
xinference
·
大模型部署
Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程
Xorbits Inference (Xinference) 是一个开源平台,用于简化各种 AI 模型的运行和集成。借助 Xinference,您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用。通过 Xorbits Inference,可以轻松地一键部署你自己的模型或内置的前沿开源模型
SpikeKing
4 个月前
llama
·
huggingface
·
ollama
·
llama.cpp
·
大模型部署
·
gguf
·
instruct
LLM - 使用 HuggingFace + Ollama 部署最新大模型 (GGUF 格式 与 Llama 3.1)
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/141028040
XMoyas
5 个月前
分布式
·
docker
·
大模型部署
·
多机多卡
·
vllm本地部署
大模型推理:vllm多机多卡分布式本地部署
单台机器GPU资源不足以执行推理任务时,一个方法是模型蒸馏量化,结果就是会牺牲些效果。另一种方式是采用多台机器多个GPU进行推理,资源不足就堆机器虽然暴力但也是个不错的解决方法。值得注意的是多机多卡部署的推理框架,也适用于单机多卡,单机单卡,这里不过多赘述。
AI小白龙*
6 个月前
llm
·
prompt
·
embedding
·
agent
·
ai大模型
·
rag
·
大模型部署
开源模型破局OpenAI服务限制,15分钟灵活搭建RAG和Agent应用
简介: 今天,我们做了两个实验,目标在15分钟内,完成下载社区的开源模型,部署成API,替换LlamaIndex中RAG和LangChain中OpenAI接口Agent的最佳实践,并取得符合预期的结果。
AI小白龙*
6 个月前
阿里云
·
大模型
·
llm
·
prompt
·
embedding
·
ai大模型
·
大模型部署
LLM大模型实战 —— DB-GPT阿里云部署指南
简介: DB-GPT 是一个实验性的开源应用,它基于FastChat,并使用vicuna-13b作为基础模型, 模型与数据全部本地化部署, 绝对保障数据的隐私安全。 同时此GPT项目可以直接本地部署连接到私有数据库, 进行私有数据处理, 目前已支持SQL生成、SQL诊断、数据库知识问答、数据处理等一系列的工作。
汀、人工智能
7 个月前
人工智能
·
自然语言处理
·
llm
·
agent
·
ai大模型
·
vllm
·
大模型部署
LLM 大模型学习必知必会系列(十三):基于SWIFT的VLLM推理加速与部署实战
GPU设备: A10, 3090, V100, A100均可.vllm不支持bnb量化的模型. vllm支持的模型可以查看支持的模型.