大模型部署

爱睡觉的咋20 天前
大模型·llm·大模型部署
怎么理解BeamSearch?在大模型推理中,常会用到BeamSearch,本文就BeamSearch原理与应用理解展开讲解。Beam Search 是一种启发式搜索算法,常用于自然语言处理(NLP)和其他需要生成序列的任务中,比如机器翻译、自动摘要和语音识别,大模型推理等。它是一种改进的贪心算法,旨在平衡计算效率与搜索质量。
汀、人工智能4 个月前
人工智能·xinference·大模型部署
Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程Xorbits Inference (Xinference) 是一个开源平台,用于简化各种 AI 模型的运行和集成。借助 Xinference,您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用。通过 Xorbits Inference,可以轻松地一键部署你自己的模型或内置的前沿开源模型
SpikeKing4 个月前
llama·huggingface·ollama·llama.cpp·大模型部署·gguf·instruct
LLM - 使用 HuggingFace + Ollama 部署最新大模型 (GGUF 格式 与 Llama 3.1)欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/141028040
XMoyas5 个月前
分布式·docker·大模型部署·多机多卡·vllm本地部署
大模型推理:vllm多机多卡分布式本地部署单台机器GPU资源不足以执行推理任务时,一个方法是模型蒸馏量化,结果就是会牺牲些效果。另一种方式是采用多台机器多个GPU进行推理,资源不足就堆机器虽然暴力但也是个不错的解决方法。值得注意的是多机多卡部署的推理框架,也适用于单机多卡,单机单卡,这里不过多赘述。
AI小白龙*6 个月前
llm·prompt·embedding·agent·ai大模型·rag·大模型部署
开源模型破局OpenAI服务限制,15分钟灵活搭建RAG和Agent应用简介: 今天,我们做了两个实验,目标在15分钟内,完成下载社区的开源模型,部署成API,替换LlamaIndex中RAG和LangChain中OpenAI接口Agent的最佳实践,并取得符合预期的结果。
AI小白龙*6 个月前
阿里云·大模型·llm·prompt·embedding·ai大模型·大模型部署
LLM大模型实战 —— DB-GPT阿里云部署指南简介: DB-GPT 是一个实验性的开源应用,它基于FastChat,并使用vicuna-13b作为基础模型, 模型与数据全部本地化部署, 绝对保障数据的隐私安全。 同时此GPT项目可以直接本地部署连接到私有数据库, 进行私有数据处理, 目前已支持SQL生成、SQL诊断、数据库知识问答、数据处理等一系列的工作。
汀、人工智能7 个月前
人工智能·自然语言处理·llm·agent·ai大模型·vllm·大模型部署
LLM 大模型学习必知必会系列(十三):基于SWIFT的VLLM推理加速与部署实战GPU设备: A10, 3090, V100, A100均可.vllm不支持bnb量化的模型. vllm支持的模型可以查看支持的模型.