大模型部署

大模型:

docker run -d --gpus all -v D:\ai\DeepSeek-R1-Distill-Qwen-1.5B:/models -p 8000:8000 --ipc=host docker.1panel.live/vllm/vllm-openai:latest /models --trust-remote-code --max-model-len 4096 --served-model-name qwen-1.5b --gpu-memory-utilization 0.7 --disable-log-requests

embedding模型

docker run -d --gpus all -v D:\ai\Qwen3-VL-Embedding-2B:/models -p 8001:8001 --ipc=host docker.1panel.live/vllm/vllm-openai:latest /models --trust-remote-code --max-model-len 4096 --served-model-name Embedding-2B --gpu-memory-utilization 0.5 --disable-log-requests

curl http://localhost:8000/v1/completions -H "Content-Type: application/json" -d "{\"model\":\"qwen-1.5b\",\"prompt\":\"你好,你是谁?简单介绍一下自己\",\"max_tokens\":200,\"temperature\":0.7}"

langchain必须结合langchain_openai进行远程调用

相关推荐
一次旅行6 分钟前
HyperTool:突破传统工具调用限制,让Agent更高效执行复杂任务
人工智能
陈天伟教授37 分钟前
图解人工智能(58)人工智能应用-围棋国手
人工智能·语音识别·机器翻译
闻道参看40 分钟前
2026年AI优质企业培训系统综合测评:合规管控/数据量化
人工智能
老虾头1 小时前
科技贴近烟火:本地化 AI,赋能各行各业日常经营
人工智能
毒爪的小新1 小时前
Linux 环境极速部署 vLLM:从零搭建生产级大模型推理服务
linux·人工智能·ai·语言模型·vllm
老大白菜1 小时前
25美元,DIY开源可穿戴智能AI眼镜:Arduino+乐鑫ESP32+DeepSeek项目
人工智能
遇见火星2 小时前
Docker Compose 完全入门:一键启动所有容器
运维·docker·容器·docker compose
岁月宁静2 小时前
RAG 文档摄入全链路,从原理到生产落地
vue.js·人工智能·python
小和尚同志2 小时前
AI 自动化测试探索(一):Playwright MCP
前端·人工智能·aigc