大模型部署

大模型:

docker run -d --gpus all -v D:\ai\DeepSeek-R1-Distill-Qwen-1.5B:/models -p 8000:8000 --ipc=host docker.1panel.live/vllm/vllm-openai:latest /models --trust-remote-code --max-model-len 4096 --served-model-name qwen-1.5b --gpu-memory-utilization 0.7 --disable-log-requests

embedding模型

docker run -d --gpus all -v D:\ai\Qwen3-VL-Embedding-2B:/models -p 8001:8001 --ipc=host docker.1panel.live/vllm/vllm-openai:latest /models --trust-remote-code --max-model-len 4096 --served-model-name Embedding-2B --gpu-memory-utilization 0.5 --disable-log-requests

curl http://localhost:8000/v1/completions -H "Content-Type: application/json" -d "{\"model\":\"qwen-1.5b\",\"prompt\":\"你好,你是谁?简单介绍一下自己\",\"max_tokens\":200,\"temperature\":0.7}"

langchain必须结合langchain_openai进行远程调用

相关推荐
机器之心1 分钟前
大佬深度解析:Coding Agent的底层运行逻辑是什么?
人工智能·openai
爱吃的小肥羊1 分钟前
Claude降智再被实锤!推理能力严重下滑,用户连夜跑路 Codex
人工智能·aigc·openai
Rabbit_QL11 分钟前
【理论分析】信息熵的极值问题:什么时候最小?什么时候最大?
人工智能·深度学习
❀͜͡傀儡师12 分钟前
Spring AI Alibaba vs. AgentScope:两个阿里AI框架,如何选择?
java·人工智能·spring
njsgcs21 分钟前
MPNN框架 消息生成与聚合 (公式 1)
人工智能
.柒宇.28 分钟前
MySQL双主同步
linux·数据库·mysql·docker
格林威32 分钟前
AI视觉检测:INT8 量化对工业视觉检测精度的影响
linux·运维·人工智能·数码相机·计算机视觉·视觉检测·工业相机
新缸中之脑34 分钟前
ROS 2 Composition简明教程
人工智能
艾为电子38 分钟前
【应用方案】会议&面试记录终结者-艾为AI智能录音卡方案,清晰拾音,解放双手
人工智能·ai
AI攻城狮1 小时前
Adaptive Thinking 的代价:当 AI 自己决定"想多少"
人工智能·云原生·aigc