使用开源通义千问模型(Qwen)搭建自己的大模型服务

目标

1、使用开源的大模型服务搭建属于自己的模型服务;

2、调优自己的大模型;

选型

采用通义千问模型,https://github.com/QwenLM/Qwen

步骤

1、下载模型文件

开源模型库:https://www.modelscope.cn/models

bash 复制代码
mkdir -p /data/qwen
cd /data/qwen
git clone --depth 1 https://www.modelscope.cn/qwen/Qwen-14B-Chat.git
# 小内存机器下载1.8B参数的,14B需要几十内存
# git clone --depth 1 https://www.modelscope.cn/qwen/Qwen-1_8B-Chat.git

2、下载使用docker 镜像

bash 复制代码
docker pull qwenllm/qwen

3、启动脚本

https://github.com/QwenLM/Qwen/blob/main/docker/docker_web_demo.sh

bash 复制代码
# 修改如下内容
IMAGE_NAME=qwenllm/qwen
QWEN_CHECKPOINT_PATH=/data/qwen/Qwen-14B-Chat
PORT=8000
CONTAINER_NAME=qwen

4、运行

访问http://localhost:8080 即可

bash 复制代码
sh docker_web_demo.sh

输出如下,可以查看容器日志是否报错。

复制代码
Successfully started web demo. Open '...' to try!
Run `docker logs ...` to check demo status.
Run `docker rm -f ...` to stop and remove the demo.

效果

文档参考

https://github.com/QwenLM/Qwen/blob/main/README_CN.md

常见问题

1、运行报错

去掉docker_web_demo.sh中--gpus all

docker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]].

2、Error while deserializing header: HeaderTooLarge

先安装yum install git-lfs 在下载模型文件,模型是git大文件管理,需要git-lfs的支持。

Traceback (most recent call last):

File "web_demo.py", line 209, in <module>

main()

File "web_demo.py", line 203, in main

model, tokenizer, config = _load_model_tokenizer(args)

File "web_demo.py", line 50, in _load_model_tokenizer

model = AutoModelForCausalLM.from_pretrained(

File "/usr/local/lib/python3.8/dist-packages/transformers/models/auto/auto_factory.py", line 511, in from_pretrained

return model_class.from_pretrained(

File "/usr/local/lib/python3.8/dist-packages/transformers/modeling_utils.py", line 3091, in from_pretrained

) = cls._load_pretrained_model(

File "/usr/local/lib/python3.8/dist-packages/transformers/modeling_utils.py", line 3456, in _load_pretrained_model

state_dict = load_state_dict(shard_file)

File "/usr/local/lib/python3.8/dist-packages/transformers/modeling_utils.py", line 458, in load_state_dict

with safe_open(checkpoint_file, framework="pt") as f:

safetensors_rust.SafetensorError: Error while deserializing header: HeaderTooLarge

3、Cannot allocate memory

内存不足,可以尝试选择1_8B小参数的模型。

相关推荐
王者鳜錸8 小时前
科大讯飞【免费】的开源模型实现录音转写与角色判定
开源·大模型·录音文件转文字·角色自动定位
zandy10118 小时前
HENGSHI SENSE 6.0技术白皮书:基于HQL语义层的Agentic BI动态计算引擎架构解析
架构·大模型·chatbi·hengshi sense·agentic bi
飞机火车巴雷特10 小时前
【论文阅读】DSPy-based neural-symbolic pipeline to enhance spatial reasoning in LLMs
论文阅读·大模型·空间推理·答案集编程
喜欢吃豆1 天前
一份面向研究人员的强化学习对齐指南:为自定义语言模型实施与评估 PPO 和 DPO
人工智能·语言模型·自然语言处理·架构·大模型
喜欢吃豆1 天前
微调高级推理大模型(COT)的综合指南:从理论到实践
人工智能·python·语言模型·大模型·微调·强化学习·推理模型
喜欢吃豆1 天前
从指令遵循到价值对齐:医疗大语言模型的进阶优化、对齐与工具集成综合技术白皮书
人工智能·python·语言模型·自然语言处理·大模型·强化学习·constitutional
CoderJia程序员甲1 天前
GitHub 热榜项目 - 日榜(2025-10-13)
ai·开源·大模型·github·ai教程
远上寒山2 天前
FlashAttention 原理与工程实践:从 IO-aware 到 H100 上的 1 PFLOPs/s
大模型·注意力机制·flash_attention·online softmax·shared memory
有点不太正常2 天前
Differentially Private Synthetic Text Generation for RAG——论文阅读
论文阅读·大模型·llm·rag
山顶夕景2 天前
【LLM】大模型vibe coding(cursor、copilot、comate)
大模型·copilot·coding·vibe coding·代码模型