CoPaw模型本地部署测试

CoPaw 是阿里发布的"本地智能体工作台"(Agent Workstation)。它本身更像一套框架或中间件,和小龙虾这类产品比较接近;这套工具中包含一个可以本地部署的小模型名叫 CoPaw。

源码: https://github.com/agentscope-ai/CoPaw

最近类小龙虾的工具出得很多。本篇主要想聊的,不是 CoPaw 工作台本身,而是它提供的、也叫 CoPaw 的本地小模型。这个模型既可以跑在 GPU 上,也可以跑在 CPU 上。CoPaw-Flash 系列专门针对本地部署做了优化,硬件门槛比较低。比如 CoPaw-Flash-4B-Q8_0 是 4B 尺寸下的 Q8 量化版本,我这次实测时,内存和显存占用都没有超过 10G。

那是不是说,以后在自己机器上部署小模型,就不用再花 token 了?另外,除了 CoPaw 工作台,其他 Agent 比如龙虾,能不能也接这个模型?好不好配?本文记录一下我的实验方法、实验数据,以及一些还不算成熟的判断,仅供参考。

请注意:由于LLM模型和工作台名字都叫CoPaw,为区分二者,下面分别称为 CoPaw工作台和CoPaw 模型。

安装 CoPaw 工作台

安装很简单,依旧以docker安装为例:

bash 复制代码
docker run -p 8088:8088 -v copaw-data:/app/working -v copaw-secrets:/app/working.secret agentscope/copaw:latest copaw app --host 0.0.0.0 --port 8088

执行后,就可以在本机或者局域网的其它机器上通过端口8088访问CoPaw服务了。

界面大概长这样,和其它Agent工具的Web差不多。在使用之前先选择模型,如果在这个界面往下拉可以看到,主流模型都支持:OpenAI,Gemini,阿里,Deepseek都可在此界面配置APIKey。

这里比较特别的是 CoPaw Local,也就是它自带的本地小模型入口。点开之后就能直接安装。2026 年 4 月 1 日我做实验时,默认提供 2.9G 和 4.8G 两个版本,我装的是 4.8G 那个。

安装好之后,在聊天界面的右上角可以切换到本地模型。

默认拉下来的 Docker 是 CPU 环境,也就是在 CPU 上跑这个本地模型,速度肯定不会快。第一次跟它说"你好",回复花了五分钟,过程中可能包含加载模型和初始化这些动作。后面再问别的问题,基本能压到一分钟以内,但也谈不上快。从后台看,思考过程中基本一直跑满 7 个 CPU,内存大约占到 70%(测试机器内存是 16G)。

在 GPU 上测试

因为 GPU 和 CPU 用的工具链不一样,而我这次懒得折腾 CoPaw 里的 GPU 支持。刚好测试机上有 GPU,也装过 ollama,我就把本地模型放到 ollama 里,又测了一下在 GPU 上的效果。如果这条路能走通,那龙虾之类的其他 Agent 理论上也可以用这个本地模型。

好久没用了,先更新了一下ollama镜像

bash 复制代码
# 停止并删除你正在运行的旧容器 
docker stop ollama && docker rm ollama
docker pull ollama/ollama
nvidia-docker run --rm -d -e OLLAMA_ORIGINS="app://obsidian.md*" --gpus=all -v /exports/ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

下载模型

在 4 月 1 日做实验时,还没法直接用 ollama pull 拉 CoPaw-Flash 模型,所以我直接用了在 CoPaw 工作台里下载好的 gguf 包(也可以从 Hugging Face 下载)。把这个 gguf 文件放到 ollama 能看到的目录里就行,比如 CoPaw-Flash-4B-Q8_0.gguf

配置模型

写一个 Modelfile,如:/tmp/Modelfile

bash 复制代码
FROM /path/to/your/copaw-xxx.gguf
TEMPLATE {{ .Prompt }}
RENDERER qwen3.5
PARSER qwen3.5
PARAMETER presence_penalty 1.5
PARAMETER temperature 1
PARAMETER top_k 20
PARAMETER top_p 0.95

以上配置参考的是源码里的 website/public/docs/models.zh.md。这里不要写得太简单,不然模型可能调不起工具。

安装和测试

bash 复制代码
ollama create copaw-flash-4b -f /tmp/Modelfile
ollama list
ollama run copaw-flash-4b "你好"

在 GPU 上运行,速度就快很多了,基本可以算"秒回",显存大约会占到 6G。

如果还想在 CoPaw 工作台里用GPU版本,可以先到左侧的 Models 里配置,在 ollama 的 Setting 中填好 IP 地址等信息,再点 Models 里的 Discover,就能看到新装的模型。

之后在聊天界面右上角切到 ollama 提供的模型,就可以直接聊了。

最后

至于小模型的聊天和调用工具能力,我只做了很简单的测试。普通聊天是可以的,也确实有调工具的能力。但一到更具体的任务,比如问今天的天气、看看某个目录里有什么文件,结果就不太行了,经常 Thinking 半天,然后没下文了。当然,这里也不排除是我还没把配置调到最佳。

如果整个流程都跑在自己机器上的本地模型里,那推理这部分就不会花 token 了。并且CoPaw模型能提供给别的 Agent 使用,上手难度也没有我一开始想得那么高,至少通过 ollama 这一层是能接起来的------整个流程很容易跑通。

但从这次实验看,最后的判断还是:能用,但能力有限。普通聊天可以,简单工具调用偶尔也能成;真到具体任务上,目前这个 4B 模型还不太稳。现在我还没遇到一个和现有 Agent 配合起来、效果真正让我满意的本地部署模型。如果谁有用得比较好的,也欢迎告诉我。

相关推荐
逸风尊者3 分钟前
Robotaxi 行业日报 | 2026-05-18
人工智能
Lan_Se_Tian_Ma4 分钟前
使用Cursor封装Flutter项目基建框架
前端·人工智能·flutter
白日做梦Q5 分钟前
Miniconda 新手保姆级教程:从安装到熟练使用(全程无跳步,避坑指南附全)
人工智能·深度学习·算法·机器学习
碳基硅坊5 分钟前
投标标书制作的新思路:OpenClaw能帮什么
人工智能·openclaw·智能投标
189228048616 分钟前
NV266固态MT29F32T08GSLBHL8-36QMES:B
大数据·服务器·人工智能·科技·缓存
吃好睡好便好6 分钟前
在Matlab中绘制变半径柱面图
开发语言·人工智能·学习·算法·matlab
愚公搬代码6 分钟前
【愚公系列】《AI漫剧创作一本通》026-Al 漫剧视频生成(首尾帧控制与镜头稳定性)
人工智能·音视频
ZGi.ai7 分钟前
政务AI平台建设:统一接入、权限隔离与数据合规工程实践
人工智能·私有化部署·政务·数据合规·统一接入·政务ai·权限隔离
码农阿强7 分钟前
GPT-5.5 与 GPT-5.5-Pro 技术差异及接口接入实践
人工智能·gpt·ai·aigc·ai编程·ai写作·gpu算力
我没胡说八道8 分钟前
论文AI改写工具深度实测测评|避坑对比、优劣短板、场景适配全解析
人工智能·经验分享·深度学习·aigc·论文·wps