QwenPaw(替代小龙虾)大模型

大模型：QwenPaw

全自动办公模型，效果如下：

指令：打开 E:\Program Files\Microsoft Visual Studio\2022\Professional\Common7\IDE\devenv.exe 帮我写一个 WPF C# 科学计算器代码，并运行它。

结果：视频地址：https://www.bilibili.com/video/BV1G25v6fEqj/

使用感觉，超级帮，剩下微调即可。

QwenPaw

Thinking

execute_shell_command

Thinking

execute_shell_command

Thinking

execute_shell_command

Thinking

write_file

Thinking

We need to write the code-behind for the scientific calculator. Let's read the existing MainWindow.xaml.cs first.

read_file

Thinking

write_file

Thinking

write_file

Thinking

execute_shell_command

Thinking

execute_shell_command

Thinking

execute_shell_command

Thinking

execute_shell_command

Thinking

execute_shell_command

Thinking

execute_shell_command

Thinking

已成功使用 Visual Studio 2022 打开科学计算器项目（ScientificCalculator.csproj），并通过 dotnet run 启动了应用程序。WPF 计算器窗口应该已经弹出，您可以在其中进行科学计算运算。

说明：

控制台出现的 CS8600、CS8601、CS8602 警告仅是可空引用警告，不影响程序运行。
由于 WPF 应用程序会占用控制台（显示窗口并运行消息循环），dotnet run 命令会一直等待直到窗口关闭。若您想结束调试，请直接关闭计算器窗口或在 Visual Studio 中停止调试。

以上是它所有步骤，执行几分钟时间，根据电脑配置完成指令时间不固定。

如果您需要对代码进行修改或有其他需求，请随时告知！祝您使用愉快。

QwenPaw-Flash

QwenPaw-Flash 是一款专为 QwenPaw 自主智能体场景深度优化的轻量级模型。该模型从训练阶段起就针对 QwenPaw 任务进行了专门优化，在工具调用、命令执行、记忆管理以及多步规划等方面展现出更强的智能体性能。

能力

QwenPaw-Flash 的核心优势源于其与 QwenPaw 生态系统的原生集成。我们构建了大量高质量的智能体轨迹数据，这些数据采样自真实的 QwenPaw 环境，系统性地提升了模型在高频日常场景中的熟练度。关键特性包括：

主动记忆管理： 自主识别、存储和检索持久化的用户偏好与任务状态，确保多轮交互间高度的逻辑一致性。
原生文件解析： 针对终端操作和文件系统编排进行优化，擅长生成精确的 CLI 命令并执行复杂的多步文件 I/O 任务。
高效信息检索： 强化了对网络搜索工具的调用能力，具备精准的搜索意图识别和多步网页导航功能，能有效定位并查询在线信息。
智能引导： 内置对 QwenPaw 功能图谱的认知，能根据实时操作上下文主动推荐功能路径并提供故障排查建议。

模型概览

QwenPaw-Flash-2B/4B/9B 基于 Qwen3.5-2B/4B/9B 微调而来，共享相同的架构参数。

类型： 带视觉编码器的因果语言模型
训练阶段： 后训练（Post-training）
参数量： 2B/4B/9B
隐藏层维度： 2048/2560/4096
Token Embedding： 248320（已填充）
层数： 24/32/32
隐藏层结构： 6/8/8 × (3 × (门控 DeltaNet → FFN) → 1 × (门控注意力 → FFN))
门控 DeltaNet：
- 线性注意力头数量： V 为 16/32/32，QK 为 16/16/16
- 头维度： 128
门控注意力：
- 注意力头数量： Q 为 8/16/16，KV 为 2/4/4
- 头维度： 256
旋转位置编码维度： 64
前馈网络（FFN）： 中间维度：6144/9216/12288
语言模型输出： 248320（与 token embedding 绑定）
上下文长度： 原生支持 262,144 tokens

基准测试结果

QwenPaw 复杂的上下文工程和工具使用对模型评估提出了更高挑战。为此，我们开发了一套专为 QwenPaw 环境定制的基准测试，系统性地评估模型在五个高频使用场景中的表现，覆盖关键操作维度。

测试结果表明，QwenPaw-Flash 在多个任务类别中均取得显著提升，性能可媲美领先的旗舰模型，同时资源消耗大幅降低。

图 1：QwenPaw-Flash-9B 与其他模型的对比。

图 2：QwenPaw-Flash-2B/4B/9B 与其各自基线模型的对比。

快速开始

部署 QwenPaw-Flash

QwenPaw-Flash 可通过流行的推理框架以 API 形式提供服务。以下示例命令展示了如何为 QwenPaw-Flash 启动兼容 OpenAI 的 API 服务器。

llama.cpp

更多使用指南请参阅 Qwen llama.cpp 文档。

我们建议您克隆 llama.cpp 并按照官方指南进行安装。我们遵循 llama.cpp 的最新版本。

复制代码

llama-server -m /path/to/.gguf

通过 Chat Completions API 使用 QwenPaw-Flash

服务器启动后，您可通过标准 HTTP 请求或兼容 OpenAI 的 SDK 访问 QwenPaw-Flash。

前置条件

请确保已安装 OpenAI Python SDK 并配置好环境变量：

复制代码

pip install -U openai # Set the following accordingly export OPENAI_BASE_URL="http://localhost:8000/v1" export OPENAI_API_KEY="EMPTY"

纯文本输入示例

以下 Python 脚本演示了如何通过 OpenAI SDK 与模型交互：

复制代码

fromopenaiimportOpenAI# Configured by environment variables client = OpenAI() messages = [ {"role": "user", "content": "Hello, QwenPaw!"}, ] chat_response = client.chat.completions.create( model=<your_model_path>, messages=messages, max_tokens=81920, temperature=1.0, top_p=0.95, presence_penalty=1.5, extra_body={ "top_k": 20, }, ) print("Chat response:", chat_response)

联系我们

QwenPaw-Flash 由 AgentScope 团队开发。如果您希望给我们留言，欢迎通过以下渠道与我们联系。