WeClaw_61_当AI把内部协议泄漏给用户：DeepSeek DSML标记污染content字段的全链路排查与修复

第三季系列文章第 4 篇（总第 61 篇） - DeepSeek API · DSML 标记泄漏 · Unicode hex 分析 · 流式过滤 · API 契约缺陷

📚 专栏信息

《从零到一构建跨平台 AI 助手：WeClaw 实战指南》专栏 · 第三季

专栏定位：面向开发者和技术决策者的实战专栏，用真实案例和完整代码带你理解如何构建生产级 AI 应用

本文是模块五·问题诊断实战的最新一篇，深入剖析 DeepSeek 模型在流式 API 中将内部工具调用协议（DSML）泄漏到用户可见文本字段的系统性 Bug，以及我们如何通过 hex 级字节分析 + 多层防御过滤器彻底修复。

👨‍💻 作者与项目

作者简介 ：翁勇刚 WENG YONGGANG

新概念龙虾-WeClaw 开发团队负责人，一群专注于跨平台 AI 应用的实践者

理念："再复杂的技术，也能用代码讲清楚"

💻 项目地址：https://github.com/wyg5208/weclaw.git
🌐 官网地址：https://weclaw.link
📝 作者 CSDN：https://blog.csdn.net/yweng18
⭐ 欢迎 Star⭐、Fork🍴、贡献代码🤝

📝 摘要

本文结构概览 ：

从一个看似简单的 Bug------AI 回复中出现了 <‖DSML‖tool_calls> 这样的"乱码"------出发，逐步拆解 OpenAI 兼容 API 的双通道架构（delta.content vs delta.tool_calls），揭示 DeepSeek 模型违反 API 契约将内部协议泄漏到用户可见字段的根本原因，并通过 hex 字节级分析证明"肉眼不可信"的 Unicode 陷阱，最终给出多层防御的过滤方案。

背景：

WeClaw 使用 DeepSeek 模型作为核心推理引擎。用户反馈在语音对话场景中，AI 的文本回复中突然出现了原始的工具调用标记（DSML），这些标记不仅显示在聊天区，还被 TTS 朗读出来------用户听到的是"左竖线竖线 DSML 竖线竖线 tool calls 右尖括号"这样的乱码。

核心问题 ：

为什么本应只在 delta.tool_calls 中流转的工具调用指令，会污染到 delta.content（用户可见文本）？上一轮修复（v5.25.x）声称解决了此问题，为什么重启后仍然出现？

解决方案 ：

通过 hex 字节级分析发现，上一轮修复添加的标记使用单竖线 ｜ (U+FF5C × 1)，而 DeepSeek 模型实际输出双竖线 ｜｜ (U+FF5C × 2) + DSML 关键字格式。新增 <‖DSML‖ 前缀标记 + 合并重复正则定义，实现覆盖所有已知格式变体的多层防御。

关键成果：

双竖线格式 DSML 标记过滤率：0% → 100%
单向字符差异导致的过滤器失效被彻底修复
10/10 测试用例全部通过（含真实会话历史样本）
揭示了 DeepSeek API 的一个系统性缺陷

适合读者：使用 DeepSeek API 的开发者、对流式 LLM 输出处理有需求的工程师、对 Unicode 编码陷阱感兴趣的开发者

阅读时长：约 15 分钟

关键词 ：DeepSeek、DSML、Function Calling、content 污染、流式过滤、Unicode hex 分析、API 契约

一、问题现场 ------ 当 AI 开始"说代码"

1.1 用户看到的诡异现象

2026 年 6 月 13 日晚上，用户在 WeClaw 中对 AI 说："西溪公主回来了，你唱一首童话诗歌给她吧。"

AI 的回复令人困惑：

复制代码

好的，我先写一首小诗，再念给西溪公主听：

<‖DSML‖tool_calls>
<‖DSML‖invoke name="voice_output_speak">
<‖DSML‖parameter name="text" string="true">西溪公主回城堡...</‖DSML‖parameter>
</‖DSML‖invoke>
</‖DSML‖tool_calls>

这些 <‖DSML‖...> 标签直接显示在了聊天区。更糟糕的是------因为 WeClaw 支持 TTS 流式朗读------这些标记被语音引擎读了出来。

1.2 为什么 v5.26.0 之后特别明显？

这并非巧合。v5.26.0 新增了 voice_output 工具决策树，使 LLM 更频繁地调用语音工具。但 DSML 过滤器本身的缺陷在更早版本就已存在------只是之前工具调用频率低，用户偶尔才碰到；v5.26.0 之后几乎每次语音对话都会触发。

关键洞察：性能优化和新功能上线，往往会"暴露"已有的隐蔽 Bug，而不是"引入"它们。

二、架构解读 ------ 为什么工具调用会进入"用户可见"通道

2.1 OpenAI 兼容 API 的双通道设计

OpenAI 兼容的流式 API 中，每个 delta chunk 包含两个关键字段：

python 复制代码

delta = chunk.choices[0].delta

delta.content      # ← 通道1：用户可见的文本内容
delta.tool_calls   # ← 通道2：工具调用的结构化指令

按照 API 规范：

delta.content：只应包含给用户看的自然语言文本
delta.tool_calls：只应包含结构化的函数调用 JSON

这两个通道在 WeClaw 的代码中是完全分离的：

python 复制代码

# 通道1：文本内容 → 过滤 DSML → yield 给用户
delta_content = getattr(delta, "content", None) or ""
if delta_content and not _dsml_started:
    # ... DSML 过滤逻辑 ...
    yield delta_content  # → 发送到聊天区和 TTS

# 通道2：工具调用 → 解析 → 执行
delta_tool_calls = getattr(delta, "tool_calls", None)
if delta_tool_calls:
    for dtc in delta_tool_calls:
        # 收集 function name + arguments
        # → 调用 tool_registry.call_function()

2.2 DeepSeek 的"漏水"行为

问题出在 DeepSeek 模型的实现上。在标准的 API 规范下，工具调用只应该 出现在 delta.tool_calls 中。但 DeepSeek 模型在生成响应时，会同时往 delta.content 中输出其原生的 DSML（DeepSeek Markup Language）标记：

复制代码

┌─ delta.content     → "好的，...<‖DSML‖tool_calls>..."  ← 泄漏！
└─ delta.tool_calls  → [{"function": {"name": "voice_output_speak", ...}}]  ← 正确

这本质上是一个 API 契约违反：上游服务没有正确剥离内部协议标记，导致它们"泄漏"到了用户可见的文本通道。

类比来说：你去餐厅点菜，服务员递给你一张菜单（content），同时也递了一张内部厨房订单（tool_calls）。但是菜单上居然也印着"后厨3号灶台、少盐、大火快炒"------这是厨房内部信息不该给顾客看的。

三、诊断过程 ------ hex 分析的威力

3.1 第一轮修复为什么失效？

v5.25.x 期间，我们已经添加了 DSML 过滤器，包含以下标记：

python 复制代码

_DSML_MARKERS = (
    "<｜DSML｜>",           # 单竖线 DSML 格式
    "<｜tool｜calls｜>",    # 单竖线无 DSML 格式
    "<｜invoke｜",          # 调用开始
    "<｜parameter｜",       # 参数开始
    # ... 共 9 个标记
)

这些标记在文本编辑器中看起来和用户报告的格式完全一样。但它们真的匹配吗？

3.2 hex 分析揭示的真相

关键的突破来自于对会话历史 JSONL 文件的 hex 级别分析。我们编写脚本直接检查实际模型输出的字节序列：

python 复制代码

# 从会话历史中提取的实际 DSML 片段
Hex: 3cefbd9cefbd9c44534d4cefbd9cefbd9c746f6f6c5f63616c6c733e

# 逐字节解码：
3c        → '<'  (U+003C)
efbd9c    → '｜' (U+FF5C)  ← 第一个竖线
efbd9c    → '｜' (U+FF5C)  ← 第二个竖线！双竖线！
44 53 4d 4c → 'DSML'
efbd9c    → '｜' (U+FF5C)
efbd9c    → '｜' (U+FF5C)  ← 又是双竖线！
74 6f 6f 6c 5f 63 61 6c 6c 73 → 'tool_calls'
3e        → '>'

发现：模型实际输出的是 <‖DSML‖tool_calls>------使用双竖线 ｜｜ + DSML 关键字。

而我们的过滤器标记是 <｜tool｜calls｜>------使用单竖线 + 无 DSML 关键字。

3.3 为什么肉眼看不出来？

复制代码

用户看到的文本：  <｜tool｜calls｜>    和    <‖DSML‖tool_calls>
过滤器的标记：    <｜tool｜calls｜>     ← 匹配第一个
模型实际输出：    <‖DSML‖tool_calls>   ← 完全不匹配！

｜ (U+FF5C FULLWIDTH VERTICAL LINE) 和两个 ｜ 并列在屏幕上几乎无法区分。Unicode 字符的视觉相似性构成了一个完美的陷阱------你以为修好了，实际上过滤器的核心匹配逻辑从未生效。

验证脚本的结果：

复制代码

测试1: 当前标记 vs 实际模型输出（双竖线格式）
样本1: '<‖DSML‖tool_calls>'     → ❌ 无匹配!
样本2: '<‖DSML‖invoke name="...">' → ❌ 无匹配!
样本3: '<‖DSML‖parameter name="...">' → ❌ 无匹配!

9 个标记对 5 个真实样本的匹配率：0/5。 过滤器从未真正工作过。

四、修复方案 ------ 多层防御策略

4.1 方案设计

修复的核心思路是前缀匹配：不尝试枚举所有可能的标签组合，而是匹配 DSML 格式的"特征前缀"。

复制代码

DeepSeek DSML 标签结构：
<‖DSML‖tool_calls>     ← 所有标签都以 <‖DSML‖ 开头
</‖DSML‖tool_calls>    ← 闭合标签以 </‖DSML‖ 开头
<‖DSML‖invoke name="...">
<‖DSML‖parameter name="..." string="true">

只需要两个前缀标记即可覆盖所有变体：

python 复制代码

# ★ 模型最常输出的双竖线 DSML 格式（U+FF5C × 2，含 DSML 关键字）
"<‖DSML‖",      # 匹配所有 DSML 开始标签
"</‖DSML‖",     # 匹配所有 DSML 闭合标签

4.2 流式过滤的完整逻辑

python 复制代码

# 每个 stream chunk 的处理逻辑
delta_content = getattr(delta, "content", None) or ""

if delta_content and not _dsml_started:
    dsml_pos = -1
    
    # 方式1: 精确匹配已知标记（O(n) 高效）
    for _marker in _DSML_MARKERS:
        _pos = delta_content.find(_marker)
        if _pos >= 0 and (dsml_pos < 0 or _pos < dsml_pos):
            dsml_pos = _pos
    
    # 方式2: 正则兜底（捕获未知格式变体）
    if dsml_pos < 0:
        _m = _DSML_PATTERN.search(delta_content)
        if _m:
            dsml_pos = _m.start()
    
    if dsml_pos >= 0:
        # 截断至标记前的正常文本，后续 content 不再 yield
        delta_content = delta_content[:dsml_pos].rstrip()
        _dsml_started = True  # 一旦检测到 DSML，后续 chunk 全部屏蔽
    
    if delta_content:
        yield delta_content  # 只发送过滤后的纯净文本

4.3 完整的标记清单（修复后）

python 复制代码

_DSML_MARKERS = (
    # 旧格式兼容
    "<｜DSML｜>",
    "<｜tool▁calls▁begin｜>",
    "<|DSML|>",
    "<|tool_calls_begin|>",
    
    # 单竖线无 DSML 格式（DeepSeek 少数情况）
    "<｜tool｜calls｜>",
    "</｜tool｜calls｜>",
    "<｜invoke｜",
    "</｜invoke｜>",
    "<｜parameter｜",
    
    # ★ 双竖线 DSML 格式（DeepSeek 最常见情况）★
    "<‖DSML‖",       # ← 本次修复新增
    "</‖DSML‖",       # ← 本次修复新增
)

# 正则兜底（覆盖所有竖线数量变体）
_DSML_PATTERN = re.compile(
    r'</?[｜|]{1,2}'                # < 或 </ + 1-2 竖线
    r'(?:DSML[｜|]{1,2}'             # DSML + 1-2 竖线
    r'|)'                             # 或无 DSML
    r'(?:tool_calls|tool[｜|]{1,2}calls'
    r'|invoke'
    r'|parameter'
    r')'
)

4.4 非流式路径的同步修复

除了流式路径，WeClaw 还有非流式调用路径（当模型返回完整响应时）。两个路径必须同步修复：

python 复制代码

# 非流式路径的标记（同样新增双竖线标记）
_DSML_MARKERS_NONSTREAM = (
    "<｜DSML｜>", "<｜tool▁calls▁begin｜>", "<|DSML|>", "<|tool_calls_begin|>",
    "<｜tool｜calls｜>", "</｜tool｜calls｜>",
    "<｜invoke｜", "</｜invoke｜>", "<｜parameter｜",
    "<‖DSML‖", "</‖DSML‖",  # ← 本次修复新增
)

五、验证 ------ 10/10 全过

5.1 测试用例设计

从真实会话历史中提取 5 个样本，同时构造 5 个综合场景：

样本	内容	期望
S1	`<‖DSML‖tool_calls>`	匹配 ✅
S2	`<‖DSML‖invoke name="voice_output_speak">`	匹配 ✅
S3	`<‖DSML‖parameter name="text" string="true">`	匹配 ✅
S4	完整工具调用块（含嵌套闭合标签）	匹配 ✅
S5	`<｜tool｜calls｜>` （单竖线变体）	匹配 ✅

场景	输入	期望输出
TC1	`"好的，...\n\n<‖DSML‖tool_calls>..."`	`"好的，..."`
TC2	纯正常文本	原样输出
TC3	纯 DSML 标记	空字符串
TC4	单竖线变体 DSML	空字符串
TC5	用户实际场景（"西溪公主"）	`"好的，我先写一首小诗..."`

结果：10/10 全部通过。

5.2 验证脚本的核心逻辑

python 复制代码

def filter_dsml(content: str) -> tuple[str, bool]:
    dsml_pos = -1
    # 方式1: 精确匹配
    for marker in all_markers:
        pos = content.find(marker)
        if pos >= 0 and (dsml_pos < 0 or pos < dsml_pos):
            dsml_pos = pos
    # 方式2: 正则兜底
    if dsml_pos < 0:
        m = dsml_pattern.search(content)
        if m:
            dsml_pos = m.start()
    if dsml_pos >= 0:
        return content[:dsml_pos].rstrip(), True
    return content, False

六、深层反思 ------ API 契约的边界

6.1 谁的责任？

这个问题揭示了 AI API 生态系统中一个责任边界模糊的地带：

层级	责任	本次实际情况
模型训练	不应在文本流中输出控制标记	❌ DeepSeek 训练时使用了 DSML 内部格式
API 网关	应剥离内部标记，只返回标准字段	❌ API 未完全剥离 `content` 中的 DSML
应用层	依赖 API 契约，不应处理协议细节	⚠️ 被迫增加防御性过滤

理想情况 是 DeepSeek API 在返回数据前，将 content 中的 DSML 标记完全剥离。但现实是，我们必须在应用层增加过滤器来弥补这个缺口。

6.2 流式场景的特殊挑战

在流式（streaming）场景下，DSML 过滤还有一个额外的复杂性：chunk 边界可能切分标记。

例如：

复制代码

Chunk 1: "好的，...\n<"         ← 只有 <，未触发过滤
Chunk 2: "‖DSML‖tool_calls>..." ← 过滤器触发，但 < 已泄漏

这种情况在实际中极少发生（因为 DSML 标记通常与前面的文本在不同 chunk），但如果要100% 彻底消除泄漏，需要实现一个状态机解析器来缓冲跨 chunk 的部分标记。

6.3 Unicode 的"视觉欺骗"

本次排查最大的教训是：在 Unicode 问题上，永远不要相信肉眼。

python 复制代码

# 这两种格式在屏幕上几乎一模一样
format_a = "<｜tool｜calls｜>"       # 用户报告中看到的
format_b = "<‖DSML‖tool_calls>"    # 模型实际输出的

# 但字节级完全不同
assert format_a != format_b
assert "<｜tool｜calls｜>" not in "<‖DSML‖tool_calls>"

在涉及非 ASCII 字符的字符串匹配时，必须：

用 hex dump 确认实际字节
用代码验证匹配结果（assert marker in sample）
不依赖文本编辑器的显示

七、对社区的启示

7.1 如果你也在使用 DeepSeek API

如果你正在使用 DeepSeek 的 Function Calling 功能，建议检查你的应用中是否存在类似的 DSML 泄漏。简单的检测方法：

python 复制代码

# 在流式输出处理中添加检查
if "DSML" in delta_content or "tool_calls" in delta_content:
    logger.warning(f"Possible DSML leak in content: {delta_content[:100]}")

7.2 通用的防御策略

对于任何使用流式 LLM API 的应用，建议采用以下多层防御：

已知模式过滤 （str.find）：最快，针对已知格式
正则兜底 （re.search）：覆盖未知变体
状态机解析（可选）：处理跨 chunk 边界的情况
日志记录：每次过滤触发时记录，便于监控和调试

7.3 给 API 供应商的建议

如果你是 API 供应商，建议：

在 API 网关层剥离 内部协议标记，不要让它们污染 content 字段
提供明确的文档说明 Function Calling 的输出格式
考虑提供一个配置选项 让用户选择是否需要在 content 中看到工具调用标记

八、总结

这次排查从用户的一个反馈出发，经历了：

现象观察：DSML 标记出现在聊天区和 TTS 输出
假设提出：v5.26.0 引入了 Bug
假设推翻：v5.26.0 只是暴露了已有 Bug
hex 分析：发现单竖线 vs 双竖线的字节差异
根本原因：过滤器标记与实际输出格式不匹配
修复实施：新增双竖线前缀标记 + 合并正则
验证确认：10/10 测试全部通过

核心教训：

🔍 信任 hex，不信任肉眼------Unicode 的视觉陷阱极其隐蔽
🏗️ API 契约是脆弱的------应用层必须有自己的防御
📊 新功能会暴露旧 Bug------性能优化和功能迭代可能改变 Bug 的触发频率
🛡️ 多层防御是必需的------精确匹配 + 正则兜底 + 状态机 = 完整性保障

📖 相关文章

本文是 WeClaw 专栏的第 61 篇。如果这篇文章对你有帮助，欢迎给项目点个 Star ⭐