全本地运行的隐私防线：Hx0 数据卫士如何实现浏览器敏感信息与输入防泄漏

1. 引言：两个常被忽视的泄漏入口

日常安全工作中，敏感数据泄漏并不总是来自「被攻破」，更多时候来自 复制粘贴太快 和 前端遗留线索：

把日志、配置、接口返回、堆栈直接贴进 AI 对话框时，API Key、数据库连接串、客户手机号、内网地址可能一并送出，且往往 无法撤回；
前端页面、外链脚本、HTML 注释、路由片段里，可能残留测试 Token、调试接口、Webhook、内网路径，直到被他人扫描才发现。

企业级 DLP 部署重、成本高；纯手工 grep 又跟不上页面动态加载和 AI 办公节奏。本文介绍我们开源/发布的浏览器扩展 Hx0 数据卫士 （Hx0 DataGuard）在 浏览器侧 如何做两件事：

方向	能力	一句话
往外看	页面敏感信息扫描、脚本与 API 路径提取	在授权范围内本地分析当前页 DOM / 脚本 / 请求线索
往里守	输入防泄漏（输入监测 + 粘贴前检查）	在网页输入框、AI 对话框发送前识别并提醒 / 拦截

核心链路：Scan → Detect → Guard → Report （扫描 → 检测 → 防护 → 报告）。下文按 威胁场景 → 技术实现 → 实践配置 → 局限 展开，不涉及商业促销内容。

项目与安装（按需自取）：

产品说明：www.hx0.store/products/dataguard
Chrome 商店：安装链接
离线包： Gitee Releases · GitHub Releases

2. 威胁模型与工具定位

2.1 工具解决什么、不解决什么

场景	工具做法
AI / 在线文档 / 工单系统误粘贴 Key、连接串、PII	输入与发送前检测，轻提醒 / 居中拦截 / 一键脱敏
授权测试范围内梳理前端暴露面	本地扫描 DOM、注释、脚本，输出命中上下文
外链 JS 中的 API、Webhook、可疑路径	提取路径资产，可选 HTTP 探测（需授权）
扫描结果需交付整改	导出 HTML / Markdown / JSON
不希望检测过程上传整页到云端	默认本地计算与本地存储

明确边界：

输出是 线索系统（clues） ，供人工复核，不能替代 正式渗透测试、代码审计或合规结论；
扫描与 HTTP 探测仅限已授权系统、自有资产或靶场；
命中可能是注释诱饵、测试样例或误报，需结合上下文判断。

2.2 与常见方案对比（简要）

方案	优点	局限
企业 DLP / 网关	策略集中、审计完整	部署重、成本高、难覆盖浏览器内 AI 对话框
手工审查 / grep	灵活	跟不上 SPA、动态脚本、粘贴链路
浏览器扩展（本文）	贴近用户操作面、本地优先、开箱即用	受页面权限、CORS、扩展 API 约束

3. 页面扫描：先快出结果，再渐进补全

3.1 扫描流水线

在 已获得授权 的页面点击扫描后，扩展按预算执行多阶段采集，策略为 「先快出结果，再渐进补全」：

页面快扫：尽快返回 DOM 文本、内联脚本、注释等命中；
脚本与路径补全：分析外链脚本、SourceMap 线索、路由与请求调用；
合并报告：写入侧栏同一份任务，展示来源、风险等级、上下文。

主要技术点：

动态 DOM 扫描：采集文本、内联脚本、隐藏注释；短时间窗口监听 DOM 变化，降低异步注入漏报；
脚本与路径资产 ：外链脚本、SourceMap、路由片段、fetch / XHR 等调用链路上的路径提取；
轻量反混淆：对 Base64 文本、简单拼接、字典式隐藏做预处理后再进规则引擎；
响应头指纹 ：被动解析 Server、X-Powered-By、内部主机名等泄露线索；
运行时探针：结合 DOM 变化与运行时请求，补静态扫描盲区。

3.2 四种扫描模式（资源预算）

模式	适用场景
快速	超大页面或日常初筛，最小预算
性能	默认：速度、覆盖率、资源占用均衡
兼容	慢站点、内网、不稳定网络，降低并发
全面	尽量多扫脚本与内容，耗时与内存更高

3.3 报告状态语义

状态	含义
`complete`	预算内任务全部完成
`partial`	部分外链脚本因权限、CORS、证书、超时、体积被跳过；页面快扫仍有效
`failed`	核心流程未能完成

常见命中类型（需人工研判）：明文密钥 / Token、PII 样例、内网地址、管理或调试接口、Webhook、SourceMap、响应头指纹等。

4. 输入防泄漏：在「发送」之前介入

4.1 覆盖范围与排除

覆盖：任意网页 的 input / textarea / contenteditable 等输入面（含主流 AI 对话页）；
排除：登录 / 注册 等账号密码页，减少对正常认证的干扰。

4.2 双通道检测

弹窗提供两个 独立开关：

开关	触发时机	行为
输入与发送监测	输入停顿约 1s；点击发送 / Enter / 表单提交	按强度：右上角提醒或居中拦截
剪切板粘贴监测	`Ctrl+V` 写入输入框之前	命中后一律居中确认（与强度无关）

4.3 拦截强度

强度	规则范围	发送时行为
轻提醒	mainly 高危（身份证、手机号、密钥等）	多为角标提醒，一般不拦
标准（推荐）	高危 + 中危	规则标记为「拦截」的命中 → 居中确认
强拦截	高 / 中 / 低危	较严重命中常在发送时拦截

粘贴命中弹窗支持：一键脱敏 （按勾选项替换正文中所有相同敏感串）、仍粘贴原文、取消。动作记入侧栏「输入防泄漏」日志，便于本机复盘。

4.4 可信站点例外

白名单：域名级长期跳过；
免打扰：当前站点 24 小时内不再提示。

推荐配置 ：输入监测开 + 粘贴监测开 + 强度标准。

5. 规则引擎、去重与侧栏研判

5.1 规则中心

内置类别包括：密钥、令牌、个人信息、网络资产、API/Webhook、AI Key 等；支持自定义正则（含 flags）、分类、风险等级、脱敏替换文案。规则可导入 / 导出，便于团队统一策略。

报告层对 同一规则类型 + 同一原始命中值 去重，避免 HTML 注释、动态节点、多脚本片段重复告警。

5.2 侧栏模块划分

模块	用途
总览	任务状态、风险统计、阶段与耗时
页面敏感信息	按规则 / 风险 / 来源浏览命中
JS 泄漏与 API 检测	路径资产、运行时请求、探测结果
规则中心	内置 + 自定义规则管理
输入防泄漏日志	本机拦截 / 脱敏 / 放行记录
设置	扫描模式、强度、白名单等
报告	预览与导出

弹窗适合 开关与发起任务 ；侧栏适合 筛选、复核、导出。

6. API 路径提取与 HTTP 探测（授权场景）

从脚本与运行时请求中提取 URL 后，可在侧栏发起可选探测（会产生真实流量）：

单条或批量选择 URL；
配置 GET/POST、自定义 Header、重定向、Host/Origin 重写；
查看状态码、最终 URL、响应头片段、耗时、包大小等摘要。

务必仅在书面授权或自有资产范围内使用；探测结果同样是线索，需与业务逻辑交叉验证。

7. 本地优先架构

设计原则：默认不把整页正文上传到开发者自营后台。

数据	默认处理方式
页面文本 / 脚本片段	本机扫描与暂存
规则、设置、报告	浏览器扩展本地存储
输入防泄漏日志	本机记录
账号	无需注册；扩展生成本地用户 ID 用于配置与授权校验绑定

非纯本地 的例外（实现上需知情）：用户主动发起的 HTTP 探测、浏览器/商店更新机制、扩展自身的授权校验请求等。

报告导出（HTML / Markdown / JSON）可能含敏感上下文，请按组织规范存储与流转。

8. 典型实践场景

8.1 AI 对话与在线协作

向 ChatGPT、文心、豆包、Kimi、飞书文档等粘贴日志 / 配置前，用粘贴监测 + 发送拦截降低 Key、连接串、PII 外泄概率；需要继续对话时可先脱敏再发送。

8.2 授权渗透 / 红队初筛

流程示例：打开目标页 → 扫描 → 侧栏复核页面敏感信息与 API 资产 → 导出 Markdown 进工单。强调：线索 ≠ 漏洞结论。

8.3 开发联调与上线前自查

检查测试环境地址、临时 Token、调试接口、示例数据是否混入生产构建；比上线后被第三方扫到再救火成本更低。

8.4 整改闭环

导出 HTML 归档、Markdown 进项目文档、JSON 进内部流水线，形成「发现 → 研判 → 修复 → 留痕」。

9. 安装与快速验证（工程向）

9.1 Chromium 系（Chrome / Edge / Brave）

商店安装（自动更新）：见上文 Chrome 链接。

离线 .crx：扩展管理页 → 开发者模式 → 拖入 Hx0-DataGuard-chrome-*.crx。

9.2 Firefox

.xpi：about:addons → 从文件安装；或拖入浏览器窗口。AMO 审核期间可用 Release 离线包。

渠道	地址
Gitee	离线包
GitHub	离线包

9.3 最小验证清单

固定扩展图标，阅读隐私政策；
打开测试页，执行「扫描当前页面敏感信息和 API」，观察 complete / partial 状态；
在 AI 对话框粘贴一段含伪造 Key 的文本，确认粘贴弹窗与脱敏流程；
导出一份 Markdown 报告，检查去重与上下文是否满足研判需求。

10. 局限性与合规声明

工具输出仅供 辅助研判与安全自检；
扫描、探测禁止用于未授权系统；
截图与示例数据均为虚构，不得当作真实泄漏事件；
问题反馈：hx0studio@foxmail.com

11. 小结

Hx0 数据卫士尝试在 不加重运维负担 的前提下，把敏感信息治理推到用户最常操作的两条链路上：页面暴露面 与 输入/粘贴/发送。技术上通过本地规则引擎、渐进式扫描预算、双通道输入监测和可导出报告，把「扫到了什么」和「差点发出什么」变成可复核、可留痕的工程产物。

若你在实践中有更好的规则集、误报处理或 AI 场景适配思路，欢迎 Issue 或邮件交流。