全本地运行的隐私防线:Hx0 数据卫士如何实现浏览器敏感信息与输入防泄漏
1. 引言:两个常被忽视的泄漏入口
日常安全工作中,敏感数据泄漏并不总是来自「被攻破」,更多时候来自 复制粘贴太快 和 前端遗留线索:
- 把日志、配置、接口返回、堆栈直接贴进 AI 对话框时,API Key、数据库连接串、客户手机号、内网地址可能一并送出,且往往 无法撤回;
- 前端页面、外链脚本、HTML 注释、路由片段里,可能残留测试 Token、调试接口、Webhook、内网路径,直到被他人扫描才发现。
企业级 DLP 部署重、成本高;纯手工 grep 又跟不上页面动态加载和 AI 办公节奏。本文介绍我们开源/发布的浏览器扩展 Hx0 数据卫士 (Hx0 DataGuard)在 浏览器侧 如何做两件事:
| 方向 | 能力 | 一句话 |
|---|---|---|
| 往外看 | 页面敏感信息扫描、脚本与 API 路径提取 | 在授权范围内本地分析当前页 DOM / 脚本 / 请求线索 |
| 往里守 | 输入防泄漏(输入监测 + 粘贴前检查) | 在网页输入框、AI 对话框发送前识别并提醒 / 拦截 |
核心链路:Scan → Detect → Guard → Report (扫描 → 检测 → 防护 → 报告)。下文按 威胁场景 → 技术实现 → 实践配置 → 局限 展开,不涉及商业促销内容。

项目与安装(按需自取):
- 产品说明:www.hx0.store/products/dataguard
- Chrome 商店:安装链接
- 离线包: Gitee Releases · GitHub Releases
2. 威胁模型与工具定位
2.1 工具解决什么、不解决什么
| 场景 | 工具做法 |
|---|---|
| AI / 在线文档 / 工单系统误粘贴 Key、连接串、PII | 输入与发送前检测,轻提醒 / 居中拦截 / 一键脱敏 |
| 授权测试范围内梳理前端暴露面 | 本地扫描 DOM、注释、脚本,输出命中上下文 |
| 外链 JS 中的 API、Webhook、可疑路径 | 提取路径资产,可选 HTTP 探测(需授权) |
| 扫描结果需交付整改 | 导出 HTML / Markdown / JSON |
| 不希望检测过程上传整页到云端 | 默认本地计算与本地存储 |
明确边界:
- 输出是 线索系统(clues) ,供人工复核,不能替代 正式渗透测试、代码审计或合规结论;
- 扫描与 HTTP 探测 仅限 已授权系统、自有资产或靶场;
- 命中可能是注释诱饵、测试样例或误报,需结合上下文判断。
2.2 与常见方案对比(简要)
| 方案 | 优点 | 局限 |
|---|---|---|
| 企业 DLP / 网关 | 策略集中、审计完整 | 部署重、成本高、难覆盖浏览器内 AI 对话框 |
| 手工审查 / grep | 灵活 | 跟不上 SPA、动态脚本、粘贴链路 |
| 浏览器扩展(本文) | 贴近用户操作面、本地优先、开箱即用 | 受页面权限、CORS、扩展 API 约束 |
3. 页面扫描:先快出结果,再渐进补全
3.1 扫描流水线
在 已获得授权 的页面点击扫描后,扩展按预算执行多阶段采集,策略为 「先快出结果,再渐进补全」:
- 页面快扫:尽快返回 DOM 文本、内联脚本、注释等命中;
- 脚本与路径补全:分析外链脚本、SourceMap 线索、路由与请求调用;
- 合并报告:写入侧栏同一份任务,展示来源、风险等级、上下文。
主要技术点:
- 动态 DOM 扫描:采集文本、内联脚本、隐藏注释;短时间窗口监听 DOM 变化,降低异步注入漏报;
- 脚本与路径资产 :外链脚本、SourceMap、路由片段、
fetch/XHR等调用链路上的路径提取; - 轻量反混淆:对 Base64 文本、简单拼接、字典式隐藏做预处理后再进规则引擎;
- 响应头指纹 :被动解析
Server、X-Powered-By、内部主机名等泄露线索; - 运行时探针:结合 DOM 变化与运行时请求,补静态扫描盲区。



3.2 四种扫描模式(资源预算)
| 模式 | 适用场景 |
|---|---|
| 快速 | 超大页面或日常初筛,最小预算 |
| 性能 | 默认:速度、覆盖率、资源占用均衡 |
| 兼容 | 慢站点、内网、不稳定网络,降低并发 |
| 全面 | 尽量多扫脚本与内容,耗时与内存更高 |
3.3 报告状态语义
| 状态 | 含义 |
|---|---|
complete |
预算内任务全部完成 |
partial |
部分外链脚本因权限、CORS、证书、超时、体积被跳过;页面快扫仍有效 |
failed |
核心流程未能完成 |
常见命中类型(需人工研判):明文密钥 / Token、PII 样例、内网地址、管理或调试接口、Webhook、SourceMap、响应头指纹等。

4. 输入防泄漏:在「发送」之前介入
4.1 覆盖范围与排除
- 覆盖:任意网页 的
input/textarea/contenteditable等输入面(含主流 AI 对话页); - 排除:登录 / 注册 等账号密码页,减少对正常认证的干扰。
4.2 双通道检测
弹窗提供两个 独立开关:
| 开关 | 触发时机 | 行为 |
|---|---|---|
| 输入与发送监测 | 输入停顿约 1s;点击发送 / Enter / 表单提交 | 按强度:右上角提醒或居中拦截 |
| 剪切板粘贴监测 | Ctrl+V 写入输入框之前 |
命中后 一律 居中确认(与强度无关) |
4.3 拦截强度
| 强度 | 规则范围 | 发送时行为 |
|---|---|---|
| 轻提醒 | mainly 高危(身份证、手机号、密钥等) | 多为角标提醒,一般不拦 |
| 标准(推荐) | 高危 + 中危 | 规则标记为「拦截」的命中 → 居中确认 |
| 强拦截 | 高 / 中 / 低危 | 较严重命中常在发送时拦截 |
粘贴命中弹窗支持:一键脱敏 (按勾选项替换正文中所有相同敏感串)、仍粘贴原文、取消。动作记入侧栏「输入防泄漏」日志,便于本机复盘。




4.4 可信站点例外
- 白名单:域名级长期跳过;
- 免打扰:当前站点 24 小时内不再提示。
推荐配置 :输入监测 开 + 粘贴监测 开 + 强度 标准。

5. 规则引擎、去重与侧栏研判
5.1 规则中心
内置类别包括:密钥、令牌、个人信息、网络资产、API/Webhook、AI Key 等;支持自定义正则(含 flags)、分类、风险等级、脱敏替换文案。规则可导入 / 导出,便于团队统一策略。
报告层对 同一规则类型 + 同一原始命中值 去重,避免 HTML 注释、动态节点、多脚本片段重复告警。

5.2 侧栏模块划分
| 模块 | 用途 |
|---|---|
| 总览 | 任务状态、风险统计、阶段与耗时 |
| 页面敏感信息 | 按规则 / 风险 / 来源浏览命中 |
| JS 泄漏与 API 检测 | 路径资产、运行时请求、探测结果 |
| 规则中心 | 内置 + 自定义规则管理 |
| 输入防泄漏日志 | 本机拦截 / 脱敏 / 放行记录 |
| 设置 | 扫描模式、强度、白名单等 |
| 报告 | 预览与导出 |
弹窗适合 开关与发起任务 ;侧栏适合 筛选、复核、导出。
6. API 路径提取与 HTTP 探测(授权场景)
从脚本与运行时请求中提取 URL 后,可在侧栏发起 可选 探测(会产生真实流量):
- 单条或批量选择 URL;
- 配置 GET/POST、自定义 Header、重定向、Host/Origin 重写;
- 查看状态码、最终 URL、响应头片段、耗时、包大小等摘要。


务必 仅在书面授权或自有资产范围内使用;探测结果同样是线索,需与业务逻辑交叉验证。
7. 本地优先架构
设计原则:默认不把整页正文上传到开发者自营后台。
| 数据 | 默认处理方式 |
|---|---|
| 页面文本 / 脚本片段 | 本机扫描与暂存 |
| 规则、设置、报告 | 浏览器扩展本地存储 |
| 输入防泄漏日志 | 本机记录 |
| 账号 | 无需注册;扩展生成本地 用户 ID 用于配置与授权校验绑定 |
非纯本地 的例外(实现上需知情):用户主动发起的 HTTP 探测、浏览器/商店更新机制、扩展自身的授权校验请求等。
报告导出(HTML / Markdown / JSON)可能含敏感上下文,请按组织规范存储与流转。

8. 典型实践场景
8.1 AI 对话与在线协作
向 ChatGPT、文心、豆包、Kimi、飞书文档等粘贴日志 / 配置前,用粘贴监测 + 发送拦截降低 Key、连接串、PII 外泄概率;需要继续对话时可先 脱敏 再发送。
8.2 授权渗透 / 红队初筛
流程示例:打开目标页 → 扫描 → 侧栏复核页面敏感信息与 API 资产 → 导出 Markdown 进工单。强调:线索 ≠ 漏洞结论。
8.3 开发联调与上线前自查
检查测试环境地址、临时 Token、调试接口、示例数据是否混入生产构建;比上线后被第三方扫到再救火成本更低。
8.4 整改闭环
导出 HTML 归档、Markdown 进项目文档、JSON 进内部流水线,形成「发现 → 研判 → 修复 → 留痕」。
9. 安装与快速验证(工程向)
9.1 Chromium 系(Chrome / Edge / Brave)
商店安装(自动更新):见上文 Chrome 链接。
离线 .crx:扩展管理页 → 开发者模式 → 拖入 Hx0-DataGuard-chrome-*.crx。
9.2 Firefox
.xpi:about:addons → 从文件安装;或拖入浏览器窗口。AMO 审核期间可用 Release 离线包。
| 渠道 | 地址 |
|---|---|
| Gitee | 离线包 |
| GitHub | 离线包 |
9.3 最小验证清单
- 固定扩展图标,阅读隐私政策;
- 打开测试页,执行「扫描当前页面敏感信息和 API」,观察
complete/partial状态; - 在 AI 对话框粘贴一段含伪造 Key 的文本,确认粘贴弹窗与脱敏流程;
- 导出一份 Markdown 报告,检查去重与上下文是否满足研判需求。
10. 局限性与合规声明
- 工具输出仅供 辅助研判与安全自检;
- 扫描、探测 禁止 用于未授权系统;
- 截图与示例数据均为 虚构,不得当作真实泄漏事件;
- 问题反馈:hx0studio@foxmail.com
11. 小结
Hx0 数据卫士尝试在 不加重运维负担 的前提下,把敏感信息治理推到用户最常操作的两条链路上:页面暴露面 与 输入/粘贴/发送。技术上通过本地规则引擎、渐进式扫描预算、双通道输入监测和可导出报告,把「扫到了什么」和「差点发出什么」变成可复核、可留痕的工程产物。
若你在实践中有更好的规则集、误报处理或 AI 场景适配思路,欢迎 Issue 或邮件交流。
