无感监控：深度拆解监控 SDK 的性能平衡术与调度策略

对于正在自研监控系统的架构师来说，"无感监控"不仅是一个性能指标，更是一场对浏览器底层调度机制的深度极限利用。

如果 SDK 导致用户页面出现 50ms 以上的 Long Task，或者因为上报请求过多导致业务接口排队（Connection Queueing），那监控系统本身就成了"最大的线上事故"。

一、算力调度：别在主线程"虎口夺食"

浏览器主线程（Main Thread）是极其珍贵的资源。监控 SDK 涉及大量的 DOM 访问、对象序列化和字符串拼接，处理不好就会触发"卡顿（Jank）"。

1. 任务切片与 `requestIdleCallback`

监控脚本的初始化和历史数据扫描往往属于"非紧急任务"。

底层机制：利用浏览器在每一帧渲染完成后的空闲时间（Idle Period）执行。
进阶技巧 ：由于 requestIdleCallback 的优先级极低，在页面高频交互时可能永远不被触发。
实战代码策略 ：设置一个 timeout（如 2000ms）。如果在 2 秒内主线程一直很忙，SDK 会强制在下一个事件循环中执行，平衡了"不阻塞"与"不丢失"。

2. 规避重排陷阱：静态属性抓取

很多 SDK 在捕获点击事件时，为了获取元素位置，会频繁调用 getBoundingClientRect()。

风险点：这类 API 会强制浏览器立即重新计算样式和布局（Reflow），导致主线程瞬间阻塞。
优化方案 ：尽量使用 IntersectionObserver 异步监听元素可见性，或者直接通过 event 对象获取 clientX/Y 等预计算好的坐标，严禁在全局滚动事件中进行同步 DOM 测量。

二、传输链路：打通"只发不接"的特权通道

在大规模数据上报时，网络请求的开销（建立连接、占用并发数）往往比计算开销更致命。

1. `navigator.sendBeacon`：浏览器的"离线快递"

这是无感监控的核心利器。

非阻塞：它将数据交给浏览器管理的独立队列。即使你的页面逻辑已经开始处理复杂的动画，浏览器也会在后台悄悄把数据发出去。
生存保障 ：在页面卸载（beforeunload/unload）时，普通的 XHR 或 Fetch 请求大概率会被截断，导致关键的延迟数据丢失。sendBeacon 能确保即使窗口关闭，数据也能安全到达服务器。

2. Fetch 的 `keepalive` 选项

如果你需要处理更复杂的响应（虽然监控通常不需要），可以给 fetch 设置 keepalive: true。它的作用类似于 sendBeacon，允许请求在页面销毁后继续在后台存活。

三、内存管理：警惕监控 SDK 的"自增长"

监控系统需要监听全局的 Promise、Console 和 Network。这些"劫持"行为极易产生长期持有的闭包。

1. 影子 DOM（Shadow DOM）隔离

如果你的 SDK 需要在页面上注入 UI（如录屏控制、错误弹窗），请务必使用 Shadow DOM。

价值：它可以防止 SDK 的样式污染业务页面，同时避免业务代码的 CSS 选择器误伤 SDK 元素，减少浏览器的样式重算（Recalculate Style）范围。

2. 对象池与缓冲区（Buffer）

按需序列化 ：不要捕获整个 Error 对象，它包含极其复杂的原型链。只抽取 message、stack 和自定义上下文。
弱引用利用 ：在一些需要暂存 DOM 节点的场景，使用 WeakMap 或 WeakSet，确保当业务代码删除 DOM 后，SDK 不会成为阻碍 GC 回收的罪魁祸首。

四、采样与降级：稳健策略

你应该明白"全量监控"在超大规模流量下是不可持续的。

1. 动态采样率（Sampling Rate）

逻辑：针对 200 OK 的请求，采样率设为 1%；针对 5xx 错误或 Long Task，采样率设为 100%。
实现：由后端下发控制指令，SDK 动态调整收集频率，实现"平时安静，出事警觉"。

2. 自我熔断机制

监控 SDK 的监控：在 SDK 内部记录自身的执行耗时。
熔断条件：如果 SDK 连续多次初始化耗时超过 100ms，或者本地队列堆积超过 1000 条，SDK 应当自动进入"休眠模式"，停止一切捕获，保护主业务不崩溃。

无感监控：深度拆解监控 SDK 的性能平衡术与调度策略

一、 算力调度：别在主线程"虎口夺食"

1. 任务切片与 requestIdleCallback