PHY Eye Monitor 全栈技术说明书

1. 文档目的与范围

本文档系统介绍 PHY 中集成 Eye Monitor 模块的完整技术体系，覆盖：

硬件层：采样原理、时序与电压扫描、误码统计、状态机、寄存器模型、性能边界。
固件层：初始化、任务编排、扫描策略、数据校准、异常处理。
软件层：驱动接口、诊断工作流、可视化、自动调参、量产与现场运维。
工程实践：性能估算、误差来源、验证策略、部署建议。

目标是形成可用于架构评审、实现开发、量产导入和线上运维的统一参考基线。

2. 背景与核心价值

在高速 SerDes 链路中，链路质量受抖动、噪声、ISI、串扰、供电波动、温漂等因素影响。传统外部仪器（示波器/BERT）精度高但部署成本高、现场可达性差。

On-Chip Eye Monitor 通过在 PHY 接收侧内部进行门限与相位扫描，以误码计数近似重建眼图轮廓，具备以下价值：

在线可观测：支持板级、整机、现场运行中的链路健康评估。
低侵入诊断：无需大规模改造测试链路。
与均衡闭环：可直接驱动 TX/RX 参数优化。
支持规模化：可用于产线筛选、老化跟踪与预测性维护。

3. 术语与缩写

UI：Unit Interval，单位码元周期。
BER：Bit Error Rate，误码率。
CDR：Clock and Data Recovery，时钟数据恢复。
CTLE：Continuous-Time Linear Equalizer。
DFE：Decision Feedback Equalizer。
FFE：Feed-Forward Equalizer。
EOM：Eye Opening Monitor，常与 Eye Monitor 同义。
Bathtub Curve：在固定电压门限下 BER 随采样相位变化曲线。

4. 模块总体架构

典型 Eye Monitor 系统由以下子模块构成：

相位偏移发生器通过相位插值器或延迟链在 CDR 基础上引入可编程采样相位偏移。
电压门限比较器通过可编程阈值 DAC 生成参考门限，实现纵向采样切片。
错误判决路径将采样结果与接收判决参考比对，统计错误事件。
计数与积分引擎在每个扫描点累计总比特数与错误数，形成 BER 估计。
控制状态机负责扫描点遍历、驻留时间控制、早停策略与异常超时保护。
寄存器与中断接口向固件暴露配置、状态、结果读取与错误上报能力。
数据搬运与缓存支持 CPU 轮询、DMA 或中断批量搬运扫描矩阵。

5. 硬件功能详解

5.1 采样与重建原理

Eye Monitor 不直接输出模拟波形，而是输出二维采样点的误码统计。设扫描点为 (x,y)(x,y)，其中：

xx：相对 UI 的相位偏移。
yy：比较器电压门限偏移。

在驻留窗口内，统计：

总采样比特数：Nx,yNx,y
错误计数：Ex,yEx,y
BER 估计：p^x,y=Ex,yNx,yp^x,y=Nx,yEx,y

扫描完成后可得到 BER 热力图，低 BER 区域对应眼图开口。

5.2 时间轴扫描（横轴）

实现方式通常包括：

相位插值器 PI：细粒度，相位线性度依赖模拟实现。
多相时钟 MUX：步进离散，结构简单。
延迟链 DLL：受 PVT 漂移影响，需要校准。

关键参数：

相位范围：常见覆盖 1 UI 或 2 UI。
相位分辨率：例如 64、128、256 点每 UI。
相位单调性：决定 Bathtub 曲线可解释性。

5.3 电压轴扫描（纵轴）

典型依赖比较器门限 DAC：

阈值范围映射到接收摆幅的相对比例。
分辨率如 5~8 bit。
需考虑比较器失调和 DAC INL/DNL 引入的系统误差。

常见策略：

全幅扫描：用于首次建模或失效分析。
局部扫描：围绕预估中心快速更新眼高。

5.4 误码统计引擎

统计精度由观测长度决定。对目标 BER pp，若要求相对误差受控，通常需足够大的样本量 NN。工程上可按以下经验：

粗扫：每点较小 N，快速定位轮廓。
精扫：边界附近增大 N，提高 BER 等高线稳定性。

常见硬件能力：

固定比特计数窗口。
固定时间窗口。
达到错误上限即早停。

5.5 扫描状态机与调度

硬件 FSM 常含状态：

IDLE：等待配置。
PREPARE：锁存参数，清零计数器。
RUN_POINT：单点积分。
NEXT_POINT：步进索引。
COMPLETE：置位完成标志并可触发中断。
ABORT/ERROR：超时、失锁、非法配置保护。

推荐支持功能：

可恢复中断点续扫。
可配置扫描方向（蛇形/行优先）。
自动温漂重标定触发。

5.6 与接收链路模块耦合

Eye Monitor 与 CDR、Slicer、DFE 强耦合，需要处理：

CDR 漂移导致横轴坐标基准变化。
DFE 自适应开关状态改变统计分布。
均衡参数改变后需等待稳定时间再计数。

建议硬件提供稳定等待计时器，避免"参数刚切换即采样"导致假性劣化。

5.7 关键硬件寄存器模型（抽象）

控制寄存器

使能、复位、启动、停止。
扫描模式选择（1D/2D、粗扫/精扫）。

扫描范围寄存器

相位起止、步进。
电压起止、步进。

驻留与门限寄存器

每点积分比特数或时间。
早停错误阈值。

状态寄存器

Busy、Done、Error、Timeout、CDR_Lost。

结果寄存器/结果 RAM 窗口

当前点计数。
扫描矩阵读指针。

中断寄存器

完成中断、异常中断、掩码与清除。

5.8 性能边界与限制

BER 下限受总观测时长限制，无法无限下探。
分辨率受 PI 与门限 DAC 量化限制。
结果为统计估计，需给出置信区间，不可过度解读单点值。
与实验室设备对比时应优先比较趋势一致性而非绝对值一致性。

6. 固件与驱动功能设计

6.1 分层建议

HAL 层负责寄存器读写、位定义、时序延时、错误码归一。
Eye Monitor Driver 层封装扫描任务生命周期：配置、触发、等待、搬运、异常恢复。
策略层实现粗扫+精扫、自适应加密采样、多通道调度。
业务层提供给 CLI、GUI、自动调参和运维系统的统一接口。

6.2 初始化流程

建议流程：

检查 PHY lane 处于可测状态（链路锁定、无重训练）。
配置 CDR/DFE 策略（固定或冻结）。
配置扫描窗口与驻留参数。
清空结果缓存与中断。
启动扫描并进入等待机制（中断优先，轮询兜底）。

6.3 任务执行模型

支持三种模式：

同步阻塞：调试简单，适合单 lane 诊断。
异步回调：提高并发，适合批量采样。
分片任务：大矩阵拆分，降低单次阻塞时间。

6.4 数据结构建议

核心输出建议包含：

元数据：lane、速率、温度、电压、时间戳、均衡参数快照。
网格定义：X/Y 轴起点、步进、点数、单位映射。
统计矩阵：每点 N、E、BER。
质量标记：失锁点、超时点、无效点。

6.5 误差修正与后处理

建议在软件层进行：

稀疏点插值（仅用于可视化，不用于签核指标）。
异常点剔除（如 CDR 失锁期间样本）。
温漂归一化（跨时段对比时）。
BER 等高线提取与眼宽/眼高计算。

6.6 异常处理机制

常见异常及响应：

CDR 失锁

立即标记当前点无效。
尝试重锁并回退重测。

扫描超时

记录超时点与阶段。
支持降采样重试。

总线访问异常

HAL 返回可诊断错误码。
驱动触发软复位并重建上下文。

参数非法

在驱动入口前置合法性校验，避免硬件进入错误状态。

6.7 线程安全与并发

每 lane 独立上下文，避免全局共享状态污染。
对共享总线访问加锁，降低寄存器读写竞争。
中断与线程共享数据区使用环形缓冲或双缓冲模型。

7. 软件接口与可运维能力

7.1 对上 API 设计建议

建议 API 维度：

配置接口：设置扫描参数与策略模板。
执行接口：启动、暂停、恢复、取消。
查询接口：任务进度、状态、结果摘要。
导出接口：CSV/JSON 二进制包。

7.2 CLI 功能建议

快速体检命令：单 lane 快扫并输出眼宽/眼高。
深度诊断命令：全矩阵扫描并导出热力图数据。
对比命令：两次扫描差分，显示退化区域。

7.3 GUI 功能建议

2D BER 热力图。
Bathtub 曲线（固定门限）。
参数联动面板（TX FFE、RX CTLE/DFE）。
自动推荐参数与回滚入口。

7.4 自动调参闭环

典型闭环流程：

读取当前参数并做基线扫描。
在参数邻域内做试探扫描。
以目标函数评分并选择最优候选。
回写参数并做确认扫描。

可用目标函数示例：

Score=w1⋅EyeWidth+w2⋅EyeHeight−w3⋅Power−w4⋅JitterPenaltyScore=w1⋅EyeWidth+w2⋅EyeHeight−w3⋅Power−w4⋅JitterPenalty

其中权重根据产品场景（性能优先或功耗优先）调整。

8. 指标定义与验收标准

8.1 推荐输出指标

Eye Width at BER target（如 10-6、10−9）
Eye Height at BER target
最优采样点偏移量
BER 梯度（边界陡峭程度）
稳定性指标（重复扫描方差）

8.2 统计置信说明

对低误码场景，建议报告：

观测比特数 N
错误数 E
置信区间级别（例如 95%）

避免仅给单值 BER 而不提供样本规模。

8.3 量产与现场阈值策略

建议采用三级阈值：

Pass：满足量产目标，免人工介入。
Warning：可运行，但建议复测或调参。
Fail：触发降级、重训练或告警工单。

9. 验证与测试方法

9.1 设计验证（DV）

扫描坐标线性度验证。
错误计数正确性验证（注入已知误码模式）。
异常路径覆盖（超时、失锁、复位中断）。

9.2 系统联调（SI/Bring-up）

与外部仪器趋势对齐。
温度、电压、速率多维 sweep 一致性验证。
多 lane 并发下吞吐与稳定性评估。

9.3 回归与线上监控

固件版本回归：眼图指标漂移门限报警。
现场周期采样：建立健康基线与退化趋势。
结合错误日志：关联训练失败、重传率上升事件。

10. 参考实现建议

10.1 扫描策略模板

模板 A：快速巡检

低分辨率 2D 扫描。
每点短驻留。
输出眼宽/眼高摘要。

模板 B：边界精扫

先粗扫定位眼边缘。
边缘区域自适应加密点位。
每点长驻留提高 BER 可信度。

模板 C：调参闭环

参数搜索 + 局部精扫。
评分函数驱动自动选择。
失败自动回滚。

10.2 性能估算

设：

相位点数为 NxNx
电压点数为 NyNy
每点驻留时间为 TdTd
每点切换开销为 TsTs

总扫描时间近似：

Ttotal≈Nx⋅Ny⋅(Td+Ts)Ttotal≈Nx⋅Ny⋅(Td+Ts)

由此可直接用于驱动层超时预算与 GUI 进度条估算。

10.3 数据导出与追溯

建议导出文件包含：

平台信息：芯片版本、PHY 版本、固件版本。
环境信息：温度、电压、速率、lane 配置。
参数快照：TX/RX 训练与手动覆盖值。
扫描矩阵：N/E/BER。
校验信息：CRC、时间戳。

11. 常见误区与规避建议

误区：把 Eye Monitor 当示波器替代。规避：将其定位为在线统计诊断工具，重点看趋势与裕量。
误区：不同条件下直接比较绝对 BER。规避：对比前统一速率、温度、均衡状态与采样窗口。
误区：单次扫描结果直接用于签核。规避：至少做重复测量并报告方差与置信度。
误区：调参后立即采样。规避：加入参数稳定等待时间。

12. 未来演进方向

与链路训练器深度协同，实现在线自治优化。
引入机器学习模型做参数推荐与故障分类。
支持跨设备聚合分析，形成群体健康地图。
增加低开销持续监测模式，支持实时风险预警。

13. 结论

PHY Eye Monitor 是连接硬件可观测性与软件可运维性的关键模块。其价值不止于"看眼图"，更在于建立可量化、可追溯、可闭环优化的链路质量工程体系。

在工程实践中，推荐采用"硬件能力完备 + 驱动分层清晰 + 策略闭环可回滚 + 指标体系可验收"的落地路径，以确保从实验室到量产再到现场运维的一致性与可扩展性。