多级时钟门控究竟能降低多少功耗?
时钟网络消耗的动态功率往往占芯片总功耗的30%~40%,时钟门控是最有效的动态功耗削减手段。多级时钟门控在时钟树的模块、功能块、寄存器组等层级插入门控单元,实现粗粒度关断与细粒度控制结合,最大限度压缩无效翻转。
单级门控的局限 :叶级门控只能关断寄存器局部时钟,门控单元上游的整条时钟树依然全速翻转,时钟树功耗节省十分有限。多级门控在模块休眠时直接关断整棵时钟子树,下游所有缓冲器、门控单元和寄存器时钟端全部静止,从而同时削减时钟树功耗和寄存器内部功耗。
量化收益:假设某处理器动态功耗100mW,其中时钟树30mW。仅使用叶级门控时总功耗降至73mW(降27%);采用多级门控后,时钟树功耗从30mW降至10mW,总功耗降至50mW,降幅达到50%,比单级门控额外节省31%。行业数据佐证:ARM Cortex-A系列待机模式下核心功耗降低超40%;某28nm网络SoC实施多级门控后总功耗从12W降至6.9W,降幅42%。综合来看,多级门控可降低总动态功耗30%~60%,相较单级门控再获10~20个百分点的整芯片收益。
影响因素:收益取决于时钟树占比(高于35%时尤为显著)、工作负载的空闲率、门控层级数量(2~4级最佳)以及EDA工具自动门控覆盖率。多级门控仅削减动态功耗,还需结合电源门控、DVFS等技术应对漏电。
多级时钟门控已成为数字前端设计的标配。在微架构阶段即规划门控层级,编写带明确使能的RTL,配合功耗分析迭代优化,才能让每一毫瓦都"门"清得当。
发布地址:https://6v6.ren/