quantizers 学习

quantizers ˈkwɒntaɪzə(r) n. [通信] 量化器;数字转换器

randomized ˈrændəmaɪzd;

adj. [数]随机化的,随机的

v. 使随机化;做任意排列(randomize 的过去分词)

stochastic stɒˈkæstɪk [数] 随机的;猜测的

desired dɪˈzaɪəd

adj. 期望得到的,希望实现的

v. 渴望,想望;<正式>要求,请求;被......吸引,对......产生性欲

在 LLM 里,注意力分数的计算本质上就是大量向量内积

如果量化器是有偏的:误差会被系统性放大,越往后的 token 偏差越大。模型输出会越来越不准,甚至逻辑崩坏

无偏内积计算:

对向量 x 做「量化 + 反量化」,再和向量 y 做内积;这个结果的数学期望,等于 y 和原始 x 的内积

两种误差的计算方式:


目标

目标:设计计算高效的 Qmse 和 Qprod,实现上述两种误差度量的最优边界(optimal bounds);同时 Qprod 需要提供无偏内积估计

(primitives 基本操作)

现有量化的缺点:

关于论文中的一些证明

注意,文中的单位(unit)范数(norm)假设(即∥x∥2=1)是标准设定,并不构成实际限制。对于不满足该假设的数据集,我们可以用浮点精度计算并存储其 L2 范数,再用这些存储的范数对反量化后的向量进行缩放。

这个符号 ∝ 读作「正比于」,是数学里的比例符号

1/(4^b) 的由来

在写正比关系时,会把不随 b 变化的常数项(比如 R^2)省略掉,只保留和 b 有关的部分

关于 的计算

高维单位向量经过随机正交旋转后,坐标分布的「最坏情况」标量量化误差上界,通过对 Beta 分布的积分推导得到。



hypersphere ˈhaɪpəsfɪə n. [天] 超球面

differential entropy 微分熵

mutual ˈmjuːtʃuəl

adj. 相互的,彼此的;共同的,共有的;(保险公司、建筑协会等)互助的

n. 互助公司

converge kənˈvɜːdʒ v. (使)汇聚,集中;(观点、目标)趋同;(数)收敛

sphere sfɪə(r)

n. (活动、兴趣、专业知识的)范围,领域;球体,球,球形;社会阶层;势力范围;苍穹,天,天空;天体;天体外壳;地球仪

vt. 使......成球形;包围;放入球内

the ratio of a to b, a 与 b 的比值

volume:体积 ˈvɒljuːm

n. 体积,容积;总数,总量;音量,响度;(控制音量的)旋钮,控制杆;(成套图书中的)卷,册;(期刊)合订本;书籍;<史>(写在羊皮纸或纸草纸上的)书卷;(尤指头发的)厚,多

adj. 大量的

v. 以卷的形式发出;成团卷起

radius ˈreɪdiəs

n. 半径;半径范围,周围;(剖)桡骨;(昆)径脉;(棘皮动物或腔肠动物的)辐射对称轴

v. 使(角,边缘)成弧形

lemma ˈlemə

n. 引理;辅助定理;论点;膜

n. (Lemma)人名;(俄)莱玛;(意、埃塞)莱马



1-bit inner product quantization

As previously stated, we design two VQ algorithms: one optimized for minimizing MSE and the other for minimizing inner product error.

如前所述,我们设计了两种矢量量化(VQ)算法:一种以最小化均方误差(MSE)为目标,另一种以最小化内积误差为目标

We show that MSE-optimal quantizers do not necessarily provide unbiased inner product estimates, particularly exhibiting significant bias at lower bit-widths.

我们证明,MSE 最优量化器并不一定能给出无偏的内积估计,尤其是在低位宽场景下会表现出显著偏差

Our solution for inner product quantization is a two-stage algorithm.

针对内积量化问题,我们提出了两阶段解决方案

First, we apply the MSE-optimal quantizer using one less bit than the desired bit-width budget, thus minimizing the L2 norm of the residuals.

首先,使用比目标位宽少 1 比特的 MSE 最优量化器,从而最小化残差的 L2 范数

Next we apply an unbiased and optimal single-bit quantizer to the residual.

随后,对残差应用无偏的最优单比特量化器

For the single-bit inner product quantizer, we utilize the recently proposed Quantized Johnson-Lindenstrauss (QJL) algorithm [62], which is an optimal inner product quantizer with a bit-width of one.

单比特内积量化器采用了近期提出的量化约翰逊 - 林德斯特劳斯(QJL)算法 [62],它是位宽为 1 的最优内积量化器

Here, we present the QJL algorithm and its essential theoretical guarantees.

本节将介绍 QJL 算法及其核心理论保证

i.i.d. entries 是统计学和机器学习论文里的高频缩写

i.i.d. 是 independent and identically distributed 的缩写,中文常译作:独立同分布

independent(独立):不同的变量 / 元素之间互不影响,一个的取值不会改变另一个的概率分布

identically distributed(同分布):所有变量 / 元素都服从同一个概率分布(比如都是标准正态分布)

entries(元素 / 项):在论文里,通常指矩阵或向量里的每一个元素

所以 i.i.d. entries 完整意思是:矩阵 / 向量中的所有元素,都是相互独立、并且服从同一个概率分布的随机变量

Qqjl​ 是论文里的1-bit 量化算子,下标 qjl 是「Quantized Johnson-Lindenstrauss」的缩写,也就是量化版的约翰逊 - 林登斯特劳斯变换,是 TurboQuant 里的核心原语之一。

In the next lemma we restate the results from [62] that show the QJL is unbiased and also has small inner product distortion:

以下引理重述了文献 [62] 中的结论,证明 QJL 变换是无偏的,且内积失真很小:


附录

离散熵和微分熵

微分熵:衡量连续随机变量的混乱程度 / 不确定度 / 信息量

  • 分布越集中、狭窄 → 微分熵越小
  • 分布越分散、平坦、杂乱 → 微分熵越大

manifold 流形

边缘分布

联合分布里,只看其中一部分变量的概率分布,把其他变量的影响 "平均掉"。

有一个二维联合分布 P(X,Y),表示「身高 X 和体重 Y 的联合概率」

联合分布:同时考虑身高和体重,比如 "身高 180、体重 75kg 的概率"

边缘分布 P(X):只关心身高,不管体重。把所有体重的情况加起来 / 积分掉,得到 "身高 180 的概率"

边缘分布 P(Y):只关心体重,不管身高。把所有身高的情况加起来 / 积分掉,得到 "体重 75kg 的概率"

边缘分布,就是从 "整体联合分布" 里,把你不关心的变量 "积分掉 / 求和掉",得到的单变量分布

球面

伽马函数(Gamma Function)

伽马函数(记为 Γ(x)),可以理解为阶乘 n! 的连续推广,它把原本只定义在正整数上的阶乘,扩展到了所有实数(甚至复数),是高维几何、概率论里的核心工具。

相关推荐
暖阳之下2 小时前
学习周报四十二
学习
wubba lubba dub dub7502 小时前
第四十四周 学习周报
学习
黑眼圈子3 小时前
动态规划问题专项练习(未编辑完成...
学习·算法·动态规划
Aliex_git3 小时前
Nuxt 学习笔记(一)
前端·笔记·学习
烤麻辣烫3 小时前
json与fastjson
前端·javascript·学习·json
tryqaaa_3 小时前
学习日志(二)【linux全部命令,http请求头{有例题},Php语法学习】
linux·学习·http·php·web
sxjk19874 小时前
WPS表格REGEXP公式提取车牌学习
学习·wps·表格·数据处理
m0_377108144 小时前
PCB学习
学习
U盘失踪了4 小时前
Python 的 urljoin:告别手动拼接 URL 的烦恼
笔记·学习