文献分享: ConstBERT固定数目向量编码文档

😂图放这了,大道至简的 idea \text{idea} idea不愧是 ECIR \text{ECIR} ECIR

👉原论文

1. ConstBERT \textbf{1. ConstBERT} 1. ConstBERT的原理

1️⃣模型的改进点:相较于 ColBERT \text{ColBERT} ColBERT为每个 Token \text{Token} Token生成一个向量, ConstBERT \text{ConstBERT} ConstBERT只为段落生成固定 C C C个向量

  1. 嵌入阶段:为查询 Q Q Q和段落 P P P的每个 Token \text{Token} Token都生成一个 d d d维向量,是为 { q 1 , ... , q N } \{q_{1},\ldots,q_{N}\} {q1,...,qN}和 { p 1 , ... , p M } \{p_{1},\ldots,p_{M}\} {p1,...,pM}
  2. 线性变换:拼接所有段落单向量为 [ p 1 , ⋯   , p M ] ∈ R d M \left[p_{1},\cdots,p_{M}\right]\text{∈}\mathbb{R}^{dM} [p1,⋯,pM]∈RdM,进行 W ∈ R M k × C k \mathbf{W}\text{∈}\mathbb{R}^{Mk\text{×}Ck} W∈RMk×Ck投影得 [ δ 1 , ⋯   , δ C ] = W T [ p 1 , ⋯   , p M ] ∈ R d C \left[\delta_{1},\cdots, \delta_{C}\right]\text{=}\mathbf{W}^{T}\left[p_{1},\cdots,p_{M}\right]\text{∈}\mathbb{R}^{dC} [δ1,⋯,δC]=WT[p1,⋯,pM]∈RdC
  3. 后期交互:同 ColBERT \text{ColBERT} ColBERT,为每个 q i q_i qi找到与其内积最大的 MaxSim ( q i , δ ) = δ p i \text{MaxSim}(q_i,\delta)\text{=}\delta_{p_i} MaxSim(qi,δ)=δpi,最后将所有 MaxSim \text{MaxSim} MaxSim相加得到相似度评分

2️⃣改进的动机:为何非要固定数目的段落向量

  1. 存储效率上:设定 C < M C\text{<}M C<M后,能降低段落嵌入所占的空间
  2. 计算效率上:设定 C < M C\text{<}M C<M后,将原有 O ( M N ) O(MN) O(MN)的查询复杂度降为了 O ( C N ) O(CN) O(CN)
  3. 系统级优化:使得内存对齐,规避了变长文档表示导致内存碎片化,从而降低了 Cache Miss \text{Cache Miss} Cache Miss

2. ConstBERT \textbf{2. ConstBERT} 2. ConstBERT的实验结果

1️⃣效果:当 C = 32 C\text{=}32 C=32时,在 MsMarco/BEIR \text{MsMarco/BEIR} MsMarco/BEIR等数据集上,查询效果与 ColBERT \text{ColBERT} ColBERT相当(用 MRR@10/nDCG@10 \text{MRR@10/nDCG@10} MRR@10/nDCG@10衡量)

2️⃣效率:相比 ColBERT \text{ColBERT} ColBERT对段落的存储空间需求减少了一半多,端到端检索响应速度也显著加快

相关推荐
dFObBIMmai11 分钟前
MySQL主从同步中大事务导致的延迟_如何拆分大事务优化同步
jvm·数据库·python
szccyw014 分钟前
mysql如何限制特定存储过程执行权限_MySQL存储过程安全访问
jvm·数据库·python
czlczl2002092530 分钟前
利用“延迟关联”优化 MySQL 巨量数据的深分页查询
数据库·mysql
ACP广源盛139246256731 小时前
IX8024与科学大模型的碰撞@ACP#筑牢科研 AI 算力高速枢纽分享
运维·服务器·网络·数据库·人工智能·嵌入式硬件·电脑
Elastic 中国社区官方博客1 小时前
ES|QL METRICS_INFO 和 TS_INFO:为你的时间序列数据建立目录
大数据·数据库·elasticsearch·搜索引擎·信息可视化·全文检索
俺不要写代码2 小时前
数据库:函数
数据库·mysql
Mr数据杨2 小时前
手写数字识别如何支撑文档数字化应用
机器学习·数据分析·kaggle
2401_882273722 小时前
如何在 CSS 中正确加载本地 JPG 背景图片
jvm·数据库·python
曹牧2 小时前
SQL:多个事务同时修改同一索引块
数据库·sql
aXin_ya2 小时前
微服务第八天 Sentinel 四种分布式事务模式
java·数据库·微服务