模型并行之Embedding表

模型并行之Embedding表

Embedding在推荐模型中承担着将用户、物品及上下文信息映射为低维稠密向量的核心任务,通过捕捉潜在语义关联和协同过滤信号,为推荐系统提供可计算的特征表达基础。其向量化表征能力不仅解决了高维稀疏数据难以直接建模的问题,更能通过隐式关系挖掘支撑用户兴趣建模和相似度计算,这种稠密向量空间的连续性特征为后续针对不同行为序列、场景维度或兴趣簇的Embedding切片分析提供了可行性,例如基于时间衰减、行为类型或属性聚类的切片方式可进一步细化用户意图的动态表征。

接下来以一个案例为例介绍有关Embedding表的5种切分方式: Table Wise **、Column WiseRow WiseTable Wise&Row Wise 、网格切分**。(前提 :假设用户有128个特征,每个特征的Dim是128,注:下图中Devicexx 表示不同的主机或服务器,Rankx****x表示同一个主机上的不同卡)

  • Table Wise切分:表示将所有embedding表放置在一个同一个device上的同个Rank上,其余的Rank和Device不放置。
  • Row Wise****切分 :表示将Embedding 表按照key的维度进行切分。注意::图右方的Device一般指的是不同的服务器,也可根据表的大小与需要进行设置到同一个Device。
  • Column Wise****切分 :表示将Embedding 表按列(Embedding Dim)切分到不同的Rank上,一个Embedding Dim维度为128均分切到4张卡上变成[0~31, 32~63,64~95,96~127]。也就是每一个Rank分别获取每个特征的{[0, 31],[32, 63], [64, 95], [96, 127]}。注意 :图中上方的Device一般指的是不同的服务器,也可根据表的大小与需要进行设置到同一个Device。

  • Table Wise&Row Wise :组合切分方式,将Table Wise与Row Wise进行结合,其表示将表放置在一个主机上,在该主机上的 rank 之间进行行式拆分。

网格切片:其组合了Table Wise、Row Wise 和Column Wise三种,表示先将Embedding表按照Column Wise切片,然后再将CW 分片后的结果以TWRW方式放置在主机上。

4:数据并行并行之Embedding表:数据并行表示每个Rank中都保留整个表的副本。

相关推荐
Jane - UTS 数据传输系统40 分钟前
立足国家“十五五”数智化战略大局,紧扣上海“2+3+6+6”产业布局,UTS数据传输系统筑牢数智化转型数据底座
大数据·人工智能·跨平台·信创·跨数据库·十五五·国产数据库适配
阿里云大数据AI技术1 小时前
Hologres 4.1 新特性:基于 Stage 的离线导入,平衡吞吐与资源成本的最优解
人工智能
真心喜欢你吖1 小时前
统信操作系统UOS部署安装OpenClaw+飞书接入完整教程(国产大模型配置)
人工智能·python·语言模型·大模型·openclaw·小龙虾
咚咚王者1 小时前
人工智能之知识处理 知识推理 第三章 图神经网络与知识推理:让图谱“活”起来
人工智能·深度学习·神经网络
xcbrand1 小时前
口碑好的品牌策划厂家
大数据·人工智能·python
用户2018792831671 小时前
故事:“魔法背包”—— /context 命令
人工智能
苹果二1 小时前
工业软件快问快答
人工智能·数据分析·mbse·系统工程·工业软件
spider'1 小时前
Ollama更改安装路径
人工智能
ZHOU_WUYI1 小时前
ppo算法简单实现
人工智能·pytorch·算法
liu****1 小时前
LangChain-AI应用开发框架(七)
人工智能·python·langchain·大模型应用·本地部署大模型