技术栈
albert
静静的喝酒
6 小时前
深度学习
·
bert
·
albert
深度学习笔记之BERT(二)BERT精简变体:ALBERT
上一节从 Word2vec \text{Word2vec} Word2vec上下文信息的局限性角度出发,介绍了 BERT \text{BERT} BERT是如何优化这一问题的,以及 BERT \text{BERT} BERT的训练策略。本节将介绍 BERT \text{BERT} BERT的一种精简变体: ALBERT \text{ALBERT} ALBERT。