一句话金句: 跳过传统分词,让模型自己学。
通俗解释:
- 传统方法 (过时): 先用一个外部工具(如结巴分词)把句子切成词(如
["我", "喜欢", "机器学习"]
),再喂给模型。风险是分词一旦错了,模型后面全错。 - 现代方法 (主流): 直接把中文句子看成是由一个个汉字组成的序列 ,然后对这个汉字序列应用BPE或WordPiece等子词算法。
- 模型会自己学会哪些字经常在一起出现,应该组合成一个语义单元(比如"机器学习"可能会被模型组合在一起)。
- 这种方法避免了传统分词的错误传递,更加灵活有效。
面试得分点:
- 指出传统方法的误差传播弊端。
- 强调所有主流模型(BERT、GPT等)现在都直接将汉字作为基本输入单位。