会不断更新,觉得有用就点个赞
最初始版本之将词向量使用CNN的方式进行叠加,这里讲个有趣的东西
人脑在思考的时候,例如一个人在进行推测的时候,他会进行一定的画面想象,但是在现在的大语言模型当中,至少在transformer当中,并没有给词向量叠加上这样子的想象力机制,对transformer来说,它学会的只是依据前n个字符,然后预测下一个字符,但是它并不理解字符的视觉意义,听觉意义,味觉意义,但是他理解字符的归类意义,例如"苹果"和"梨子"这两个字符组合是相近的,但是词向量中没有苹果和雪梨的颜色以及形状的意义,导致词向量和模型结构还无法叠加上视觉意义。