TASK09 | Reasoning Kingdom | Transformer : 动态拓扑的注意力革命每一个 Attention Head 都在问:此刻,哪些部分对哪些部分重要?2017年6月12日,Google Brain的Ashish Vaswani等八位作者在arXiv上传了一篇论文,标题是”Attention Is All You Need”。这个标题很狂妄。当时机器翻译的主流架构是RNN(循环神经网络)和LSTM(长短期记忆网络)——它们统治NLP领域已经超过二十年。而这篇论文说:你们都不需要了,注意力机制就够了。 更狂妄的是,他们是对的。五个月后,这篇论文被NIPS 2017接收。两年后,BE