测试工程师驾驭大语言模型的第一步

处理独立、静态输入的FNN

FNN前馈神经网络。FNN是最简单的神经网络，像一个完全新手的厨师，只看当前的步骤，没有前后步骤的记忆和关联。一个新手厨师第一次拿到菜谱后，就开始按照菜谱做饭，看一步做一步，每一步都是独立的，比如看到了"切葱"的步骤，就只看到切葱的输入"粗细、长短"等，输出就是"切成小段的细葱丝"。

他并不管前面的步骤，也不管后面的步骤。前面一步洗葱，但如果没有洗就切了，葱上会有泥。后面一步是用200度的热油炒香葱丝，那么如果葱丝切得很细，下锅就糊了。

有序列记忆的RNN

RNN循环神经网络。RNN通过循环机制记住之前的步骤和状态，适合处理序列。这就像一个有点经验的厨师炒酱，能够根据前几步调整当前的步骤。

捕捉局部规律的CNN

CNN卷积神经网络。它是一个擅长找规律的厨师，关注菜谱中相邻步骤的模式，并不是记住做饭步骤的序列，而是找出相邻步骤的模式，它用"放大镜"扫描食谱，找出关键的组合技巧。

动态聚焦关键步骤的Attention机制

Attention也叫注意力机制。它是一个资深厨师，能够动态关注食谱中最相关的部分，而不是按顺序或局部处理。它通过计算当前步骤与过去步骤的相关性，决定哪些步骤更重要。例如在做"慢炖"这一步的时候，这个资深的厨师会扫描整个食谱，计算哪些步骤对现在最重要。假设他发现切葱姜蒜的粗细会影响爆香，决定酱汁的香味，而调和的酱汁的比例会影响最后的黏稠度，就会把这两个步骤分配更高的权重。

Attention这个资深的厨师会快速地翻阅菜谱，然后找出关键点。这样就可以灵活地处理距离依赖，不受序列长度的限制，并且是可解释的 （也就是可解释为什么要关注这些步骤）。传统Attention常用于"输入-输出"任务（比如翻译），需要外部"查询"（如当前步骤查询过去步骤）。但如果整个食谱是自包含的（步骤间自己关联），Attention需要外部引导，不够简洁。

全局自我关联的Self-Attention

Self-Attention是Transformer的核心 ，允许序列中每个步骤"自己关注"其他所有步骤，像一个大师级厨师，能让食谱的每一步都相互"对话"，形成全局优化方案。食谱的每个步骤（洗葱、切葱、炒肉、调和酱汁等）同时处理。