Attenion Is All You Need

发表于 2023-04-05 更新于 2025-04-27 分类于从零开始机器学习阅读次数：本文字数： 94 阅读时长 ≈ 1 分钟

结构

Embeding

Self-Attention

Add & Norm

Feed Forward

Multi-Head Attention

输入A对应多个Attention, 得到多个输出O1, O2, O3... 然后将输出concat起来，通过一个linear层，转换为最终的输出。

意义为，每个注意力头可能关注的是不同的部分，然后将这些部分的信息融合起来。

参考

https://www.youtube.com/watch?v=ugWDIIOHtPA&t=835s

0%