Attenion Is All You Need

结构

Embeding

Self-Attention

Add & Norm

Feed Forward

Multi-Head Attention

输入A对应多个Attention, 得到多个输出O1, O2, O3... 然后将输出concat起来,通过一个linear层,转换为最终的输出。

意义为,每个注意力头可能关注的是不同的部分,然后将这些部分的信息融合起来。

参考