Attenion Is All You Need 发表于 2023-04-05 更新于 2024-04-12 分类于 从零开始机器学习 阅读次数: 本文字数: 94 阅读时长 ≈ 1 分钟 结构 Embeding Self-Attention Add & Norm Feed Forward Multi-Head Attention 输入A对应多个Attention, 得到多个输出O1, O2, O3... 然后将输出concat起来,通过一个linear层,转换为最终的输出。 意义为,每个注意力头可能关注的是不同的部分,然后将这些部分的信息融合起来。 参考 https://www.youtube.com/watch?v=ugWDIIOHtPA&t=835s