bert_t5_gpt

transformers

重点看下，decoder 部分的 Multi-head attention 其实是 Masked 的，见图中最右侧的下三角矩阵
- 这也是 GPT（decoder-only）的模型架构所采用的方式
post vs. pre LayerNorm

Provide feedback