Skip to content

Latest commit

 

History

History
13 lines (7 loc) · 323 Bytes

README.md

File metadata and controls

13 lines (7 loc) · 323 Bytes

bert_t5_gpt

transformers

  • 重点看下,decoder 部分的 Multi-head attention 其实是 Masked 的,见图中最右侧的下三角矩阵

    • 这也是 GPT(decoder-only)的模型架构所采用的方式
  • post vs. pre LayerNorm