transformers

bert_t5_gpt

重点看下，decoder 部分的 Multi-head attention 其实是 Masked 的，见图中最右侧的下三角矩阵
- 这也是 GPT（decoder-only）的模型架构所采用的方式
post vs. pre LayerNorm

Name		Name	Last commit message	Last commit date
Latest commit History 110 Commits
imgs		imgs
tutorials		tutorials
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Provide feedback