sora_learning/总结1.md at master · luoclab/sora_learning · GitHub

总结：

1.视频生成技术的最底层原理是transformer和difussion

2.需要学习的话要先有一些difussion和NLP工作的基础

3.dit已经替代了原来的Unet架构成为了视觉生成领域的新一代底层架构

4.DDPM->DDIM->DELL->Clip->DIT->GPT等一系列工作成为了SORA的垫脚石

5.目前来看，所有的最新的AI工作的state-of-art的底层架构是transformer,好好研究吧