总结:
1.视频生成技术的最底层原理是transformer和difussion
2.需要学习的话要先有一些difussion和NLP工作的基础
3.dit已经替代了原来的Unet架构成为了视觉生成领域的新一代底层架构
4.DDPM->DDIM->DELL->Clip->DIT->GPT等一系列工作成为了SORA的垫脚石
5.目前来看,所有的最新的AI工作的state-of-art的底层架构是transformer,好好研究吧
总结:
1.视频生成技术的最底层原理是transformer和difussion
2.需要学习的话要先有一些difussion和NLP工作的基础
3.dit已经替代了原来的Unet架构成为了视觉生成领域的新一代底层架构
4.DDPM->DDIM->DELL->Clip->DIT->GPT等一系列工作成为了SORA的垫脚石
5.目前来看,所有的最新的AI工作的state-of-art的底层架构是transformer,好好研究吧