- 18年 BERT算法在NLP领域取得的巨大成功,刷新了多项NLP任务记录,但是BERT开启了NLP 新的算法框架的范式 PTM(pre-trained model)+ fine-tune模式,下游的任务只需要很少的数据与低成本的训练时间 既可以取得该行业任务性能要求,而这种算法框架的基础是17年google提出的self-attention transformer网路,位列目前三大深度学习网路之列(CNN RNN Transformer)。
- 依靠transformer编码搭建的框架,采用双向语言模型进行序列建模,经典算法由BERT/ALBERT Roberta,目前大部分主流MLM模型均采用的是这类编码架构,对于语音理解任务效果较好
- 采用transformer decode编码形式,单向语言模型 对于文本生成较好,比如GPT系列
- 采用全体的transformer结构,综合了AE和AR的缺点,同时对语言理解任务和语言生成任务效果较好,比如UniLM
- Encoder-Decode编码形式的已经变体方案,比如UniLM
- 思路采用的Prefix_LM架构的升级版本,但是又有区别 比如XLNET
- 采用的传统的RNN结构(包好LSTM GRU等变体),搭建的双向语言模型结构
- 目前数据源主要有图片 文本 语音 视频,一般训练的是双模态形式 比如图片-文字,VQA等,还有技术 语音-文本(ASR) 文本-语音(TSS语音合成),相对来说 目前主流研究双模态形式,比如图片-文本 文本-图片 语音-文本 文本-语音这类标注的训练数据较多,容易获取,从模型结构来说,一般分为双流模型和单流模型。
采用预训练模型的多模态方法,比不用预训练的传统方法,在应用效果上是有明显提升的。
大规模的标准对齐数据比较缺乏,这会严重制约多模态预训练的发展。所以明显需要数据先行,这是发展技术的前提条件;
- 本次先阅读该开源项目所有代码,主要学习PTM框架和相关的算法训练、推理和原理。本次阅读心得主要以代码注释方式在代码位置处注释标明,每一个部分完成会发布一片关于该章节的心得说明
“Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks