jiyoon0923 / BiEncoder-Experiments Public

Notifications You must be signed in to change notification settings
Fork 0
Star 0

Bi-Encoder Training Experiments based on Various Training Tricks (e.g. Pre Batch, Passage-wise Loss, Gradient Caching, ...)

0 stars 0 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
configs/train		configs/train
datasets		datasets
docker		docker
logs		logs
outputs		outputs
src		src
.gitignore		.gitignore
README.md		README.md
eval.py		eval.py

Repository files navigation

BiEncoder-Experiments

Bi-Encoder Training Experiments based on Various Training Techniques(e.g. Pre Batch, Passage-wise Loss, Gradient Caching, ...)

Todo List

Validation Dataset In-Batch Negative Accuracy Logging
Gradient Caching Implementation
Passage-Wise Loss Implementation
PreBatch After Model Warmup Implementation
Cross Batch for Multi-GPU Train
Multi GPU Setting
Loading Scheduler & Model

Proposal Papers for Each Techniques

PreBatch : DensePhrases
Passage-Wise Loss : PAIR
Gradient Caching : Condenser & Gradient Cache
Cross Batch : RocketQA

Example of Multi GPU Setting

Fisrtly, make configuration file of Huggingface Accelerate

accelerate config

launch accelerate for ddp training

accelerate launch src/trainer.py --config configs/train/base.yaml

[CAUTION] The batch size is not operated as single gpu setting. The Acutal Batch size is train_batch_size*[your_total_gpu_for_ddp]

About

Bi-Encoder Training Experiments based on Various Training Tricks (e.g. Pre Batch, Passage-wise Loss, Gradient Caching, ...)

Report repository

Releases

No releases published

Packages

No packages published

Languages