Maybe memory leak leak occurs after evaluation when using `enable_liger_kernel`. #6085

upskyy · 2024-11-20T06:57:06Z

Reminder

I have read the README and searched the existing issues.

System Info

llamafactory==0.7.2.dev0
transformers==4.46.1
python==3.10.14

Reproduction

llamafactory-cli train examples/train_lora/llama3_lora_sft.yaml  # or gemma

Expected behavior

Thank you for sharing such an amazing project. @hiyouga

When I used enable_liger_kernel: true for training, the training memory usage of the Gemma2 model dropped from around 60 GiB to 7 GiB.

However, after running evaluation, the memory usage jumps to 60 GiB, and even when resuming training, it doesn't return to the previous memory level, staying at 60 GiB instead. It seems like there might be a memory leak somewhere.

Others

No response

The text was updated successfully, but these errors were encountered:

github-actions bot added the pending This problem is yet to be addressed label Nov 20, 2024

upskyy changed the title ~~Memory leak occurs during evaluation when using enable_liger_kernel.~~ Maybe memory leak leak occurs after evaluation when using enable_liger_kernel. Nov 20, 2024

upskyy mentioned this issue Nov 20, 2024

Maybe memory leak occurs after evaluation when using use_liger_kernel. huggingface/transformers#34822

Open

4 tasks

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Maybe memory leak leak occurs after evaluation when using `enable_liger_kernel`. #6085

Maybe memory leak leak occurs after evaluation when using `enable_liger_kernel`. #6085

upskyy commented Nov 20, 2024 •

edited

Loading

Maybe memory leak leak occurs after evaluation when using enable_liger_kernel. #6085

Maybe memory leak leak occurs after evaluation when using enable_liger_kernel. #6085

Comments

upskyy commented Nov 20, 2024 • edited Loading

Reminder

System Info

Reproduction

Expected behavior

Others

Maybe memory leak leak occurs after evaluation when using `enable_liger_kernel`. #6085

Maybe memory leak leak occurs after evaluation when using `enable_liger_kernel`. #6085

upskyy commented Nov 20, 2024 •

edited

Loading