[BREAKING][refact]: move actor/critic/hybrid_engine/reward_model/rollout/workers out of ppo directory for reuse #52

PeterSH6 · 2024-12-16T09:41:45Z

A BREAKING PR, need to fix the import
In current architecture:
- verl.workers: store all the files related to SPMD distributed computation
- verl.trainer: store different RL algorithms, SFT, and generation scripts

PeterSH6 · 2024-12-16T13:18:42Z

verl/trainer/workers/actor/megatron_actor.py

@@ -38,7 +38,7 @@
 from verl.utils.megatron.pipeline_parallel import (compute_transformers_input_shapes, make_batch_generator)
 from verl import DataProto
 from verl.trainer.ppo import core_algos
-from verl.trainer.ppo.actor import BasePPOActor
+from verl.trainer.workers.actor import BasePPOActor


We may also need to rename

BasePPOActor -> BaseActor

DataParallelPPOActor -> DataParallelActor

Other classes are similar

Maybe we can simply delete base class

from verl.trainer.workers.critic import DataParallelPPOCritic from verl.trainer.workers.actor.megatron_actor import MegatronPPOActor

DDP & Megatron class have the same issue, I think we still need to delete PPO. Shall we just make the PPO implementation a base class? So that other algorithms can simply override the functions.

… out of verl/trainer/ppo directory to verl/trainer directory for reusage

PeterSH6 changed the title ~~['[refact]~~ [BREAKING][refact]: move actor/critic/hybrid_engine/reward_model/rollout/workers out of ppo directory for reuse Dec 16, 2024

PeterSH6 changed the title ~~[BREAKING][refact]: move actor/critic/hybrid_engine/reward_model/rollout/workers out of ppo directory for reuse~~ [WIP][BREAKING][refact]: move actor/critic/hybrid_engine/reward_model/rollout/workers out of ppo directory for reuse Dec 16, 2024

PeterSH6 changed the title ~~[WIP][BREAKING][refact]: move actor/critic/hybrid_engine/reward_model/rollout/workers out of ppo directory for reuse~~ [BREAKING][refact]: move actor/critic/hybrid_engine/reward_model/rollout/workers out of ppo directory for reuse Dec 16, 2024

PeterSH6 requested review from vermouth1992 and eric-haibin-lin December 16, 2024 13:11

PeterSH6 commented Dec 16, 2024

View reviewed changes

PeterSH6 added 6 commits December 18, 2024 13:46

[refact] move actor/critic/hybrid_engine/reward_model/rollout/workers…

989babe

… out of verl/trainer/ppo directory to verl/trainer directory for reusage

[misc] fix import

fae343e

[refact] move actor/critic and others inside workers

caf60ff

fix uncommit files

40163c5

fix uncommit files

69e1e5d

[refact] move workers out of trainers

6143651

PeterSH6 force-pushed the gm/refact branch from 0e10c9c to 6143651 Compare December 18, 2024 05:46

eric-haibin-lin approved these changes Dec 18, 2024

View reviewed changes

PeterSH6 merged commit f535977 into main Dec 18, 2024
2 checks passed

PeterSH6 deleted the gm/refact branch December 18, 2024 06:34

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[BREAKING][refact]: move actor/critic/hybrid_engine/reward_model/rollout/workers out of ppo directory for reuse #52

[BREAKING][refact]: move actor/critic/hybrid_engine/reward_model/rollout/workers out of ppo directory for reuse #52

PeterSH6 commented Dec 16, 2024 •

edited

Loading

PeterSH6 Dec 16, 2024

vermouth1992 Dec 16, 2024

PeterSH6 Dec 16, 2024 •

edited

Loading

[BREAKING][refact]: move actor/critic/hybrid_engine/reward_model/rollout/workers out of ppo directory for reuse #52

[BREAKING][refact]: move actor/critic/hybrid_engine/reward_model/rollout/workers out of ppo directory for reuse #52

Conversation

PeterSH6 commented Dec 16, 2024 • edited Loading

PeterSH6 Dec 16, 2024

Choose a reason for hiding this comment

vermouth1992 Dec 16, 2024

Choose a reason for hiding this comment

PeterSH6 Dec 16, 2024 • edited Loading

Choose a reason for hiding this comment

PeterSH6 commented Dec 16, 2024 •

edited

Loading

PeterSH6 Dec 16, 2024 •

edited

Loading