From 674a873bf9e95e54e3873c7706b2f01975090648 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Wed, 3 Apr 2024 15:41:50 +0800
Subject: [PATCH 01/71] auto tp training

---
 deepspeed/inference/engine.py       |   4 +-
 deepspeed/module_inject/auto_tp.py  |   5 +-
 deepspeed/module_inject/layers.py   |  77 ++++++++++++-
 deepspeed/runtime/bf16_optimizer.py |   1 -
 deepspeed/runtime/engine.py         |  32 +++++-
 deepspeed/runtime/zero/config.py    |   6 +-
 deepspeed/utils/__init__.py         |   1 +
 deepspeed/utils/parallel_states.py  | 169 ++++++++++++++++++++++++++++
 8 files changed, 282 insertions(+), 13 deletions(-)
 create mode 100644 deepspeed/utils/parallel_states.py

diff --git a/deepspeed/inference/engine.py b/deepspeed/inference/engine.py
index 5cdd99ff0b90..f405fc27d49f 100755
--- a/deepspeed/inference/engine.py
+++ b/deepspeed/inference/engine.py
@@ -156,7 +156,9 @@ def __init__(self, model, config):
             if config.replace_with_kernel_inject:
                 # 2. DeepSpeed Kernel Injection
                 self._apply_injection_policy(config)
-            elif config.tensor_parallel.tp_size > 1:
+
+            # WA, hard code, for TP=1, use module replace for debug."
+            elif config.tensor_parallel.tp_size >= 1:
                 # 3. Automatic Tensor Parallelism
                 parser_dict = AutoTP.tp_parser(model)
                 print("AutoTP: ", parser_dict)
diff --git a/deepspeed/module_inject/auto_tp.py b/deepspeed/module_inject/auto_tp.py
index bf9c2d74c635..4245dc6234f2 100644
--- a/deepspeed/module_inject/auto_tp.py
+++ b/deepspeed/module_inject/auto_tp.py
@@ -344,7 +344,6 @@ def _replace(self, child, name, conv_linear_layer):
             return LinearAllreduce(torch.nn.parameter.Parameter(data_dc, requires_grad=False), child.bias if child.bias is None else \
                         torch.nn.parameter.Parameter(move(child.bias, get_accelerator().current_device_name())), self.mp_group)
         else:
-
             # if conv_linear_layer [weight_shape[1], weight_shape[0] // mp_size]
             # else [weight_shape[0] // mp_size, weight_shape[1]]
             if self.conv_linear_layer:
@@ -377,7 +376,9 @@ def _replace(self, child, name, conv_linear_layer):
                     bias_data_dc = None
 
             setattr(child, "replaced", True)
-            return LinearLayer(weight=torch.nn.parameter.Parameter(data_dc, requires_grad=False), bias=bias_data_dc)
+            return LinearLayer(weight=torch.nn.parameter.Parameter(data_dc, requires_grad=False),
+                               bias=bias_data_dc,
+                               mp_group=self.mp_group)
 
     def _slice_embedding(self, child, name, conv_linear_layer):
         if getattr(child, "replaced", False) == True:
diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index 5fb957faa80c..7c7e0bbae922 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -7,24 +7,83 @@
 from deepspeed import comm as dist
 from torch import nn
 from torch.nn import functional as F
-
 from torch.nn.parameter import Parameter
 from deepspeed.accelerator import get_accelerator
 from deepspeed.module_inject.tp_shard import get_shard_size, get_shard_size_list
+from abc import ABC, abstractmethod
+
+
+class RowParallel(torch.autograd.Function):
+
+    @staticmethod
+    def forward(ctx, group: dist.ProcessGroup, input_):
+        ctx.group = group
+        if group == None:
+            return input_
+        # for debug ,will apply dist.inference_all_reduce
+        dist.all_reduce(input_, group=group)
+        return input_
+
+    @staticmethod
+    def backward(ctx, grad_output):
+
+        return None, grad_output
+
 
+class ColumnParallel(torch.autograd.Function):
 
-class LinearAllreduce(nn.Module):
+    @staticmethod
+    def forward(ctx, group, input_):
+        ctx.group = group
+        return input_
+
+    @staticmethod
+    def backward(ctx, grad_output):
+
+        if ctx.group == None:
+            return None, grad_output
+        # for debug ,will apply dist.inference_all_reduce
+        dist.all_reduce(grad_output, group=ctx.group)
+        return None, grad_output
+
+
+#Parent class handling common logic
+class Replaced_Layer(nn.Module, ABC):
+
+    def __init__(self):
+        super().__init__()
+        self.support_training = False
+
+    @abstractmethod
+    def forward(self, input):
+        """
+        Forward pass method. Must be implemented by subclasses.
+        """
+        pass
+
+    def config_tp_training(self, weight):
+        assert self.support_training, "No implementation of backward."
+        if weight is not None:
+            weight.requires_grad = True
+            setattr(weight, 'tensor_model_parallel', True)
+
+
+class LinearAllreduce(Replaced_Layer):
 
     def __init__(self, weight, bias=None, mp_group=None):
         super(LinearAllreduce, self).__init__()
         self.weight = weight
         self.bias = bias
+        self.support_training = True
+        self.config_tp_training(self.weight)
+        if self.bias is not None:
+            self.config_tp_training(self.bias)
+
         self.mp_group = mp_group
 
     def forward(self, input):
         output = torch.matmul(input, self.weight.transpose(-1, -2))
-        if self.mp_group is not None:
-            dist.inference_all_reduce(output, group=self.mp_group)
+        output = RowParallel.apply(self.mp_group, output)
         if self.bias is not None:
             output += self.bias
         return output
@@ -59,10 +118,13 @@ def forward(self, input):
         return output
 
 
-class LinearLayer(nn.Module):
+class LinearLayer(Replaced_Layer):
 
-    def __init__(self, weight_shape=None, dtype=torch.half, weight=None, bias=None):
+    def __init__(self, weight_shape=None, dtype=torch.half, weight=None, bias=None, mp_group=None):
         super(LinearLayer, self).__init__()
+        self.support_training = True
+
+        self.mp_group = mp_group
         if weight is not None:
             self.weight = weight
             self.bias = bias
@@ -75,8 +137,11 @@ def __init__(self, weight_shape=None, dtype=torch.half, weight=None, bias=None):
                             dtype=dtype,
                             device=get_accelerator().current_device_name())) \
                 if bias is not None else None
+        self.config_tp_training(self.weight)
+        self.config_tp_training(self.bias)
 
     def forward(self, input):
+        input = ColumnParallel.apply(self.mp_group, input)
         output = torch.matmul(input, self.weight.transpose(-1, -2))
         if self.bias is not None:
             output += self.bias
diff --git a/deepspeed/runtime/bf16_optimizer.py b/deepspeed/runtime/bf16_optimizer.py
index 82c8dda423a6..ba6dfd3258a0 100644
--- a/deepspeed/runtime/bf16_optimizer.py
+++ b/deepspeed/runtime/bf16_optimizer.py
@@ -262,7 +262,6 @@ def step(self, closure=None):
                                                      norm_type=self.norm_type,
                                                      use_graph=self.graph_harvesting)
         self._global_grad_norm = all_groups_norm
-
         assert all_groups_norm > 0.
         if self.clip_grad > 0.:
             clip_tensors_by_global_norm(input_tensors=self.get_grads_for_norm(for_clipping=True),
diff --git a/deepspeed/runtime/engine.py b/deepspeed/runtime/engine.py
index 174e699c5202..baacb4a3e1a8 100644
--- a/deepspeed/runtime/engine.py
+++ b/deepspeed/runtime/engine.py
@@ -34,7 +34,6 @@
 from deepspeed.runtime.fp16.fused_optimizer import FP16_Optimizer
 from deepspeed.runtime.fp16.unfused_optimizer import FP16_UnfusedOptimizer
 from deepspeed.runtime.bf16_optimizer import BF16_Optimizer
-
 from deepspeed.runtime.config import DEEPSPEED_OPTIMIZERS, \
     ADAGRAD_OPTIMIZER, ADAM_OPTIMIZER, ADAMW_OPTIMIZER, LAMB_OPTIMIZER, ONEBIT_ADAM_OPTIMIZER, ONEBIT_LAMB_OPTIMIZER, \
     TORCH_ADAM_PARAM, ADAM_W_MODE, ADAM_W_MODE_DEFAULT, ZERO_ONE_ADAM_OPTIMIZER, MUADAM_OPTIMIZER, MUADAMW_OPTIMIZER, \
@@ -73,6 +72,7 @@
 from deepspeed.monitor.monitor import MonitorMaster
 from deepspeed.runtime.progressive_layer_drop import ProgressiveLayerDrop
 from deepspeed.runtime.utils import clip_grad_norm_
+from deepspeed.utils import parallel_states
 from deepspeed.runtime.eigenvalue import Eigenvalue
 from deepspeed.runtime.data_pipeline.constants import DATA_SAMPLING, \
     DATA_ROUTING, DATA_SAMPLING_ENABLED, CURRICULUM_LEARNING, \
@@ -365,6 +365,27 @@ def __init__(self,
         if self._config.compile_config.enabled:
             self._set_client_model(CompiledModuleWrapper(self.module, self._config.compile_config))
 
+        if self.zero_autotp_size() > 0:
+            self._configure_tensor_parallel_states()
+
+    def _configure_tensor_parallel_states(self):
+        # It should have a unified group initialization function,
+        # Like Megatron-LM, including tp, sp, pp, dp, ep, and so on
+
+        # The compatibility has only been validated for 'gpus==autotp_size' at the moment.
+        # Sanity check
+
+        assert self.zero_autotp_size() == dist.get_world_size_from_launcher(
+        ), "Currently, the compatibility between 'autotp' and 'zero' has not been validated"
+        assert self.zero_optimization_stage(
+        ) == 0, "Currently, the compatibility between 'autotp' and 'zero_stage > 0' has not been validated"
+
+        self.mpu = parallel_states
+
+        # disable self.allreduce_gradients() for dp =1 test.
+        self.enable_backward_allreduce = False
+        self.mpu._create_model_parallel(tensor_model_parallel_size=self.zero_autotp_size())
+
     def destroy(self):
         if self.optimizer is not None and hasattr(self.optimizer, 'destroy'):
             self.optimizer.destroy()
@@ -789,6 +810,9 @@ def zero_legacy_stage1(self):
     def zero_ignore_unused_parameters(self):
         return self._config.zero_config.ignore_unused_parameters
 
+    def zero_autotp_size(self):
+        return self._config.zero_config.autotp_size
+
     def graph_harvesting(self):
         return self._config.graph_harvesting
 
@@ -1059,6 +1083,11 @@ def _do_sanity_check(self):
                 f'Client Optimizer (type = {type(self.client_optimizer)} is not instantiated but Client LR Scheduler is instantiated'
 
     def _broadcast_model(self):
+        if self.zero_autotp_size() > 0:
+            # At present, only the 'tp' has been validated with 'dp=1', where the 'seq_data_parallel_group'
+            # will execute an incorrect broadcast. Hard code skip for test.
+            # Unified group creation function is needed
+            return
 
         def is_replicated(p):
             if hasattr(p, "ds_status") and p.ds_status is not ZeroParamStatus.AVAILABLE:
@@ -1996,7 +2025,6 @@ def backward(self, loss, allreduce_gradients=True, release_loss=False, retain_gr
         self._stop_timers(self.engine_timers.backward_inner_timers)
 
         self._start_timers(self.engine_timers.backward_reduce_timers)
-
         if allreduce_gradients and self.enable_backward_allreduce:
             # Traditional code path that allreduces the module parameter grads
             self.allreduce_gradients()
diff --git a/deepspeed/runtime/zero/config.py b/deepspeed/runtime/zero/config.py
index 76583c129cb9..b88b55477000 100644
--- a/deepspeed/runtime/zero/config.py
+++ b/deepspeed/runtime/zero/config.py
@@ -42,6 +42,7 @@
     "zero_quantized_gradients": [true|false],
     "memory_efficient_linear": [true|false],
     "override_module_apply": [true|false],
+    "autotp_size": 0,
     }
 }
 """
@@ -300,7 +301,10 @@ class DeepSpeedZeroConfig(DeepSpeedConfigModel):
     """
     Override nn.Module apply function, for Stage 3.
     """
-
+    autotp_size: int = Field(0, ge=0, new_param="autotp_size")
+    """
+    In automatic tensor-parallelism training, 'tensor_parallel_size', when set to 0, indicates that it is disabled.
+    """
     # Validators
     @validator("overlap_comm")
     def overlap_comm_valid(cls, field_value, values):
diff --git a/deepspeed/utils/__init__.py b/deepspeed/utils/__init__.py
index 75fb6aa9d30a..2b0cf1aec988 100644
--- a/deepspeed/utils/__init__.py
+++ b/deepspeed/utils/__init__.py
@@ -8,6 +8,7 @@
 #from .distributed import init_distributed
 from .init_on_device import OnDevice
 from .groups import *
+from .parallel_states import *
 from .nvtx import instrument_w_nvtx
 # TODO: Move tensor fragment and mixed precision to zero utils
 from .tensor_fragment import tensor_fragment, get_full_hp_param, get_hp_fragment_mapping, fragment_address, get_full_hp_grad, map_to_flat_opt_states
diff --git a/deepspeed/utils/parallel_states.py b/deepspeed/utils/parallel_states.py
new file mode 100644
index 000000000000..1467845bd1a5
--- /dev/null
+++ b/deepspeed/utils/parallel_states.py
@@ -0,0 +1,169 @@
+# Copyright (c) Microsoft Corporation.
+# SPDX-License-Identifier: Apache-2.0
+
+# DeepSpeed Team
+# taken from Megatron,  decouple mpu and Megatron for test
+"""Model and data parallel groups."""
+
+import deepspeed.comm as dist
+# Intra-layer model parallel group that the current rank belongs to.
+_TENSOR_MODEL_PARALLEL_GROUP = None
+
+# Model parallel group (both intra- and pipeline) that the current rank belongs to.
+_MODEL_PARALLEL_GROUP = None
+# Data parallel group that the current rank belongs to.
+_DATA_PARALLEL_GROUP = None
+
+# These values enable us to change the mpu sizes on the fly.
+_MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE = None
+_MPU_TENSOR_MODEL_PARALLEL_RANK = None
+
+
+def is_unitialized():
+    """Useful for code segments that may be accessed with or without mpu initialization"""
+    return _DATA_PARALLEL_GROUP is None
+
+
+def ensure_divisibility(numerator, denominator):
+    """Ensure that numerator is divisible by the denominator."""
+    assert numerator % denominator == 0, '{} is not divisible by {}'.format(numerator, denominator)
+
+
+def _create_model_parallel(tensor_model_parallel_size):
+    """
+    Initialize model data parallel groups.
+
+    Arguments:
+        tensor_model_parallel_size: number of GPUs used to parallelize model.
+
+    Returns:
+        Tuple of data parallel group and model parallel group
+
+    Let's say we have a total of 8 GPUs denoted by g0 ... g7 and we
+    use 2 GPUs to parallelize the model. The present function will
+    create 4 model parallel groups and 2 data parallel groups as:
+        4 model parallel groups:
+            [g0, g1], [g2, g3], [g4, g5], [g6, g7]
+        2 data parallel groups:
+            [g0, g2, g4, g6], [g1, g3, g5, g7]
+    Note that for efficiency, the caller should make sure adjacent ranks
+    are on the same DGX box. For example if we are using 2 DGX-1 boxes
+    with a total of 16 GPUs, rank 0 to 7 belong to the first box and
+    ranks 8 to 15 belong to the second box.
+    """
+    # Get world size and rank. Ensure some consistencies.
+    assert dist.is_initialized()
+    world_size = dist.get_world_size()
+    model_parallel_size = min(tensor_model_parallel_size, world_size)
+    ensure_divisibility(world_size, model_parallel_size)
+    rank = dist.get_rank()
+
+    _DATA_PARALLEL_GROUP = None
+    _MODEL_PARALLEL_GROUP = None
+    # Build the data parallel groups.
+    for i in range(model_parallel_size):
+        ranks = range(i, world_size, model_parallel_size)
+        group = dist.new_group(ranks)
+        if i == (rank % model_parallel_size):
+            _DATA_PARALLEL_GROUP = group
+
+    # Build the model parallel groups.
+    for i in range(world_size // model_parallel_size):
+        ranks = range(i * model_parallel_size, (i + 1) * model_parallel_size)
+        group = dist.new_group(ranks)
+        if i == (rank // model_parallel_size):
+            _MODEL_PARALLEL_GROUP = group
+
+    return _DATA_PARALLEL_GROUP, _MODEL_PARALLEL_GROUP
+
+
+def model_parallel_is_initialized():
+    """Check if model and data parallel groups are initialized."""
+    if _TENSOR_MODEL_PARALLEL_GROUP is None  or \
+        _DATA_PARALLEL_GROUP is None:
+        return False
+    return True
+
+
+def get_model_parallel_group():
+    """Get the model parallel group the caller rank belongs to."""
+    assert _MODEL_PARALLEL_GROUP is not None, \
+        'model parallel group is not initialized'
+    return _MODEL_PARALLEL_GROUP
+
+
+def get_tensor_model_parallel_group():
+    """Get the tensor model parallel group the caller rank belongs to."""
+    assert _TENSOR_MODEL_PARALLEL_GROUP is not None, \
+        'intra_layer_model parallel group is not initialized'
+    return _TENSOR_MODEL_PARALLEL_GROUP
+
+
+def get_data_parallel_group():
+    """Get the data parallel group the caller rank belongs to."""
+    assert _DATA_PARALLEL_GROUP is not None, \
+        'data parallel group is not initialized'
+    return _DATA_PARALLEL_GROUP
+
+
+def set_tensor_model_parallel_world_size(world_size):
+    """Set the tensor model parallel size"""
+    global _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE
+    _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE = world_size
+
+
+def get_tensor_model_parallel_world_size():
+    """Return world size for the tensor model parallel group."""
+    global _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE
+    if _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE is not None:
+        return _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE
+    return dist.get_world_size(group=get_tensor_model_parallel_group())
+
+
+def get_model_parallel_world_size():
+    return get_tensor_model_parallel_world_size()
+
+
+def set_tensor_model_parallel_rank(rank):
+    """Set tensor model parallel rank."""
+    global _MPU_TENSOR_MODEL_PARALLEL_RANK
+    _MPU_TENSOR_MODEL_PARALLEL_RANK = rank
+
+
+def get_tensor_model_parallel_rank():
+    """Return my rank for the tensor model parallel group."""
+    global _MPU_TENSOR_MODEL_PARALLEL_RANK
+    if _MPU_TENSOR_MODEL_PARALLEL_RANK is not None:
+        return _MPU_TENSOR_MODEL_PARALLEL_RANK
+    return dist.get_rank(group=get_tensor_model_parallel_group())
+
+
+def get_model_parallel_rank():
+    return get_tensor_model_parallel_rank()
+
+
+def get_tensor_model_parallel_src_rank():
+    """Calculate the global rank corresponding to the first local rank
+    in the tensor model parallel group."""
+    global_rank = dist.get_rank()
+    local_world_size = get_tensor_model_parallel_world_size()
+    return (global_rank // local_world_size) * local_world_size
+
+
+def get_data_parallel_world_size():
+    """Return world size for the data parallel group."""
+    return dist.get_world_size(group=get_data_parallel_group())
+
+
+def get_data_parallel_rank():
+    """Return my rank for the data parallel group."""
+    return dist.get_rank(group=get_data_parallel_group())
+
+
+def destroy_model_parallel():
+    """Set the groups to none."""
+    global _TENSOR_MODEL_PARALLEL_GROUP
+    _TENSOR_MODEL_PARALLEL_GROUP = None
+
+    global _DATA_PARALLEL_GROUP
+    _DATA_PARALLEL_GROUP = None

From a2e4c474c758a9d780e2ffc95c3aa5084c93d338 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Tue, 23 Apr 2024 19:26:20 +0800
Subject: [PATCH 02/71] update parallel_states

---
 deepspeed/runtime/engine.py        | 5 ++---
 deepspeed/utils/parallel_states.py | 9 +++++++--
 2 files changed, 9 insertions(+), 5 deletions(-)

diff --git a/deepspeed/runtime/engine.py b/deepspeed/runtime/engine.py
index baacb4a3e1a8..5522cd8b56d9 100644
--- a/deepspeed/runtime/engine.py
+++ b/deepspeed/runtime/engine.py
@@ -238,6 +238,8 @@ def __init__(self,
         self._do_args_sanity_check(args)
         self._configure_with_arguments(args, mpu)
         self._do_sanity_check()
+        if self.zero_autotp_size() > 0:
+            self._configure_tensor_parallel_states()
         see_memory_usage(f"DeepSpeed Engine: After args sanity test", force=self.memory_breakdown())
         if mpu is not None:
             if self.elasticity_enabled():
@@ -365,9 +367,6 @@ def __init__(self,
         if self._config.compile_config.enabled:
             self._set_client_model(CompiledModuleWrapper(self.module, self._config.compile_config))
 
-        if self.zero_autotp_size() > 0:
-            self._configure_tensor_parallel_states()
-
     def _configure_tensor_parallel_states(self):
         # It should have a unified group initialization function,
         # Like Megatron-LM, including tp, sp, pp, dp, ep, and so on
diff --git a/deepspeed/utils/parallel_states.py b/deepspeed/utils/parallel_states.py
index 1467845bd1a5..c587a0cae07e 100644
--- a/deepspeed/utils/parallel_states.py
+++ b/deepspeed/utils/parallel_states.py
@@ -58,8 +58,9 @@ def _create_model_parallel(tensor_model_parallel_size):
     ensure_divisibility(world_size, model_parallel_size)
     rank = dist.get_rank()
 
-    _DATA_PARALLEL_GROUP = None
-    _MODEL_PARALLEL_GROUP = None
+    global _DATA_PARALLEL_GROUP
+    global _MODEL_PARALLEL_GROUP
+    global _TENSOR_MODEL_PARALLEL_GROUP
     # Build the data parallel groups.
     for i in range(model_parallel_size):
         ranks = range(i, world_size, model_parallel_size)
@@ -74,6 +75,10 @@ def _create_model_parallel(tensor_model_parallel_size):
         if i == (rank // model_parallel_size):
             _MODEL_PARALLEL_GROUP = group
 
+    # Build the tensor model-parallel groups.
+    # for only TP&DP
+    _TENSOR_MODEL_PARALLEL_GROUP = _MODEL_PARALLEL_GROUP
+
     return _DATA_PARALLEL_GROUP, _MODEL_PARALLEL_GROUP
 
 

From dd081ed4cf47c3122c490c9b4119a5df7b557800 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Tue, 19 Nov 2024 10:24:32 +0000
Subject: [PATCH 03/71] WA skips assertions, the loss remains exactly
 consistent with the low-precision version before the rebase, but the grad
 norm differs (display issue)

---
 deepspeed/runtime/engine.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/deepspeed/runtime/engine.py b/deepspeed/runtime/engine.py
index d4e6ea353f7e..7d4c2b0b9e20 100755
--- a/deepspeed/runtime/engine.py
+++ b/deepspeed/runtime/engine.py
@@ -2234,8 +2234,8 @@ def step(self, lr_kwargs=None):
         r"""Execute the weight update step after forward and backward propagation
         on effective_train_batch.
         """
-        assert not self.inside_no_sync_ctxt, \
-        "It is illegal to call Engine.step() inside no_sync context manager"
+        # assert not self.inside_no_sync_ctxt, \
+        # "It is illegal to call Engine.step() inside no_sync context manager"
 
         see_memory_usage("Engine before step", force=self.memory_breakdown())
 

From cdaed2f06dead39b411265fdf8d0df317fa91a2b Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Fri, 22 Nov 2024 02:40:17 +0000
Subject: [PATCH 04/71] save/load ckpt & save/load hf model basic POC

---
 deepspeed/module_inject/auto_tp.py | 15 ++++--
 deepspeed/module_inject/layers.py  | 81 ++++++++++++++++++++++++++++++
 deepspeed/runtime/engine.py        | 21 ++++++++
 3 files changed, 112 insertions(+), 5 deletions(-)

diff --git a/deepspeed/module_inject/auto_tp.py b/deepspeed/module_inject/auto_tp.py
index 9192b60ef72f..da9612d5a747 100755
--- a/deepspeed/module_inject/auto_tp.py
+++ b/deepspeed/module_inject/auto_tp.py
@@ -356,9 +356,13 @@ def _replace(self, child, name, conv_linear_layer):
 
             if self.conv_linear_layer:
                 child.weight.data = child.weight.data.transpose(-1, -2).contiguous()
-            data = child.weight.data.split(get_shard_size_list(
-                weight_shape[0] if self.conv_linear_layer else weight_shape[1], self.mp_size, name),
-                                           dim=1)
+
+            data = torch.chunk(child.weight.data, self.mp_size, dim=1)
+
+            # data = child.weight.data.split(get_shard_size_list(
+            #     weight_shape[0] if self.conv_linear_layer else weight_shape[1], self.mp_size, name),
+            #                                dim=1)
+
             data_dc = move(data[mp_replace.gpu_index], get_accelerator().current_device_name()).detach()
             del data
 
@@ -388,8 +392,9 @@ def _replace(self, child, name, conv_linear_layer):
                     prepare_tp_fused_qkvw(self.module, child.bias.data, self.mp_size, mp_replace.gpu_index),
                     get_accelerator().current_device_name())
             else:
-                data = child.weight.data.split(get_shard_size_list(weight_shape[0], self.mp_size, name),
-                                               dim=1 if self.conv_linear_layer else 0)
+                data = torch.chunk(child.weight.data, self.mp_size, dim=1 if self.conv_linear_layer else 0)
+                # data = child.weight.data.split(get_shard_size_list(weight_shape[0], self.mp_size, name),
+                #                                dim=1 if self.conv_linear_layer else 0)
                 data_dc = move(data[mp_replace.gpu_index], get_accelerator().current_device_name()).detach()
                 del data
 
diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index 703f07a8d33b..24e69e0d0025 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -11,6 +11,7 @@
 from deepspeed.accelerator import get_accelerator
 from deepspeed.module_inject.tp_shard import get_shard_size, get_shard_size_list
 from abc import ABC, abstractmethod
+from typing import Iterable
 
 
 class RowParallel(torch.autograd.Function):
@@ -61,11 +62,60 @@ def forward(self, input):
         """
         pass
 
+    @abstractmethod
+    def gather_params(self, params_list):
+        pass
+
+    def partition(self, params_list):
+        for idx, param in params_list:
+            params_list[idx].data = param.data_partition
+            del param.data_partition
+
+        # for param in params_list:
+        #     param.data=torch.empty(0, dtype=param.dtype, device=param.device)
     def config_tp_training(self, weight):
         assert self.support_training, "No implementation of backward."
         if weight is not None:
             weight.requires_grad = True
             setattr(weight, 'tensor_model_parallel', True)
+            weight.ds_is_preleace_module = True
+            weight.gather_params = self.gather_params
+            weight.partition = self.partition
+
+
+class GatherReplacedLayerParams:
+
+    def __init__(self, params, module, enabled=True):
+        self.enabled = enabled
+        self.module = module
+        if not enabled:
+            return
+        if isinstance(params, Iterable) and not isinstance(params, torch.Tensor):
+            # deal with generators like model.parameters()
+            # must convert to list to be able to iterate more than once if we get a generator
+            params = list(params)
+        else:
+            # single param
+            params = [params]
+
+        self.params = params
+
+        if not any(self._is_replaced_module_weight(p) for p in params):
+            self.enabled = False
+            return
+
+    def _is_replaced_module_weight(self, param):
+        return getattr(param, 'ds_is_preleace_module', False)
+
+    def __enter__(self):
+
+        if self.enabled:
+            self.params[0].gather_params(self.params)
+
+    def __exit__(self, exc_type, exc_value, traceback):
+        #TODO : Check whether there are any missing attributes.
+        if self.enabled:
+            self.params[0].partition(self.params)
 
 
 class LinearAllreduce(Replaced_Layer):
@@ -88,6 +138,21 @@ def forward(self, input):
             output += self.bias
         return output
 
+    def gather_params(self, params_list):
+        world_sz = dist.get_world_size(self.mp_group)
+
+        for idx, param in enumerate(params_list):
+            param = param.transpose(0, 1).contiguous()
+            output_param = torch.empty(world_sz * param.shape[0],
+                                       param.shape[1],
+                                       dtype=param.dtype,
+                                       device=param.device)
+            dist.all_gather_into_tensor(output_param, param, group=self.mp_group)
+            params_list[idx].data_partition = param.data
+            params_list[idx].data = output_param.transpose(0, 1).contiguous()
+        return
+
+
 class TensorParallelConv2d(nn.Module):
 
     def __init__(self, conv, rank, world_size, shard_by_oc):
@@ -208,6 +273,22 @@ def forward(self, input):
             output += self.bias
         return output
 
+    def gather_params(self, params_list):
+        world_sz = dist.get_world_size(self.mp_group)
+
+        for idx, param in enumerate(params_list):
+            # TODO: uneven support
+            # shape_tensor=torch.tensor(param.shape[0],dtype=param.dtype,device=param.device)
+            # dist.all_reduce(shape_tensor, group=self.mp_group)
+
+            output_param = torch.empty(world_sz * param.shape[0],
+                                       param.shape[1],
+                                       dtype=param.dtype,
+                                       device=param.device)
+            dist.all_gather_into_tensor(output_param, param, group=self.mp_group)
+            params_list[idx].data_partition = param.data
+            params_list[idx].data = output_param.contiguous()
+
 
 class Normalize(nn.Module):
 
diff --git a/deepspeed/runtime/engine.py b/deepspeed/runtime/engine.py
index 7d4c2b0b9e20..93ff4eeff656 100755
--- a/deepspeed/runtime/engine.py
+++ b/deepspeed/runtime/engine.py
@@ -3595,6 +3595,27 @@ def _save_zero_checkpoint(self, save_path, tag):
         ckpt_type = 'zero' if self.zero_optimization() else 'bf16_zero'
         logger.info(f'{ckpt_type} checkpoint saved {zero_checkpoint_name}')
 
+    def _replace_module_consolidated_state_dict(self):
+        from deepspeed.module_inject.layers import GatherReplacedLayerParams
+        state_dict = OrderedDict() if dist.get_rank() == 0 else None
+
+        def get_layer_state_dict(module, prefix=""):
+            with GatherReplacedLayerParams(list(module.parameters(recurse=False)), module, enabled=True):
+                for name, param in module.named_parameters(recurse=False):
+                    if param is None:
+                        continue
+                    key = prefix + name
+                    if (dist.get_rank() == 0):
+                        state_dict[key] = param.detach().cpu()
+                        # print(key,module, param.detach().cpu().shape)
+
+            for name, child in module.named_children():
+                if child is not None:
+                    get_layer_state_dict(child, prefix + name + ".")
+
+        get_layer_state_dict(self.module, prefix="")
+        return state_dict
+
     def _zero3_consolidated_16bit_state_dict(self, exclude_frozen_parameters=False):
         """
         Get a full non-partitioned state_dict with fp16 weights on cpu.

From 9aad0e73c61b5b697b57626e975593297cfd8924 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Wed, 27 Nov 2024 19:32:16 +0800
Subject: [PATCH 05/71] finish all the basic functionalities

---
 deepspeed/module_inject/layers.py |  5 ++---
 deepspeed/runtime/engine.py       | 10 ++++++++++
 2 files changed, 12 insertions(+), 3 deletions(-)

diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index 24e69e0d0025..379fbad237ec 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -142,13 +142,13 @@ def gather_params(self, params_list):
         world_sz = dist.get_world_size(self.mp_group)
 
         for idx, param in enumerate(params_list):
+            params_list[idx].data_partition = param.data
             param = param.transpose(0, 1).contiguous()
             output_param = torch.empty(world_sz * param.shape[0],
                                        param.shape[1],
                                        dtype=param.dtype,
                                        device=param.device)
             dist.all_gather_into_tensor(output_param, param, group=self.mp_group)
-            params_list[idx].data_partition = param.data
             params_list[idx].data = output_param.transpose(0, 1).contiguous()
         return
 
@@ -280,13 +280,12 @@ def gather_params(self, params_list):
             # TODO: uneven support
             # shape_tensor=torch.tensor(param.shape[0],dtype=param.dtype,device=param.device)
             # dist.all_reduce(shape_tensor, group=self.mp_group)
-
+            params_list[idx].data_partition = param.data
             output_param = torch.empty(world_sz * param.shape[0],
                                        param.shape[1],
                                        dtype=param.dtype,
                                        device=param.device)
             dist.all_gather_into_tensor(output_param, param, group=self.mp_group)
-            params_list[idx].data_partition = param.data
             params_list[idx].data = output_param.contiguous()
 
 
diff --git a/deepspeed/runtime/engine.py b/deepspeed/runtime/engine.py
index 93ff4eeff656..386ce25c2cb9 100755
--- a/deepspeed/runtime/engine.py
+++ b/deepspeed/runtime/engine.py
@@ -3616,6 +3616,16 @@ def get_layer_state_dict(module, prefix=""):
         get_layer_state_dict(self.module, prefix="")
         return state_dict
 
+    def _consolidated_16bit_state_dict(self, exclude_frozen_parameters=False):
+
+        if self.zero_optimization_stage() == ZeroStageEnum.weights:
+            return self._zero3_consolidated_16bit_state_dict(exclude_frozen_parameters)
+        elif self.zero_autotp_size() > 1:
+            return self._replace_module_consolidated_state_dict()
+
+        raise ValueError("consolidated_16bit_state_dict is only applicable to cases where weights are partitioned, "
+                         "including Zero Stage 3 and tensor parallelism (TP).")
+
     def _zero3_consolidated_16bit_state_dict(self, exclude_frozen_parameters=False):
         """
         Get a full non-partitioned state_dict with fp16 weights on cpu.

From 2bb11fd8dbcdd9573dbfc594958b4709fd7122d3 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Thu, 28 Nov 2024 02:30:42 +0000
Subject: [PATCH 06/71] update

---
 deepspeed/module_inject/layers.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index 379fbad237ec..f5ad1121015a 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -67,7 +67,7 @@ def gather_params(self, params_list):
         pass
 
     def partition(self, params_list):
-        for idx, param in params_list:
+        for idx, param in enumerate(params_list):
             params_list[idx].data = param.data_partition
             del param.data_partition
 

From e75c1c25300921b53a9fb64ee460cfdd17e79b0c Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Mon, 2 Dec 2024 04:40:37 +0000
Subject: [PATCH 07/71] use groups for  parallel_states

---
 deepspeed/runtime/engine.py        |  10 +--
 deepspeed/utils/groups.py          | 111 ++++++++++++++++++++++++++++-
 deepspeed/utils/parallel_states.py |   2 +-
 3 files changed, 117 insertions(+), 6 deletions(-)

diff --git a/deepspeed/runtime/engine.py b/deepspeed/runtime/engine.py
index 386ce25c2cb9..0a7d83a551c1 100755
--- a/deepspeed/runtime/engine.py
+++ b/deepspeed/runtime/engine.py
@@ -76,7 +76,6 @@
 from deepspeed.monitor.monitor import MonitorMaster
 from deepspeed.runtime.progressive_layer_drop import ProgressiveLayerDrop
 from deepspeed.runtime.utils import clip_grad_norm_
-from deepspeed.utils import parallel_states
 from deepspeed.runtime.eigenvalue import Eigenvalue
 from deepspeed.runtime.data_pipeline.constants import DATA_SAMPLING, \
     DATA_ROUTING, DATA_SAMPLING_ENABLED, CURRICULUM_LEARNING, \
@@ -426,11 +425,14 @@ def _configure_tensor_parallel_states(self):
         assert self.zero_optimization_stage(
         ) == 0, "Currently, the compatibility between 'autotp' and 'zero_stage > 0' has not been validated"
 
-        self.mpu = parallel_states
-
+        # from deepspeed.utils import parallel_states
+        # self.mpu = parallel_states
         # disable self.allreduce_gradients() for dp =1 test.
         self.enable_backward_allreduce = False
-        self.mpu._create_model_parallel(tensor_model_parallel_size=self.zero_autotp_size())
+        # self.mpu._create_model_parallel(tensor_model_parallel_size=self.zero_autotp_size())
+        
+        self.mpu = groups
+        self.mpu._init_tp_mesh_device(tensor_model_parallel_size=self.zero_autotp_size())
 
     def destroy(self):
         if self.optimizer is not None and hasattr(self.optimizer, 'destroy'):
diff --git a/deepspeed/utils/groups.py b/deepspeed/utils/groups.py
index e9550a0ec25a..b5f0085f2091 100755
--- a/deepspeed/utils/groups.py
+++ b/deepspeed/utils/groups.py
@@ -46,7 +46,6 @@
 # All to All quantized graident communication groups
 _ALL_TO_ALL_GROUP = {}
 
-_DATA_PARALLEL_GROUP = None
 
 mesh_device = None
 
@@ -64,6 +63,116 @@ def _ensure_divisibility(numerator, denominator):
     assert numerator % denominator == 0, '{} is not divisible by {}'.format(numerator, denominator)
 
 
+
+
+# ======== Start: Tensor Parallel Group Attributes ========
+
+# Intra-layer model parallel group that the current rank belongs to.
+_TENSOR_MODEL_PARALLEL_GROUP = None
+
+# Model parallel group (both intra- and pipeline) that the current rank belongs to.
+_MODEL_PARALLEL_GROUP = None
+# Data parallel group that the current rank belongs to.
+_DATA_PARALLEL_GROUP = None
+
+# These values enable us to change the mpu sizes on the fly.
+_MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE = None
+_MPU_TENSOR_MODEL_PARALLEL_RANK = None
+
+def _init_tp_mesh_device(tensor_model_parallel_size=1, data_parallel_size=1):
+    """Initialize model data parallel groups."""
+
+    global _DATA_PARALLEL_GROUP
+    global _MODEL_PARALLEL_GROUP
+    global _TENSOR_MODEL_PARALLEL_GROUP
+    
+    data_parallel_size = dist.get_world_size()//tensor_model_parallel_size
+    
+    mesh_device = dist.initialize_mesh_device((data_parallel_size, tensor_model_parallel_size), ("data_parallel", "tensor_parallel"))
+    _TENSOR_MODEL_PARALLEL_GROUP= mesh_device.get_group(mesh_dim="tensor_parallel")
+    _DATA_PARALLEL_GROUP = mesh_device.get_group(mesh_dim="data_parallel")
+    
+    # They are always equal only in 2D (DP + TP) parallelism.
+    # _MODEL_PARALLEL_GROUP is assigned the same value as _TENSOR_MODEL_PARALLEL_GROUP
+    # to allow for future potential changes.
+    _MODEL_PARALLEL_GROUP = _TENSOR_MODEL_PARALLEL_GROUP
+    
+    return _DATA_PARALLEL_GROUP, _MODEL_PARALLEL_GROUP
+    
+    
+def get_tensor_model_parallel_group():
+    """Get the tensor model parallel group the caller rank belongs to."""
+    
+    assert _TENSOR_MODEL_PARALLEL_GROUP is not None, \
+        'intra_layer_model parallel group is not initialized'
+    return _TENSOR_MODEL_PARALLEL_GROUP
+
+
+def get_model_parallel_group():
+    """Get the model parallel group the caller rank belongs to."""
+    
+    assert _MODEL_PARALLEL_GROUP is not None, \
+        'model parallel group is not initialized'
+    return _MODEL_PARALLEL_GROUP
+
+
+def get_data_parallel_group():
+    """Get the data parallel group the caller rank belongs to."""
+    assert _DATA_PARALLEL_GROUP is not None, \
+        'data parallel group is not initialized'
+    return _DATA_PARALLEL_GROUP
+
+def set_tensor_model_parallel_world_size(world_size):
+    """Set the tensor model parallel size"""
+    global _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE
+    _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE = world_size
+
+
+
+def get_tensor_model_parallel_world_size():
+    """Return world size for the tensor model parallel group."""
+    global _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE
+    if _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE is not None:
+        return _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE
+    return dist.get_world_size(group=get_tensor_model_parallel_group())
+def get_model_parallel_world_size():
+    return get_tensor_model_parallel_world_size()
+
+def set_tensor_model_parallel_rank(rank):
+    """Set tensor model parallel rank."""
+    global _MPU_TENSOR_MODEL_PARALLEL_RANK
+    _MPU_TENSOR_MODEL_PARALLEL_RANK = rank
+
+def get_tensor_model_parallel_rank():
+    """Return my rank for the tensor model parallel group."""
+    global _MPU_TENSOR_MODEL_PARALLEL_RANK
+    if _MPU_TENSOR_MODEL_PARALLEL_RANK is not None:
+        return _MPU_TENSOR_MODEL_PARALLEL_RANK
+    return dist.get_rank(group=get_tensor_model_parallel_group())
+
+def get_model_parallel_rank():
+    return get_tensor_model_parallel_rank()
+
+def get_tensor_model_parallel_src_rank():
+    """Calculate the global rank corresponding to the first local rank
+    in the tensor model parallel group."""
+    global_rank = dist.get_rank()
+    local_world_size = get_tensor_model_parallel_world_size()
+    return (global_rank // local_world_size) * local_world_size
+
+
+def get_data_parallel_world_size():
+    """Return world size for the data parallel group."""
+    return dist.get_world_size(group=get_data_parallel_group())
+
+def get_data_parallel_rank():
+    """Return my rank for the data parallel group."""
+    return dist.get_rank(group=get_data_parallel_group())
+
+# ======== End: Tensor Parallel Group Attributes ========
+    
+    
+    
 # Not currently used. Helper function to create a model (tensor) parallel group.
 def _create_model_parallel(model_parallel_size_):
     """
diff --git a/deepspeed/utils/parallel_states.py b/deepspeed/utils/parallel_states.py
index c587a0cae07e..98891c230152 100644
--- a/deepspeed/utils/parallel_states.py
+++ b/deepspeed/utils/parallel_states.py
@@ -4,7 +4,7 @@
 # DeepSpeed Team
 # taken from Megatron,  decouple mpu and Megatron for test
 """Model and data parallel groups."""
-
+import torch
 import deepspeed.comm as dist
 # Intra-layer model parallel group that the current rank belongs to.
 _TENSOR_MODEL_PARALLEL_GROUP = None

From 840a5f21f275384a44e2972d79bf64ac7d0b2ca5 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Mon, 2 Dec 2024 05:31:40 +0000
Subject: [PATCH 08/71] enable bwd allreduce, enable scale loss by gas

---
 deepspeed/runtime/engine.py | 9 ++++++++-
 1 file changed, 8 insertions(+), 1 deletion(-)

diff --git a/deepspeed/runtime/engine.py b/deepspeed/runtime/engine.py
index 0a7d83a551c1..f399ce5ec8c8 100755
--- a/deepspeed/runtime/engine.py
+++ b/deepspeed/runtime/engine.py
@@ -428,11 +428,13 @@ def _configure_tensor_parallel_states(self):
         # from deepspeed.utils import parallel_states
         # self.mpu = parallel_states
         # disable self.allreduce_gradients() for dp =1 test.
-        self.enable_backward_allreduce = False
         # self.mpu._create_model_parallel(tensor_model_parallel_size=self.zero_autotp_size())
         
         self.mpu = groups
         self.mpu._init_tp_mesh_device(tensor_model_parallel_size=self.zero_autotp_size())
+        
+        # self.enable_backward_allreduce = False
+
 
     def destroy(self):
         if self.optimizer is not None and hasattr(self.optimizer, 'destroy'):
@@ -2525,6 +2527,11 @@ def _reduce_non_expert_gradients(self, grads, elements_per_buffer):
         else:
             dp_group = groups._get_sequence_data_parallel_group()
             dp_world_size = dist.get_world_size(dp_group) / float(self.sequence_parallel_size)
+            
+        # bypass gradient reduction when dp_size equals 1.
+        if dp_world_size == 1:
+            return 
+        
         for _, sparse_bucket_tuple in enumerate(split_sparse_tensor_buckets):
             if sparse_bucket_tuple:
                 bucket_type, sparse_bucket = sparse_bucket_tuple

From 60bd6ab8ef6000f56cb0fe4fe144814882cea82c Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Wed, 4 Dec 2024 07:19:24 +0000
Subject: [PATCH 09/71] add dataloader check

---
 deepspeed/comm/comm.py      |  5 ++++
 deepspeed/comm/torch.py     |  6 +++++
 deepspeed/runtime/engine.py | 39 +++++++++++++++++++++++++++----
 deepspeed/runtime/utils.py  | 46 ++++++++++++++++++++++++++++++++++++-
 4 files changed, 90 insertions(+), 6 deletions(-)

diff --git a/deepspeed/comm/comm.py b/deepspeed/comm/comm.py
index df8e8022081d..a51c250f7adf 100755
--- a/deepspeed/comm/comm.py
+++ b/deepspeed/comm/comm.py
@@ -223,6 +223,10 @@ def broadcast(tensor, src, group=None, async_op=False, prof=False, log_name='bro
     global cdb
     return cdb.broadcast(tensor=tensor, src=src, group=group, async_op=async_op)
 
+@timed_op
+def broadcast_object_list(object_list, src, group=None, device=None):
+    global cdb
+    return cdb.broadcast_object_list(object_list=object_list, src=src, group=group, device=device)
 
 @timed_op
 def all_gather(tensor_list,
@@ -352,6 +356,7 @@ def all_to_all(output_tensor_list, input_tensor_list, group=None, async_op=False
     return cdb.all_to_all(output_tensor_list, input_tensor_list, group=group, async_op=async_op)
 
 
+
 @timed_op
 def send(tensor, dst, group=None, tag=0, prof=False, log_name='send', debug=get_caller_func()):
     global cdb
diff --git a/deepspeed/comm/torch.py b/deepspeed/comm/torch.py
index 988b74232bb9..2bb565233362 100755
--- a/deepspeed/comm/torch.py
+++ b/deepspeed/comm/torch.py
@@ -199,6 +199,10 @@ def broadcast(self, tensor, src, group=None, async_op=False):
         else:
             return torch.distributed.broadcast(tensor=tensor, src=src, group=group, async_op=async_op)
 
+    @compiler.disable
+    def broadcast_object_list(object_list, src, group=None, device=None):
+        return torch.distributed.broadcast_object_list(object_list=object_list, src=src, group=group, device=device)
+    
     @compiler.disable
     def all_gather(self, tensor_list, tensor, group=None, async_op=False):
         if DS_COMM_ALL_GATHER_OFF:
@@ -291,6 +295,8 @@ def all_to_all_single(self,
     def all_to_all(self, output_tensor_list, input_tensor_list, group=None, async_op=False):
         return torch.distributed.all_to_all(output_tensor_list, input_tensor_list, group=group, async_op=async_op)
 
+
+    
     @compiler.disable
     def send(self, tensor, dst, group=None, tag=0):
         return torch.distributed.send(tensor=tensor, dst=dst, group=group, tag=tag)
diff --git a/deepspeed/runtime/engine.py b/deepspeed/runtime/engine.py
index f399ce5ec8c8..a91a5854d388 100755
--- a/deepspeed/runtime/engine.py
+++ b/deepspeed/runtime/engine.py
@@ -75,7 +75,7 @@
 from deepspeed.utils.debug import debug_extract_module_and_param_names, debug_clear_module_and_param_names
 from deepspeed.monitor.monitor import MonitorMaster
 from deepspeed.runtime.progressive_layer_drop import ProgressiveLayerDrop
-from deepspeed.runtime.utils import clip_grad_norm_
+from deepspeed.runtime.utils import clip_grad_norm_, compare_tensors_in_structures
 from deepspeed.runtime.eigenvalue import Eigenvalue
 from deepspeed.runtime.data_pipeline.constants import DATA_SAMPLING, \
     DATA_ROUTING, DATA_SAMPLING_ENABLED, CURRICULUM_LEARNING, \
@@ -230,7 +230,6 @@ def __init__(self,
         self._step_applied = False
         self._global_grad_norm = None
         self.use_ds_comm = False  # False --> Use torch.dist, True --> Use ds.comm backend.
-
         self.checkpoint_engine = None
 
         self._is_gradient_accumulation_boundary = None
@@ -248,7 +247,7 @@ def __init__(self,
         self._configure_with_arguments(args, mpu)
         self._do_sanity_check()
         if self.zero_autotp_size() > 0:
-            self._configure_tensor_parallel_states()
+            self._configure_tensor_parallel_states(model)
         see_memory_usage(f"DeepSpeed Engine: After args sanity test", force=self.memory_breakdown())
         if mpu is not None:
             if self.elasticity_enabled():
@@ -413,12 +412,14 @@ def _optimized_linear_offload_setup(self):
                 else:
                     p.ds_offload = False
 
-    def _configure_tensor_parallel_states(self):
+    def _configure_tensor_parallel_states(self, model):
         # It should have a unified group initialization function,
         # Like Megatron-LM, including tp, sp, pp, dp, ep, and so on
 
         # The compatibility has only been validated for 'gpus==autotp_size' at the moment.
-        # Sanity check
+        # Sanity check]
+        #to do, remove this line.
+        self._set_client_model(model)
 
         assert self.zero_autotp_size() == dist.get_world_size_from_launcher(
         ), "Currently, the compatibility between 'autotp' and 'zero' has not been validated"
@@ -431,9 +432,37 @@ def _configure_tensor_parallel_states(self):
         # self.mpu._create_model_parallel(tensor_model_parallel_size=self.zero_autotp_size())
         
         self.mpu = groups
+        
         self.mpu._init_tp_mesh_device(tensor_model_parallel_size=self.zero_autotp_size())
         
         # self.enable_backward_allreduce = False
+        self.first_dataloader_check=None
+        def check_dataloader_inputs_same_across_ranks(module, args, kwargs):
+
+            def broadcast_and_check(args, bcast_rank, bcast_group):
+                if len(args) >0:
+                    if self.mpu.get_tensor_model_parallel_rank()==0:
+                        _src_args=[args]
+                        torch.distributed.broadcast_object_list(object_list=_src_args, src=bcast_rank, group=bcast_group, device=get_accelerator().current_device())
+
+                    else:
+                        _src_args=[None]
+                        torch.distributed.broadcast_object_list(object_list=_src_args, src=bcast_rank, group=bcast_group, device=get_accelerator().current_device())
+                        assert compare_tensors_in_structures(args, _src_args[0]), f"RANK[{dist.get_rank()}]:Data inconsistency within the TP group. Please check the Dataloader implementation to ensure consistency."
+            
+            bcast_rank=self.mpu.get_tensor_model_parallel_src_rank()
+            bcast_group=self.mpu.get_tensor_model_parallel_group()
+            
+            broadcast_and_check(args, bcast_rank, bcast_group)
+            broadcast_and_check(kwargs, bcast_rank, bcast_group)
+
+            print("The Dataloader has passed the TP group consistency check.")
+
+            self.first_dataloader_check.remove()
+            
+        self.first_dataloader_check= self.module.register_forward_pre_hook(check_dataloader_inputs_same_across_ranks,prepend=True, with_kwargs=True)
+        
+        
 
 
     def destroy(self):
diff --git a/deepspeed/runtime/utils.py b/deepspeed/runtime/utils.py
index f48adb58c9bf..7696410e775b 100755
--- a/deepspeed/runtime/utils.py
+++ b/deepspeed/runtime/utils.py
@@ -22,7 +22,7 @@
     from torch._six import inf
 except ModuleNotFoundError:
     from torch import inf
-
+from typing import Union, List, Dict
 from deepspeed import comm as dist
 from deepspeed.moe.utils import is_moe_param
 from deepspeed.utils import groups, logger
@@ -1101,3 +1101,47 @@ def move_back_key(state, key):
             move_back_key(state, "exp_avg")
         if "exp_avg_sq" in state:
             move_back_key(state, "exp_avg_sq")
+
+
+def compare_tensors_in_structures(
+    inputs1: Union[List, Dict],
+    inputs2: Union[List, Dict]
+) -> bool:
+    """
+    Compare two lists or dictionaries for equality, including any tensors they may contain.
+
+    Args:
+        inputs1: First input, either a list or a dictionary.
+        inputs2: Second input, either a list or a dictionary.
+
+    Returns:
+        True if inputs1 and inputs2 are equal; False otherwise.
+    """
+    if type(inputs1) != type(inputs2):  # Ensure types match
+        return False
+    
+    if isinstance(inputs1, list) and isinstance(inputs2, list):
+        if len(inputs1) != len(inputs2):
+            return False
+        for a, b in zip(inputs1, inputs2):
+            if isinstance(a, torch.Tensor) and isinstance(b, torch.Tensor):
+                if not torch.equal(a, b): 
+                    return False
+            elif a != b:  
+                return False
+        return True
+
+    elif isinstance(inputs1, dict) and isinstance(inputs2, dict):
+        if inputs1.keys() != inputs2.keys():
+            return False
+        for key in inputs1:
+            val1 = inputs1[key].to(get_accelerator().current_device())
+            val2 = inputs2[key].to(get_accelerator().current_device())
+            if isinstance(val1, torch.Tensor) and isinstance(val2, torch.Tensor):
+                if not torch.equal(val1, val2): 
+                    return False
+            elif val1 != val2:  
+                return False
+        return True
+
+    return False
\ No newline at end of file

From 9266383631d9d8a00a7ba6ee3bf87302b36a739b Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Wed, 4 Dec 2024 09:57:58 +0000
Subject: [PATCH 10/71] refactor autoTP step1

---
 deepspeed/module_inject/auto_tp.py |  42 ++---
 deepspeed/module_inject/layers.py  | 260 +++++++++++++++++++----------
 2 files changed, 190 insertions(+), 112 deletions(-)

diff --git a/deepspeed/module_inject/auto_tp.py b/deepspeed/module_inject/auto_tp.py
index da9612d5a747..fb820a51d308 100755
--- a/deepspeed/module_inject/auto_tp.py
+++ b/deepspeed/module_inject/auto_tp.py
@@ -11,7 +11,7 @@
 from typing import Optional
 import torch
 from deepspeed import comm as dist
-from .layers import LinearAllreduce, LinearLayer, LmHeadLinearAllreduce
+from .layers import LinearAllreduce, LinearLayer, LmHeadLinearAllreduce, Yuan_LinearALlreduce, Yuan_LinearLayer, GLM_LinearLayer, Conv_LinearALlreduce
 from deepspeed.accelerator import get_accelerator
 from .fusedqkv_utils import require_tp_fused_qkvw, prepare_tp_fused_qkvw, shard_value_with_share_qk, shard_chunk_mlp
 from deepspeed.module_inject.tp_shard import get_shard_size, get_shard_size_list
@@ -339,42 +339,36 @@ def _replace(self, child, name, conv_linear_layer):
         # For Yuan model
         if 'Yuan' in str(self.module):
             if 'v_proj' in name:
-                weight, bias = shard_value_with_share_qk(child.weight.data, child.bias, dist.get_rank(),
-                                                         dist.get_world_size(), True)
-                return LinearLayer(weight=weight, bias=bias)
+
+                # should we use a factory?
+                return Yuan_LinearLayer(child, self.mp_group)
             elif 'o_proj' in name:
-                weight, bias = shard_value_with_share_qk(child.weight.data, child.bias, dist.get_rank(),
-                                                         dist.get_world_size(), False)
-                return LinearAllreduce(weight, bias, self.mp_group)
+
+                return Yuan_LinearALlreduce(child, self.mp_group)
         # For MLP including chunk layer.
         if 'gate_up_proj' in name or ('dense_h_to_4h' in name and 'GLM' in str(self.module)):
-            weight, bias = shard_chunk_mlp(child.weight.data, child.bias, dist.get_rank(), dist.get_world_size())
-            return LinearLayer(weight=weight, bias=bias)
+            return GLM_LinearLayer(child, self.mp_group)
         if name in self.all_reduce_linears:
             # if conv_linear_layer [weight_shape[1], weight_shape[0] // mp_size]
             # else [weight_shape[0], weight_shape[1] // mp_size]
+            # if self.conv_linear_layer:
+            #     child.weight.data = child.weight.data.transpose(-1, -2).contiguous()
 
-            if self.conv_linear_layer:
-                child.weight.data = child.weight.data.transpose(-1, -2).contiguous()
-
-            data = torch.chunk(child.weight.data, self.mp_size, dim=1)
+            # data = torch.chunk(child.weight.data, self.mp_size, dim=1)
 
             # data = child.weight.data.split(get_shard_size_list(
             #     weight_shape[0] if self.conv_linear_layer else weight_shape[1], self.mp_size, name),
             #                                dim=1)
-
-            data_dc = move(data[mp_replace.gpu_index], get_accelerator().current_device_name()).detach()
-            del data
-
             setattr(child, "replaced", True)
+            if self.conv_linear_layer:
+                return Conv_LinearALlreduce(child, self.mp_group, name)
             if name == "lm_head" or name == 'embed_out':
-                return LmHeadLinearAllreduce(
-                    torch.nn.parameter.Parameter(data_dc, requires_grad=False), dist.get_rank(), dist.get_world_size(),
-                    child.bias if child.bias is None else torch.nn.parameter.Parameter(
-                        move(child.bias,
-                             get_accelerator().current_device_name())), self.mp_group)
-            return LinearAllreduce(torch.nn.parameter.Parameter(data_dc, requires_grad=False), child.bias if child.bias is None else \
-                        torch.nn.parameter.Parameter(move(child.bias, get_accelerator().current_device_name())), self.mp_group)
+                return LmHeadLinearAllreduce(child, self.mp_group)
+
+            return LinearAllreduce(child, self.mp_group)
+        
+            # return LinearAllreduce(torch.nn.parameter.Parameter(data_dc, requires_grad=False), child.bias if child.bias is None else \
+            #             torch.nn.parameter.Parameter(move(child.bias, get_accelerator().current_device_name())), self.mp_group)
         else:
             # if conv_linear_layer [weight_shape[1], weight_shape[0] // mp_size]
             # else [weight_shape[0] // mp_size, weight_shape[1]]
diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index f5ad1121015a..7a969403f0a1 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -12,8 +12,19 @@
 from deepspeed.module_inject.tp_shard import get_shard_size, get_shard_size_list
 from abc import ABC, abstractmethod
 from typing import Iterable
-
-
+from deepspeed.utils import groups
+from .fusedqkv_utils import shard_value_with_share_qk, shard_chunk_mlp
+
+def move(tensor, device):
+    #TODO: the data parallelism (DP) is greater than 2,
+    # we need to consider when to delete the CPU data.
+    if tensor.is_meta:
+        return torch.empty_like(tensor, device=device)
+    else:
+        # Using new tensors help in freeing memory (after split for example) was done before by calling clone().
+        # Using copy=True instead of clone() will help in case of cpu --> cpu.
+        # Otherwise to() will not create a new copy for the view of the full tensor, and it will not be de-referenced.
+        return tensor.to(device, copy=True)
 class RowParallel(torch.autograd.Function):
 
     @staticmethod
@@ -50,11 +61,14 @@ def backward(ctx, grad_output):
 
 #Parent class handling common logic
 class Replaced_Layer(nn.Module, ABC):
-
-    def __init__(self):
+    mode = "INFERENCE" 
+    def __init__(self, mp_group, name=None):
         super().__init__()
         self.support_training = False
-
+        self.mp_group = mp_group
+        self.tp_world_sz = dist.get_world_size(self.mp_group)
+        self.tp_index = dist.get_rank(mp_group)
+        self.name=name
     @abstractmethod
     def forward(self, input):
         """
@@ -66,7 +80,7 @@ def forward(self, input):
     def gather_params(self, params_list):
         pass
 
-    def partition(self, params_list):
+    def partition(self, params_list, move_to_device=False):
         for idx, param in enumerate(params_list):
             params_list[idx].data = param.data_partition
             del param.data_partition
@@ -120,17 +134,17 @@ def __exit__(self, exc_type, exc_value, traceback):
 
 class LinearAllreduce(Replaced_Layer):
 
-    def __init__(self, weight, bias=None, mp_group=None):
-        super(LinearAllreduce, self).__init__()
-        self.weight = weight
-        self.bias = bias
+    def __init__(self, module, mp_group, name=None):
+        super(LinearAllreduce, self).__init__(mp_group, name)
+        self.weight = module.weight
+        self.bias = module.bias
+        
+        self.partition([self.weight, self.bias], move_to_device=True)
         self.support_training = True
         self.config_tp_training(self.weight)
         if self.bias is not None:
             self.config_tp_training(self.bias)
 
-        self.mp_group = mp_group
-
     def forward(self, input):
         output = torch.matmul(input, self.weight.transpose(-1, -2))
         output = RowParallel.apply(self.mp_group, output)
@@ -139,20 +153,164 @@ def forward(self, input):
         return output
 
     def gather_params(self, params_list):
-        world_sz = dist.get_world_size(self.mp_group)
 
         for idx, param in enumerate(params_list):
             params_list[idx].data_partition = param.data
             param = param.transpose(0, 1).contiguous()
-            output_param = torch.empty(world_sz * param.shape[0],
+            output_param = torch.empty(self.tp_world_sz * param.shape[0],
                                        param.shape[1],
                                        dtype=param.dtype,
                                        device=param.device)
             dist.all_gather_into_tensor(output_param, param, group=self.mp_group)
             params_list[idx].data = output_param.transpose(0, 1).contiguous()
         return
+    def partition(self, params_list, move_to_device=False):
+        for idx, param in enumerate(params_list):
+            if param is None:
+                return 
+            _partition=torch.chunk(param, self.tp_world_sz, dim=1)[self.tp_index]
+
+            if move_to_device:
+                partition=move(_partition, get_accelerator().current_device())
+                del _partition
+                _partition=partition
+            
+            params_list[idx].data = _partition
+
+class LinearLayer(Replaced_Layer):
+
+    def __init__(self, weight_shape=None, dtype=torch.half, weight=None, bias=None, mp_group=None):
+        super(LinearLayer, self).__init__(mp_group)
+        self.support_training = True
+
+        self.mp_group = mp_group
+        if weight is not None:
+            self.weight = weight
+            self.bias = bias
+        else:
+            self.weight = Parameter(
+                torch.empty(weight_shape, dtype=dtype, device=get_accelerator().current_device_name()))
+
+            self.bias = Parameter(
+                torch.empty(weight_shape[0],
+                            dtype=dtype,
+                            device=get_accelerator().current_device_name())) \
+                if bias is not None else None
+        self.config_tp_training(self.weight)
+        self.config_tp_training(self.bias)
+
+    def forward(self, input):
+        input = ColumnParallel.apply(self.mp_group, input)
+        output = torch.matmul(input, self.weight.transpose(-1, -2))
+        if self.bias is not None:
+            output += self.bias
+        return output
+
+    def gather_params(self, params_list):
+
+        for idx, param in enumerate(params_list):
+            # TODO: uneven support
+            # shape_tensor=torch.tensor(param.shape[0],dtype=param.dtype,device=param.device)
+            # dist.all_reduce(shape_tensor, group=self.mp_group)
+            params_list[idx].data_partition = param.data
+            output_param = torch.empty(self.tp_world_sz * param.shape[0],
+                                       param.shape[1],
+                                       dtype=param.dtype,
+                                       device=param.device)
+            dist.all_gather_into_tensor(output_param, param, group=self.mp_group)
+            params_list[idx].data = output_param.contiguous()
+    def partition(self, params_list, move_to_device=False):
+        
+        for idx, param in enumerate(params_list):
+            if param is None:
+                return 
+            _partition=torch.chunk(param, self.tp_world_sz, dim=1)[self.tp_index]
+
+            if move_to_device:
+                partition=move(_partition, get_accelerator().current_device())
+                del _partition
+                _partition=partition
+            
+            params_list[idx].data = _partition
+
+
+class bwc_LinearLayer(nn.Module):
+
+    def __init__(self, weight_shape=None, dtype=torch.half, weight=None, bias=None):
+        super(LinearLayer, self).__init__()
+        if weight is not None:
+            self.weight = weight
+            self.bias = bias
+        else:
+            self.weight = Parameter(
+                torch.empty(weight_shape, dtype=dtype, device=get_accelerator().current_device_name()))
+
+            self.bias = Parameter(
+                torch.empty(weight_shape[0],
+                            dtype=dtype,
+                            device=get_accelerator().current_device_name())) \
+                if bias is not None else None
+
+    def forward(self, input):
+        output = torch.matmul(input, self.weight.transpose(-1, -2))
+        if self.bias is not None:
+            output += self.bias
+        return output
+
+
+
+
+#override the subclasses related to weight splitting.
+def Yuan_LinearALlreduce(LinearAllreduce):
+    def partition(self, params_list, move_to_device=False):
+        params_list[0], params_list[1]=shard_value_with_share_qk(params_list[0],params_list[1],self.tp_world_size, self.tp_index, False)
 
+def Yuan_LinearLayer(LinearLayer):
+    def partition(self, params_list, move_to_device=False):
+        params_list[0], params_list[1]=shard_value_with_share_qk(params_list[0],params_list[1],self.tp_world_size, self.tp_index, False)
 
+def GLM_LinearLayer(LinearLayer):
+    def partition(self, params_list, move_to_device=False):
+        params_list[0], params_list[1]=shard_chunk_mlp(params_list[0],params_list[1],self.tp_world_size, self.tp_index, False)
+
+def Conv_LinearALlreduce(LinearALlreduce):
+    def partition(self, params_list, move_to_device=False):            
+        for idx, param in enumerate(params_list):
+            if param is None:
+                return 
+            param.data= param.data.transpose(-1, -2).contiguous()
+            
+            _partition=param.split(get_shard_size_list(
+                param.shape[0] , self.tp_world_size, self.name),
+                                           dim=1)
+
+            if move_to_device:
+                partition=move(_partition, get_accelerator().current_device())
+                del _partition
+                _partition=partition
+            
+            params_list[idx].data = _partition
+        
+        
+    
+
+#override the subclasses related to reward.
+class LmHeadLinearAllreduce(LinearAllreduce):
+
+    def forward(self, input):
+        input_shard_size = get_shard_size(input.shape[-1], self.tp_world_sz, "lm_head")
+        input_shard_offset = sum(get_shard_size_list(input.shape[-1], self.world_size, "lm_head")[0:self.tp_index])
+        output = torch.matmul(input[:, :, input_shard_offset:input_shard_offset + input_shard_size],
+                              self.weight.transpose(-1, -2))
+        if self.mp_group is not None:
+            dist.inference_all_reduce(output, group=self.mp_group)
+        if self.bias is not None:
+            output += self.bias
+        return output
+        
+        
+        
+        
 class TensorParallelConv2d(nn.Module):
 
     def __init__(self, conv, rank, world_size, shard_by_oc):
@@ -215,80 +373,6 @@ def forward(self, input: torch.Tensor) -> torch.Tensor:
         return out
 
 
-class LmHeadLinearAllreduce(nn.Module):
-
-    def __init__(
-        self,
-        weight,
-        rank,
-        world_size,
-        bias=None,
-        mp_group=None,
-    ):
-        super(LmHeadLinearAllreduce, self).__init__()
-        self.weight = weight
-        self.bias = bias
-        self.mp_group = mp_group
-        self.rank = rank
-        self.world_size = world_size
-
-    def forward(self, input):
-        input_shard_size = get_shard_size(input.shape[-1], self.world_size, "lm_head")
-        input_shard_offset = sum(get_shard_size_list(input.shape[-1], self.world_size, "lm_head")[0:self.rank])
-        output = torch.matmul(input[:, :, input_shard_offset:input_shard_offset + input_shard_size],
-                              self.weight.transpose(-1, -2))
-        if self.mp_group is not None:
-            dist.inference_all_reduce(output, group=self.mp_group)
-        if self.bias is not None:
-            output += self.bias
-        return output
-
-
-class LinearLayer(Replaced_Layer):
-
-    def __init__(self, weight_shape=None, dtype=torch.half, weight=None, bias=None, mp_group=None):
-        super(LinearLayer, self).__init__()
-        self.support_training = True
-
-        self.mp_group = mp_group
-        if weight is not None:
-            self.weight = weight
-            self.bias = bias
-        else:
-            self.weight = Parameter(
-                torch.empty(weight_shape, dtype=dtype, device=get_accelerator().current_device_name()))
-
-            self.bias = Parameter(
-                torch.empty(weight_shape[0],
-                            dtype=dtype,
-                            device=get_accelerator().current_device_name())) \
-                if bias is not None else None
-        self.config_tp_training(self.weight)
-        self.config_tp_training(self.bias)
-
-    def forward(self, input):
-        input = ColumnParallel.apply(self.mp_group, input)
-        output = torch.matmul(input, self.weight.transpose(-1, -2))
-        if self.bias is not None:
-            output += self.bias
-        return output
-
-    def gather_params(self, params_list):
-        world_sz = dist.get_world_size(self.mp_group)
-
-        for idx, param in enumerate(params_list):
-            # TODO: uneven support
-            # shape_tensor=torch.tensor(param.shape[0],dtype=param.dtype,device=param.device)
-            # dist.all_reduce(shape_tensor, group=self.mp_group)
-            params_list[idx].data_partition = param.data
-            output_param = torch.empty(world_sz * param.shape[0],
-                                       param.shape[1],
-                                       dtype=param.dtype,
-                                       device=param.device)
-            dist.all_gather_into_tensor(output_param, param, group=self.mp_group)
-            params_list[idx].data = output_param.contiguous()
-
-
 class Normalize(nn.Module):
 
     def __init__(self, dim=None, dtype=torch.float, eps=1e-5, weight=None, bias=None):

From 07174a9e87ee9be2315fdf4bc570032b6bbd235f Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Thu, 5 Dec 2024 05:53:06 +0000
Subject: [PATCH 11/71] rm parallel_states

---
 deepspeed/utils/parallel_states.py | 174 -----------------------------
 1 file changed, 174 deletions(-)
 delete mode 100644 deepspeed/utils/parallel_states.py

diff --git a/deepspeed/utils/parallel_states.py b/deepspeed/utils/parallel_states.py
deleted file mode 100644
index 98891c230152..000000000000
--- a/deepspeed/utils/parallel_states.py
+++ /dev/null
@@ -1,174 +0,0 @@
-# Copyright (c) Microsoft Corporation.
-# SPDX-License-Identifier: Apache-2.0
-
-# DeepSpeed Team
-# taken from Megatron,  decouple mpu and Megatron for test
-"""Model and data parallel groups."""
-import torch
-import deepspeed.comm as dist
-# Intra-layer model parallel group that the current rank belongs to.
-_TENSOR_MODEL_PARALLEL_GROUP = None
-
-# Model parallel group (both intra- and pipeline) that the current rank belongs to.
-_MODEL_PARALLEL_GROUP = None
-# Data parallel group that the current rank belongs to.
-_DATA_PARALLEL_GROUP = None
-
-# These values enable us to change the mpu sizes on the fly.
-_MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE = None
-_MPU_TENSOR_MODEL_PARALLEL_RANK = None
-
-
-def is_unitialized():
-    """Useful for code segments that may be accessed with or without mpu initialization"""
-    return _DATA_PARALLEL_GROUP is None
-
-
-def ensure_divisibility(numerator, denominator):
-    """Ensure that numerator is divisible by the denominator."""
-    assert numerator % denominator == 0, '{} is not divisible by {}'.format(numerator, denominator)
-
-
-def _create_model_parallel(tensor_model_parallel_size):
-    """
-    Initialize model data parallel groups.
-
-    Arguments:
-        tensor_model_parallel_size: number of GPUs used to parallelize model.
-
-    Returns:
-        Tuple of data parallel group and model parallel group
-
-    Let's say we have a total of 8 GPUs denoted by g0 ... g7 and we
-    use 2 GPUs to parallelize the model. The present function will
-    create 4 model parallel groups and 2 data parallel groups as:
-        4 model parallel groups:
-            [g0, g1], [g2, g3], [g4, g5], [g6, g7]
-        2 data parallel groups:
-            [g0, g2, g4, g6], [g1, g3, g5, g7]
-    Note that for efficiency, the caller should make sure adjacent ranks
-    are on the same DGX box. For example if we are using 2 DGX-1 boxes
-    with a total of 16 GPUs, rank 0 to 7 belong to the first box and
-    ranks 8 to 15 belong to the second box.
-    """
-    # Get world size and rank. Ensure some consistencies.
-    assert dist.is_initialized()
-    world_size = dist.get_world_size()
-    model_parallel_size = min(tensor_model_parallel_size, world_size)
-    ensure_divisibility(world_size, model_parallel_size)
-    rank = dist.get_rank()
-
-    global _DATA_PARALLEL_GROUP
-    global _MODEL_PARALLEL_GROUP
-    global _TENSOR_MODEL_PARALLEL_GROUP
-    # Build the data parallel groups.
-    for i in range(model_parallel_size):
-        ranks = range(i, world_size, model_parallel_size)
-        group = dist.new_group(ranks)
-        if i == (rank % model_parallel_size):
-            _DATA_PARALLEL_GROUP = group
-
-    # Build the model parallel groups.
-    for i in range(world_size // model_parallel_size):
-        ranks = range(i * model_parallel_size, (i + 1) * model_parallel_size)
-        group = dist.new_group(ranks)
-        if i == (rank // model_parallel_size):
-            _MODEL_PARALLEL_GROUP = group
-
-    # Build the tensor model-parallel groups.
-    # for only TP&DP
-    _TENSOR_MODEL_PARALLEL_GROUP = _MODEL_PARALLEL_GROUP
-
-    return _DATA_PARALLEL_GROUP, _MODEL_PARALLEL_GROUP
-
-
-def model_parallel_is_initialized():
-    """Check if model and data parallel groups are initialized."""
-    if _TENSOR_MODEL_PARALLEL_GROUP is None  or \
-        _DATA_PARALLEL_GROUP is None:
-        return False
-    return True
-
-
-def get_model_parallel_group():
-    """Get the model parallel group the caller rank belongs to."""
-    assert _MODEL_PARALLEL_GROUP is not None, \
-        'model parallel group is not initialized'
-    return _MODEL_PARALLEL_GROUP
-
-
-def get_tensor_model_parallel_group():
-    """Get the tensor model parallel group the caller rank belongs to."""
-    assert _TENSOR_MODEL_PARALLEL_GROUP is not None, \
-        'intra_layer_model parallel group is not initialized'
-    return _TENSOR_MODEL_PARALLEL_GROUP
-
-
-def get_data_parallel_group():
-    """Get the data parallel group the caller rank belongs to."""
-    assert _DATA_PARALLEL_GROUP is not None, \
-        'data parallel group is not initialized'
-    return _DATA_PARALLEL_GROUP
-
-
-def set_tensor_model_parallel_world_size(world_size):
-    """Set the tensor model parallel size"""
-    global _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE
-    _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE = world_size
-
-
-def get_tensor_model_parallel_world_size():
-    """Return world size for the tensor model parallel group."""
-    global _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE
-    if _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE is not None:
-        return _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE
-    return dist.get_world_size(group=get_tensor_model_parallel_group())
-
-
-def get_model_parallel_world_size():
-    return get_tensor_model_parallel_world_size()
-
-
-def set_tensor_model_parallel_rank(rank):
-    """Set tensor model parallel rank."""
-    global _MPU_TENSOR_MODEL_PARALLEL_RANK
-    _MPU_TENSOR_MODEL_PARALLEL_RANK = rank
-
-
-def get_tensor_model_parallel_rank():
-    """Return my rank for the tensor model parallel group."""
-    global _MPU_TENSOR_MODEL_PARALLEL_RANK
-    if _MPU_TENSOR_MODEL_PARALLEL_RANK is not None:
-        return _MPU_TENSOR_MODEL_PARALLEL_RANK
-    return dist.get_rank(group=get_tensor_model_parallel_group())
-
-
-def get_model_parallel_rank():
-    return get_tensor_model_parallel_rank()
-
-
-def get_tensor_model_parallel_src_rank():
-    """Calculate the global rank corresponding to the first local rank
-    in the tensor model parallel group."""
-    global_rank = dist.get_rank()
-    local_world_size = get_tensor_model_parallel_world_size()
-    return (global_rank // local_world_size) * local_world_size
-
-
-def get_data_parallel_world_size():
-    """Return world size for the data parallel group."""
-    return dist.get_world_size(group=get_data_parallel_group())
-
-
-def get_data_parallel_rank():
-    """Return my rank for the data parallel group."""
-    return dist.get_rank(group=get_data_parallel_group())
-
-
-def destroy_model_parallel():
-    """Set the groups to none."""
-    global _TENSOR_MODEL_PARALLEL_GROUP
-    _TENSOR_MODEL_PARALLEL_GROUP = None
-
-    global _DATA_PARALLEL_GROUP
-    _DATA_PARALLEL_GROUP = None

From ee6323e7aa9a6c188ff91d9817463177968405a8 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Thu, 5 Dec 2024 07:45:38 +0000
Subject: [PATCH 12/71] refactor autoTP step2

---
 deepspeed/module_inject/auto_tp.py         | 56 +++----------
 deepspeed/module_inject/fusedqkv_utils.py  |  4 +-
 deepspeed/module_inject/layers.py          | 97 ++++++++++++++++------
 deepspeed/module_inject/load_checkpoint.py |  4 +-
 deepspeed/utils/__init__.py                |  1 -
 5 files changed, 87 insertions(+), 75 deletions(-)

diff --git a/deepspeed/module_inject/auto_tp.py b/deepspeed/module_inject/auto_tp.py
index fb820a51d308..6c936e2bd03b 100755
--- a/deepspeed/module_inject/auto_tp.py
+++ b/deepspeed/module_inject/auto_tp.py
@@ -11,7 +11,7 @@
 from typing import Optional
 import torch
 from deepspeed import comm as dist
-from .layers import LinearAllreduce, LinearLayer, LmHeadLinearAllreduce, Yuan_LinearALlreduce, Yuan_LinearLayer, GLM_LinearLayer, Conv_LinearALlreduce
+from .layers import LinearAllreduce, LinearLayer, LmHeadLinearAllreduce, Yuan_LinearALlreduce, Yuan_LinearLayer, GLM_LinearLayer, Conv_LinearALlreduce, fused_LinearLayer,conv_LinearLayer
 from deepspeed.accelerator import get_accelerator
 from .fusedqkv_utils import require_tp_fused_qkvw, prepare_tp_fused_qkvw, shard_value_with_share_qk, shard_chunk_mlp
 from deepspeed.module_inject.tp_shard import get_shard_size, get_shard_size_list
@@ -349,63 +349,27 @@ def _replace(self, child, name, conv_linear_layer):
         if 'gate_up_proj' in name or ('dense_h_to_4h' in name and 'GLM' in str(self.module)):
             return GLM_LinearLayer(child, self.mp_group)
         if name in self.all_reduce_linears:
-            # if conv_linear_layer [weight_shape[1], weight_shape[0] // mp_size]
-            # else [weight_shape[0], weight_shape[1] // mp_size]
-            # if self.conv_linear_layer:
-            #     child.weight.data = child.weight.data.transpose(-1, -2).contiguous()
 
-            # data = torch.chunk(child.weight.data, self.mp_size, dim=1)
-
-            # data = child.weight.data.split(get_shard_size_list(
-            #     weight_shape[0] if self.conv_linear_layer else weight_shape[1], self.mp_size, name),
-            #                                dim=1)
             setattr(child, "replaced", True)
             if self.conv_linear_layer:
                 return Conv_LinearALlreduce(child, self.mp_group, name)
-            if name == "lm_head" or name == 'embed_out':
+            elif name == "lm_head" or name == 'embed_out':
                 return LmHeadLinearAllreduce(child, self.mp_group)
 
             return LinearAllreduce(child, self.mp_group)
         
-            # return LinearAllreduce(torch.nn.parameter.Parameter(data_dc, requires_grad=False), child.bias if child.bias is None else \
-            #             torch.nn.parameter.Parameter(move(child.bias, get_accelerator().current_device_name())), self.mp_group)
+            
         else:
-            # if conv_linear_layer [weight_shape[1], weight_shape[0] // mp_size]
-            # else [weight_shape[0] // mp_size, weight_shape[1]]
+         
+            setattr(child, "replaced", True)
             if self.conv_linear_layer:
-                child.weight.data = child.weight.data.transpose(-1, -2).contiguous()
-
-            if require_tp_fused_qkvw(name, self.mp_size):
+                conv_LinearLayer(child, self.mp_group)
+            elif require_tp_fused_qkvw(name, self.mp_size):
                 #Check and handle fused qkv for TP
                 #The copy is a regular copy, The shape of dst and src is the same
-                data_dc = move(
-                    prepare_tp_fused_qkvw(self.module, child.weight.data, self.mp_size, mp_replace.gpu_index),
-                    get_accelerator().current_device_name())
-
-                bias_data_dc = None if child.bias is None else move(
-                    prepare_tp_fused_qkvw(self.module, child.bias.data, self.mp_size, mp_replace.gpu_index),
-                    get_accelerator().current_device_name())
-            else:
-                data = torch.chunk(child.weight.data, self.mp_size, dim=1 if self.conv_linear_layer else 0)
-                # data = child.weight.data.split(get_shard_size_list(weight_shape[0], self.mp_size, name),
-                #                                dim=1 if self.conv_linear_layer else 0)
-                data_dc = move(data[mp_replace.gpu_index], get_accelerator().current_device_name()).detach()
-                del data
-
-                if child.bias is not None:
-                    bias_data = child.bias.data.split(get_shard_size_list(
-                        weight_shape[1] if self.conv_linear_layer else weight_shape[0], self.mp_size, name),
-                                                      dim=0)
-                    bias_data = move(bias_data[mp_replace.gpu_index], get_accelerator().current_device_name())
-                    bias_data_dc = torch.nn.parameter.Parameter(bias_data, requires_grad=False)
-                    del bias_data
-                else:
-                    bias_data_dc = None
-
-            setattr(child, "replaced", True)
-            return LinearLayer(weight=torch.nn.parameter.Parameter(data_dc, requires_grad=False),
-                               bias=bias_data_dc,
-                               mp_group=self.mp_group)
+                return fused_LinearLayer(child, self.mp_group, str(self.module).strip())
+            
+            return LinearLayer(child, self.mp_group)
 
     def _slice_embedding(self, child, name, conv_linear_layer):
         if getattr(child, "replaced", False) == True:
diff --git a/deepspeed/module_inject/fusedqkv_utils.py b/deepspeed/module_inject/fusedqkv_utils.py
index 0609c6001dd2..3f16348f0e3a 100644
--- a/deepspeed/module_inject/fusedqkv_utils.py
+++ b/deepspeed/module_inject/fusedqkv_utils.py
@@ -26,9 +26,9 @@ def require_tp_fused_qkvw(name, mp_size):
     return False
 
 
-def prepare_tp_fused_qkvw(module, src, mp_size, gpu_index):
+def prepare_tp_fused_qkvw(name, src, mp_size, gpu_index):
 
-    module_str = str(module).strip()
+    module_str = name
     if src is None:
         return
     fused_type_dict = {
diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index 7a969403f0a1..5240ef1f70ab 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -13,7 +13,7 @@
 from abc import ABC, abstractmethod
 from typing import Iterable
 from deepspeed.utils import groups
-from .fusedqkv_utils import shard_value_with_share_qk, shard_chunk_mlp
+from .fusedqkv_utils import shard_value_with_share_qk, shard_chunk_mlp, prepare_tp_fused_qkvw
 
 def move(tensor, device):
     #TODO: the data parallelism (DP) is greater than 2,
@@ -65,10 +65,12 @@ class Replaced_Layer(nn.Module, ABC):
     def __init__(self, mp_group, name=None):
         super().__init__()
         self.support_training = False
-        self.mp_group = mp_group
-        self.tp_world_sz = dist.get_world_size(self.mp_group)
-        self.tp_index = dist.get_rank(mp_group)
-        self.name=name
+        if mp_group is not None:
+            self.mp_group = mp_group
+            self.tp_world_sz = dist.get_world_size(self.mp_group)
+            self.tp_index = dist.get_rank(mp_group)
+        if name is not None:
+            self.name=name
     @abstractmethod
     def forward(self, input):
         """
@@ -171,7 +173,7 @@ def partition(self, params_list, move_to_device=False):
             _partition=torch.chunk(param, self.tp_world_sz, dim=1)[self.tp_index]
 
             if move_to_device:
-                partition=move(_partition, get_accelerator().current_device())
+                partition=move(_partition, get_accelerator().current_device()).detach()
                 del _partition
                 _partition=partition
             
@@ -179,23 +181,16 @@ def partition(self, params_list, move_to_device=False):
 
 class LinearLayer(Replaced_Layer):
 
-    def __init__(self, weight_shape=None, dtype=torch.half, weight=None, bias=None, mp_group=None):
-        super(LinearLayer, self).__init__(mp_group)
+    def __init__(self, module, mp_group, name=None, skip_partition=False):
+        super(LinearLayer, self).__init__(mp_group, name)
+        self.weight = module.weight
+        self.bias = module.bias
+        if not skip_partition:
+            self.partition([self.weight, self.bias], move_to_device=True)
         self.support_training = True
-
-        self.mp_group = mp_group
-        if weight is not None:
-            self.weight = weight
-            self.bias = bias
-        else:
-            self.weight = Parameter(
-                torch.empty(weight_shape, dtype=dtype, device=get_accelerator().current_device_name()))
-
-            self.bias = Parameter(
-                torch.empty(weight_shape[0],
-                            dtype=dtype,
-                            device=get_accelerator().current_device_name())) \
-                if bias is not None else None
+        self.config_tp_training(self.weight)
+        if self.bias is not None:
+            self.config_tp_training(self.bias)
         self.config_tp_training(self.weight)
         self.config_tp_training(self.bias)
 
@@ -224,16 +219,70 @@ def partition(self, params_list, move_to_device=False):
         for idx, param in enumerate(params_list):
             if param is None:
                 return 
-            _partition=torch.chunk(param, self.tp_world_sz, dim=1)[self.tp_index]
+            _partition=torch.chunk(param, self.tp_world_sz, dim=0)[self.tp_index]
 
             if move_to_device:
-                partition=move(_partition, get_accelerator().current_device())
+                partition=move(_partition, get_accelerator().current_device()).detach()
                 del _partition
                 _partition=partition
             
             params_list[idx].data = _partition
+    # for bwc
+    @classmethod
+    def from_weights(cls, weight_shape=None, dtype=torch.half, weight=None, bias=None):
+        if weight is not None:
+            in_features = weight.shape[1] 
+            out_features = weight.shape[0]  
+            linear = nn.Linear(in_features, out_features, bias=(bias is not None))
+            linear.weight.data = weight
+            if bias is not None:
+                linear.bias.data = bias
+        else:
+            in_features = weight_shape[1] 
+            out_features = weight_shape[0]  
+            linear = nn.Linear(in_features, out_features, bias=(bias is not None))
+        return cls(linear, skip_partition=True)
+        
+
+class fused_LinearLayer(LinearLayer):
+    def partition(self, params_list, move_to_device=False): 
+        def prepare_tp_fused_qkvw(module, src, mp_size, gpu_index):
+            
+            for idx, param in params_list:
+                if param is None:
+                    return 
+                _partition=prepare_tp_fused_qkvw(self.name, param, self.tp_world_sz, self.tp_index )
+            if move_to_device:
+                partition=move(_partition, get_accelerator().current_device()).detach()
+                del _partition
+                _partition=partition
+            params_list[idx].data = _partition
 
+class conv_LinearLayer(LinearLayer):
+    def partition(self, params_list, move_to_device=False):
+        weight = None
+        bias = None
+        if len(params_list)==1:
+            weight=params_list[0]
+        elif len(params_list)==2:
+            weight, bias=params_list[0], params_list[1]
+        _partition = weight.data.split(get_shard_size_list(weight.shape[0],  self.tp_world_sz, self.name), dim=1)
+        partition=move(_partition, get_accelerator().current_device()).detach()
+        del _partition
+        weight.data=partition
+        
+        if bias is not None:
+            _partition = bias.data.split(get_shard_size_list(
+                        weight.shape[1] ,self.tp_world_sz, self.name),
+                                                      dim=0)
+            partition=move(_partition, get_accelerator().current_device()).detach()
+            del _partition
+            bias.data=partition
 
+            
+        
+    
+            
 class bwc_LinearLayer(nn.Module):
 
     def __init__(self, weight_shape=None, dtype=torch.half, weight=None, bias=None):
diff --git a/deepspeed/module_inject/load_checkpoint.py b/deepspeed/module_inject/load_checkpoint.py
index 4d01fdc69869..ed8dc2d7a63f 100644
--- a/deepspeed/module_inject/load_checkpoint.py
+++ b/deepspeed/module_inject/load_checkpoint.py
@@ -236,7 +236,7 @@ def load_module_recursive(module, prefix='', level=0):
                         child.weight.ds_id in all_ds_ids):
                         prefix1 = all_ds_ids[child.weight.ds_id]
                         if child.__class__ is nn.Linear:
-                            child = LinearLayer(weight=all_ds_ids[child.weight.ds_id])
+                            child = LinearLayer.from_weights(weight=all_ds_ids[child.weight.ds_id])
                             setattr(module, name, child)
                     continue
                 child_params = list(child.parameters())
@@ -249,7 +249,7 @@ def load_module_recursive(module, prefix='', level=0):
                         child = Normalize(dim=ds_shape[-1], dtype=child.weight.dtype, eps=child.eps)
                         setattr(module, name, child)
                     elif child.__class__ in [nn.Linear, ColumnParallelLinear, RowParallelLinear]:
-                        child = LinearLayer(weight_shape=child.weight.shape, dtype=child.weight.dtype, bias=child.bias)
+                        child = LinearLayer.from_weights(weight_shape=child.weight.shape, dtype=child.weight.dtype, bias=child.bias)
                         setattr(module, name, child)
                     elif child.__class__ is OPTLearnedPositionalEmbedding:
                         child = OPTEmbedding(weight_shape=ds_shape)
diff --git a/deepspeed/utils/__init__.py b/deepspeed/utils/__init__.py
index f05c12679249..983e64642c69 100644
--- a/deepspeed/utils/__init__.py
+++ b/deepspeed/utils/__init__.py
@@ -8,7 +8,6 @@
 #from .distributed import init_distributed
 from .init_on_device import OnDevice
 from .groups import *
-from .parallel_states import *
 from .nvtx import instrument_w_nvtx
 # TODO: Move tensor fragment and mixed precision to zero utils
 from .tensor_fragment import tensor_fragment, get_full_hp_param, get_hp_fragment_mapping, fragment_address, get_full_hp_grad, map_to_flat_opt_states

From 6461b84497d036a524284dc9f90476abe35b72a0 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Tue, 10 Dec 2024 08:58:00 +0000
Subject: [PATCH 13/71] update ut step1

---
 deepspeed/module_inject/layers.py             |   3 +-
 deepspeed/runtime/engine.py                   |  17 +-
 deepspeed/runtime/utils.py                    |  10 +-
 .../model_parallelism/test_autotp_training.py | 147 ++++++++++++++++++
 4 files changed, 168 insertions(+), 9 deletions(-)
 create mode 100644 tests/unit/model_parallelism/test_autotp_training.py

diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index 5240ef1f70ab..b68abfae6881 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -191,8 +191,7 @@ def __init__(self, module, mp_group, name=None, skip_partition=False):
         self.config_tp_training(self.weight)
         if self.bias is not None:
             self.config_tp_training(self.bias)
-        self.config_tp_training(self.weight)
-        self.config_tp_training(self.bias)
+
 
     def forward(self, input):
         input = ColumnParallel.apply(self.mp_group, input)
diff --git a/deepspeed/runtime/engine.py b/deepspeed/runtime/engine.py
index a91a5854d388..880638a1ef06 100755
--- a/deepspeed/runtime/engine.py
+++ b/deepspeed/runtime/engine.py
@@ -440,23 +440,34 @@ def _configure_tensor_parallel_states(self, model):
         def check_dataloader_inputs_same_across_ranks(module, args, kwargs):
 
             def broadcast_and_check(args, bcast_rank, bcast_group):
+                if isinstance(args, tuple): 
+                    args = list(args) 
                 if len(args) >0:
                     if self.mpu.get_tensor_model_parallel_rank()==0:
                         _src_args=[args]
                         torch.distributed.broadcast_object_list(object_list=_src_args, src=bcast_rank, group=bcast_group, device=get_accelerator().current_device())
-
+                        # Rank 0 does not need to compare with itself
+                        is_equal=True
                     else:
                         _src_args=[None]
                         torch.distributed.broadcast_object_list(object_list=_src_args, src=bcast_rank, group=bcast_group, device=get_accelerator().current_device())
-                        assert compare_tensors_in_structures(args, _src_args[0]), f"RANK[{dist.get_rank()}]:Data inconsistency within the TP group. Please check the Dataloader implementation to ensure consistency."
+                        print(f"RANK[{dist.get_rank()}],bcast finished")
+                        is_equal=compare_tensors_in_structures(args, _src_args[0])
+                        
+                
+                    equal_tensor = torch.tensor(is_equal,dtype=self.communication_data_type,device=get_accelerator().current_device())
+                    dist.all_reduce(equal_tensor,group=bcast_group)
+                    assert torch.equal(equal_tensor, torch.tensor(groups.get_tensor_model_parallel_world_size(), dtype=self.communication_data_type,device=get_accelerator().current_device())), "Data inconsistency within the TP group. Please check the Dataloader implementation to ensure consistency."
             
             bcast_rank=self.mpu.get_tensor_model_parallel_src_rank()
             bcast_group=self.mpu.get_tensor_model_parallel_group()
             
             broadcast_and_check(args, bcast_rank, bcast_group)
             broadcast_and_check(kwargs, bcast_rank, bcast_group)
+            
+            # assert , "Data inconsistency within the TP group. Please check the Dataloader implementation to ensure consistency."
 
-            print("The Dataloader has passed the TP group consistency check.")
+            print(f"RANK[{dist.get_rank()}]:The Dataloader has passed the TP group consistency check.")
 
             self.first_dataloader_check.remove()
             
diff --git a/deepspeed/runtime/utils.py b/deepspeed/runtime/utils.py
index 7696410e775b..63a1a8c053de 100755
--- a/deepspeed/runtime/utils.py
+++ b/deepspeed/runtime/utils.py
@@ -1123,11 +1123,13 @@ def compare_tensors_in_structures(
     if isinstance(inputs1, list) and isinstance(inputs2, list):
         if len(inputs1) != len(inputs2):
             return False
-        for a, b in zip(inputs1, inputs2):
-            if isinstance(a, torch.Tensor) and isinstance(b, torch.Tensor):
-                if not torch.equal(a, b): 
+        for val1, val2 in zip(inputs1, inputs2):
+            if isinstance(val1, torch.Tensor) and isinstance(val2, torch.Tensor):
+                val1=val1.to(get_accelerator().current_device())
+                val2=val2.to(get_accelerator().current_device())
+                if not torch.equal(val1, val2): 
                     return False
-            elif a != b:  
+            elif val1 != val2:  
                 return False
         return True
 
diff --git a/tests/unit/model_parallelism/test_autotp_training.py b/tests/unit/model_parallelism/test_autotp_training.py
new file mode 100644
index 000000000000..876c7a7b846a
--- /dev/null
+++ b/tests/unit/model_parallelism/test_autotp_training.py
@@ -0,0 +1,147 @@
+# Copyright (c) Microsoft Corporation.
+# SPDX-License-Identifier: Apache-2.0
+
+# DeepSpeed Team
+
+import pytest
+import deepspeed.comm as dist
+import torch
+
+from unit.common import DistributedTest, preferred_dtype
+import deepspeed
+from deepspeed.accelerator import get_accelerator
+from unit.simple_model import SimpleModel, random_dataloader
+from deepspeed.utils import groups
+from contextlib import contextmanager
+from torch import nn
+# test group         done
+# test daloader check      done
+# test fwd/ bwd
+# test gather/partition
+# test save/load ckpt
+# test save model
+# test grad_norm
+
+
+@contextmanager
+def should_assert_with_msg(expected_message):
+    try:
+        yield  
+    except AssertionError as e:
+        # ignoe blank
+        if dist.get_rank()==0:
+            print(expected_message)
+            print(str(e))
+        if str(e) == expected_message:
+            pass  
+        else:
+            raise e  
+        
+class TestTpParallelStates(DistributedTest):
+    world_size = 4
+    def test(self):
+        tp_size=4
+
+        dp_size = 4 / dist.get_world_size()
+        hidden_dim = 128
+        config_dict = {
+            "train_micro_batch_size_per_gpu": 1,
+            "zero_optimization": {
+                "stage": 0,
+                "autotp_size":tp_size
+          
+            }
+        }
+        model = SimpleModel(hidden_dim=hidden_dim)
+        model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
+        assert groups.get_tensor_model_parallel_world_size()==tp_size
+        assert groups.get_data_parallel_world_size()==dp_size
+
+        
+class TestTpDataloaderCorrectness(DistributedTest):
+    world_size = 4
+    reuse_dist_env = True
+    
+    def test(self):
+        tp_size=4
+        hidden_dim = 128
+        config_dict = {
+            "train_micro_batch_size_per_gpu": 1,
+            "steps_per_print": 1,
+            "optimizer": {
+                "type": "Adam",
+                "params": {
+                    "lr": 1e-6
+                }
+            },
+            "zero_optimization": {
+                "stage": 0,
+                "autotp_size":tp_size
+          
+            }
+        }
+        if preferred_dtype() is torch.float16:
+            config_dict["fp16"] = {"enabled": True}
+        elif preferred_dtype() is torch.bfloat16:
+            config_dict["bf16"] = {"enabled": True}
+
+        model = SimpleModel(hidden_dim=hidden_dim)
+        model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
+        data_loader = random_dataloader(model=model,
+                                        total_samples=3,
+                                        hidden_dim=hidden_dim,
+                                        device=model.device,
+                                        dtype=preferred_dtype())
+        dist.barrier()
+        with should_assert_with_msg("Data inconsistency within the TP group. Please check the Dataloader implementation to ensure consistency."):
+            for batch in data_loader:
+                # batch[0].requires_grad = requires_grad
+                batch[0]+= dist.get_rank()
+                model(batch[0], batch[1])
+                
+        model = SimpleModel(hidden_dim=hidden_dim)
+        model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
+        data_loader = random_dataloader(model=model,
+                                        total_samples=3,
+                                        hidden_dim=hidden_dim,
+                                        device=model.device,
+                                        dtype=preferred_dtype())
+        for batch in data_loader:
+            dist.broadcast(batch[0],src=groups.get_tensor_model_parallel_src_rank(),group=groups.get_tensor_model_parallel_group())
+            dist.broadcast(batch[1],src=groups.get_tensor_model_parallel_src_rank(),group=groups.get_tensor_model_parallel_group())
+            model(batch[0], batch[1])
+
+class TestTpLayerfwdandbwd(DistributedTest):
+    def testLinearAllreduce():
+        world_size = 4
+        tp_size=4
+        hidden_dim = 128
+        batch_size_per_device=1
+        config_dict = {
+            "train_micro_batch_size_per_gpu": 1,
+            "steps_per_print": 1,
+            "optimizer": {
+                "type": "Adam",
+                "params": {
+                    "lr": 1e-6
+                }
+            },
+            "zero_optimization": {
+                "stage": 0,
+                "autotp_size":tp_size
+          
+            }
+        }
+        if preferred_dtype() is torch.float16:
+            config_dict["fp16"] = {"enabled": True}
+        elif preferred_dtype() is torch.bfloat16:
+            config_dict["bf16"] = {"enabled": True}
+
+        input = torch.randn(batch_size_per_device, hidden_dim, dtype=preferred_dtype(), requires_grad=True)
+
+        torch_linear = nn.Linear(hidden_dim, hidden_dim, dtype=preferred_dtype(),device=get_accelerator().current_device())
+        torch_out = torch_linear(input)
+        
+        loss=
+    # def testLinearLayer():
+        

From 4d7301135bb4b7da128e4bacb1df724aeddd99da Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Wed, 11 Dec 2024 14:00:47 +0800
Subject: [PATCH 14/71] update

---
 .../model_parallelism/test_autotp_training.py | 85 +++++++++++++++++--
 1 file changed, 79 insertions(+), 6 deletions(-)

diff --git a/tests/unit/model_parallelism/test_autotp_training.py b/tests/unit/model_parallelism/test_autotp_training.py
index 876c7a7b846a..25921c0173c8 100644
--- a/tests/unit/model_parallelism/test_autotp_training.py
+++ b/tests/unit/model_parallelism/test_autotp_training.py
@@ -14,6 +14,8 @@
 from deepspeed.utils import groups
 from contextlib import contextmanager
 from torch import nn
+from deepspeed.module_inject.layers import LinearAllreduce, LinearLayer
+
 # test group         done
 # test daloader check      done
 # test fwd/ bwd
@@ -112,8 +114,10 @@ def test(self):
             model(batch[0], batch[1])
 
 class TestTpLayerfwdandbwd(DistributedTest):
-    def testLinearAllreduce():
-        world_size = 4
+    world_size = 4
+    reuse_dist_env = True
+    
+    def test1(self):
         tp_size=4
         hidden_dim = 128
         batch_size_per_device=1
@@ -137,11 +141,80 @@ def testLinearAllreduce():
         elif preferred_dtype() is torch.bfloat16:
             config_dict["bf16"] = {"enabled": True}
 
-        input = torch.randn(batch_size_per_device, hidden_dim, dtype=preferred_dtype(), requires_grad=True)
+        torch.manual_seed(42)
+        model = SimpleModel(hidden_dim=hidden_dim)
+        model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
+        input = torch.randn(batch_size_per_device, hidden_dim, dtype=preferred_dtype(), requires_grad=True,device="cpu")
 
-        torch_linear = nn.Linear(hidden_dim, hidden_dim, dtype=preferred_dtype(),device=get_accelerator().current_device())
+        torch_linear = nn.Linear(hidden_dim, hidden_dim, dtype=preferred_dtype(),device="cpu", bias=None)
         torch_out = torch_linear(input)
+        torch_loss=torch_out.sum()
+        torch_loss.backward()
+        torch_norm =  torch.norm(torch_linear.weight.grad)
+        torch_linear.zero_grad()
+
+        linear = LinearAllreduce(torch_linear, groups.get_tensor_model_parallel_group())
+        input.to(get_accelerator().current_device())
+        
+        input_=torch.chunk(input, tp_size, dim=-1)[groups.get_tensor_model_parallel_rank()]
+        out = linear(input_.to(get_accelerator().current_device()))
+        loss = out.sum()
+        loss.backward()
+        norm = torch.norm(linear.weight.grad)
+        norm_pow =norm**2
+        dist.all_reduce(norm_pow,group=groups.get_tensor_model_parallel_group())
+        norm=torch.sqrt(norm_pow)
+        assert torch.equal(norm, torch_norm.to(get_accelerator().current_device()))
+        assert torch.equal(out, torch_out.to(get_accelerator().current_device()))
+    def test2(self):
         
-        loss=
-    # def testLinearLayer():
+        tp_size=4
+        hidden_dim = 128
+        batch_size_per_device=1
+        config_dict = {
+            "train_micro_batch_size_per_gpu": 1,
+            "steps_per_print": 1,
+            "optimizer": {
+                "type": "Adam",
+                "params": {
+                    "lr": 1e-6
+                }
+            },
+            "zero_optimization": {
+                "stage": 0,
+                "autotp_size":tp_size
+          
+            }
+        }
+        if preferred_dtype() is torch.float16:
+            config_dict["fp16"] = {"enabled": True}
+        elif preferred_dtype() is torch.bfloat16:
+            config_dict["bf16"] = {"enabled": True}
+
+        torch.manual_seed(42)
+        model = SimpleModel(hidden_dim=hidden_dim)
+        model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
+        input = torch.randn(batch_size_per_device, hidden_dim, dtype=preferred_dtype(), requires_grad=True,device="cpu")
+
+        
+        torch_linear = nn.Linear(hidden_dim, hidden_dim, dtype=preferred_dtype(),device="cpu", bias=None)
+        torch_out = torch_linear(input)
+        torch_loss=torch_out.sum()
+        torch_loss.backward()
+        torch_norm =  torch.norm(torch_linear.weight.grad)
+        torch_linear.zero_grad()
+        
+        
+        linear = LinearLayer(torch_linear, groups.get_tensor_model_parallel_group())
+        
+        out = linear(input.to(get_accelerator().current_device()))
+        
+        loss = out.sum()
+        loss.backward()
+        norm = torch.norm(linear.weight.grad)
+        norm_pow =norm**2
+        dist.all_reduce(norm_pow,group=groups.get_tensor_model_parallel_group())
+        
+        
+
         

From c79c3bb4bd35e0553c579cb6fc38ca2c0fcb425f Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Wed, 11 Dec 2024 11:37:18 +0000
Subject: [PATCH 15/71] add uts

---
 .../model_parallelism/test_autotp_training.py | 255 +++++++++++++++++-
 tests/unit/simple_model.py                    |  27 +-
 2 files changed, 269 insertions(+), 13 deletions(-)

diff --git a/tests/unit/model_parallelism/test_autotp_training.py b/tests/unit/model_parallelism/test_autotp_training.py
index 25921c0173c8..c514c5187b85 100644
--- a/tests/unit/model_parallelism/test_autotp_training.py
+++ b/tests/unit/model_parallelism/test_autotp_training.py
@@ -18,11 +18,11 @@
 
 # test group         done
 # test daloader check      done
-# test fwd/ bwd
-# test gather/partition
-# test save/load ckpt
-# test save model
-# test grad_norm
+# test fwd/ bwd   done
+# test gather/partition done
+# test save/load ckpt 
+# test save model done 
+# test grad_norm  done , need to refine.
 
 
 @contextmanager
@@ -196,7 +196,6 @@ def test2(self):
         model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
         input = torch.randn(batch_size_per_device, hidden_dim, dtype=preferred_dtype(), requires_grad=True,device="cpu")
 
-        
         torch_linear = nn.Linear(hidden_dim, hidden_dim, dtype=preferred_dtype(),device="cpu", bias=None)
         torch_out = torch_linear(input)
         torch_loss=torch_out.sum()
@@ -204,17 +203,257 @@ def test2(self):
         torch_norm =  torch.norm(torch_linear.weight.grad)
         torch_linear.zero_grad()
         
-        
         linear = LinearLayer(torch_linear, groups.get_tensor_model_parallel_group())
         
         out = linear(input.to(get_accelerator().current_device()))
-        
+
         loss = out.sum()
         loss.backward()
         norm = torch.norm(linear.weight.grad)
         norm_pow =norm**2
         dist.all_reduce(norm_pow,group=groups.get_tensor_model_parallel_group())
+        norm=torch.sqrt(norm_pow)   
+        assert torch.equal(norm, torch_norm.to(get_accelerator().current_device()))
+        cur_device_out = torch.chunk(torch_out, tp_size, dim=-1)[groups.get_tensor_model_parallel_rank()]
+        
+        assert  torch.allclose(cur_device_out.to(get_accelerator().current_device()).contiguous(), out.contiguous(),atol=1e-6)
+
+class TestparamsGather(DistributedTest):
+    world_size = 4
+    reuse_dist_env = True
+    def test(self):
+        tp_size=4
+        hidden_dim = 128
+        batch_size_per_device=1
+        config_dict = {
+            "train_micro_batch_size_per_gpu": 1,
+            "steps_per_print": 1,
+            "optimizer": {
+                "type": "Adam",
+                "params": {
+                    "lr": 1e-6
+                }
+            },
+            "zero_optimization": {
+                "stage": 0,
+                "autotp_size":tp_size
+          
+            }
+        }
+        if preferred_dtype() is torch.float16:
+            config_dict["fp16"] = {"enabled": True}
+        elif preferred_dtype() is torch.bfloat16:
+            config_dict["bf16"] = {"enabled": True}
+
+        torch.manual_seed(42)
+        model = SimpleModel(hidden_dim=hidden_dim)
+        model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
+        input = torch.randn(batch_size_per_device, hidden_dim, dtype=preferred_dtype(), requires_grad=True,device="cpu")
+
+        torch_linear = nn.Linear(hidden_dim, hidden_dim, dtype=preferred_dtype(),device="cpu", bias=None)
+        total_params0 = sum(p.numel() for p in torch_linear.parameters())
+
+        
+        # TODO : make it to param
+        linear = None
+        type = "linearallreduce"
+        if type == "linear":
+            linear = LinearLayer(torch_linear, groups.get_tensor_model_parallel_group())
+        elif type == "linearallreduce":
+            linear = LinearAllreduce(torch_linear, groups.get_tensor_model_parallel_group())
+        else:
+            raise ValueError(f"Invalid linear type: {config_dict['linear_type']}")
+        
+        
+        params0 = sum(p.numel() for p in linear.parameters())
+        
+        assert total_params0//tp_size==params0
+        for name, param in linear.named_parameters(recurse=False):
+            param.gather_params([param])
+
+        same_weights = all(torch.equal(param1, param2) 
+                   for param1, param2 in zip(linear.parameters(), torch_linear.parameters()))
+        
+        assert same_weights
+         
+        params1 = sum(p.numel() for p in linear.parameters())
+        assert total_params0==params1
+
+        for name, param in linear.named_parameters(recurse=False):
+            param.partition([param])
         
+        params2 = sum(p.numel() for p in linear.parameters())
+
+        assert total_params0//tp_size==params2
+
+
+class TestSave(DistributedTest):
+        
+    world_size = 4
+    reuse_dist_env = True
+    def test(self):
+        tp_size=4
+        hidden_dim = 64
+        batch_size_per_device=1
+        config_dict = {
+            "train_micro_batch_size_per_gpu": 1,
+            "steps_per_print": 1,
+            "optimizer": {
+                "type": "Adam",
+                "params": {
+                    "lr": 1e-6
+                }
+            },
+            "zero_optimization": {
+                "stage": 0,
+                "autotp_size":tp_size
+          
+            }
+        }
+        if preferred_dtype() is torch.float16:
+            config_dict["fp16"] = {"enabled": True}
+        elif preferred_dtype() is torch.bfloat16:
+            config_dict["bf16"] = {"enabled": True}
+
+        torch.manual_seed(42)
+        model = SimpleModel(hidden_dim=hidden_dim , nlayers=8)
+        from copy import deepcopy
+        base = deepcopy(model)
+
+        modelt = SimpleModel(hidden_dim=hidden_dim)
+        modelt, _, _, _ = deepspeed.initialize(model=modelt, model_parameters=modelt.parameters(), config=config_dict)
+        #2,3   5,6 
+        
+
+        for i in ([2,5]):
+            model.linears[i]=LinearLayer(model.linears[i], groups.get_tensor_model_parallel_group())
+
+        for i in ([3,6]):
+            model.linears[i]=LinearAllreduce(model.linears[i], groups.get_tensor_model_parallel_group())
+
+        del modelt
+
+        model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
+
+        
+        cur_params_numel = sum(p.numel() for p in model.parameters())
+        base_params_numel =  sum(p.numel() for p in base.parameters())
+        assert cur_params_numel<base_params_numel
+        
+        tp_state_dict = model._consolidated_16bit_state_dict()
+        def compare_state_dicts(state_dict1, state_dict2):
+            if state_dict1.keys() != state_dict2.keys():
+                print("The state_dicts have different keys!")
+                return False
+            
+            for key in state_dict1:
+                if not torch.equal(state_dict1[key], state_dict2[key]):
+                    print(f"Parameters for {key} are different!")
+                    return False
+            
+            return True
+        base_state_dict = base.state_dict()
+        
+        assert(base_state_dict, tp_state_dict)
+        
+class TestNorm(DistributedTest):
+    
+    world_size = 4
+    reuse_dist_env = True
+    def test(self):
+        tp_size=4
+        hidden_dim = 64
+        batch_size_per_device=1
+        config_dict = {
+            "train_micro_batch_size_per_gpu": 1,
+            "steps_per_print": 1,
+            "optimizer": {
+                "type": "Adam",
+                "params": {
+                    "lr": 1e-6
+                }
+            },
+            "zero_optimization": {
+                "stage": 0,
+                "autotp_size":tp_size
+          
+            }
+        }
+        if preferred_dtype() is torch.float16:
+            config_dict["fp16"] = {"enabled": True}
+        elif preferred_dtype() is torch.bfloat16:
+            config_dict["bf16"] = {"enabled": True}
+
+        torch.manual_seed(42)
+        model_base = SimpleModel(hidden_dim=hidden_dim , nlayers=8)
+        from copy import deepcopy
+
+        model_base, optimizer ,_,_ = deepspeed.initialize(model=model_base, model_parameters=model_base.parameters(), config=config_dict)
+
+        data_loader = random_dataloader(model=model_base,
+                                total_samples=2,
+                                hidden_dim=hidden_dim,
+                                device=model_base.device,
+                                dtype=preferred_dtype())
+
+        for i, batch in enumerate(data_loader):
+            batch[0].requires_grad = True
+            loss = model_base(batch[0], batch[1])
+            loss = loss
+            model_base.backward(loss)
+            optimizer.step()
+            
+            
+    
+        grad_norm_base =  optimizer._global_grad_norm
+
+        torch.manual_seed(42)
+
+                
+                
+        modelt = SimpleModel(hidden_dim=hidden_dim)
+        modelt, optimizer, _, _ = deepspeed.initialize(model=modelt, model_parameters=modelt.parameters(), config=config_dict)
+        #2,3   5,6 
+        
+        model = SimpleModel(hidden_dim=hidden_dim , nlayers=8)
+
+        
+
+        for i in ([2,5]):
+            model.linears[i]=LinearLayer(model.linears[i], groups.get_tensor_model_parallel_group())
+
+        for i in ([3,6]):
+            model.linears[i]=LinearAllreduce(model.linears[i], groups.get_tensor_model_parallel_group())
+
+
+        for param in model.parameters():
+            if param.grad is not None:
+                param.grad.data.fill_(0.01)
+        model, optimizer, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
+
+
+        
+        for i, batch in enumerate(data_loader):
+            batch[0].requires_grad = True
+            loss = model(batch[0], batch[1])
+            loss = loss
+            model.backward(loss)
+            optimizer.step()
+
+        
+        # optimizer.step()
+        norm = optimizer._global_grad_norm
+        
+
+        norm_diff_percent = abs(norm - grad_norm_base) / grad_norm_base * 100
+        assert norm_diff_percent<5
+        cur_params_numel = sum(p.numel() for p in model.parameters())
+        base_params_numel =  sum(p.numel() for p in model_base.parameters())
+        assert cur_params_numel<base_params_numel
+        
+       
+        
+    
         
 
         
diff --git a/tests/unit/simple_model.py b/tests/unit/simple_model.py
index a5538a8c6e68..023876f9ae7c 100644
--- a/tests/unit/simple_model.py
+++ b/tests/unit/simple_model.py
@@ -17,13 +17,31 @@
 from .common import preferred_dtype
 
 
+# class SimpleModel(torch.nn.Module):
+
+#     def __init__(self, hidden_dim, empty_grad=False, nlayers=1):
+#         super(SimpleModel, self).__init__()
+#         self.linears = torch.nn.ModuleList([torch.nn.Linear(hidden_dim, hidden_dim,bias=None) for i in range(nlayers)])
+#         if empty_grad:
+#             self.linear2 = torch.nn.Linear(hidden_dim, hidden_dim,bias=None)
+#         self.cross_entropy_loss = torch.nn.CrossEntropyLoss()
+#         self.empty_grad = empty_grad
+
+#     def forward(self, x, y):
+#         if len(self.linears) == 1:
+#             x = self.linears[0](x)
+#         else:
+#             for i, l in enumerate(self.linears):
+#                 x = self.linears[i // 2](x) + l(x)
+#         return self.cross_entropy_loss(x, y)
+
 class SimpleModel(torch.nn.Module):
 
     def __init__(self, hidden_dim, empty_grad=False, nlayers=1):
         super(SimpleModel, self).__init__()
-        self.linears = torch.nn.ModuleList([torch.nn.Linear(hidden_dim, hidden_dim) for i in range(nlayers)])
+        self.linears = torch.nn.ModuleList([torch.nn.Linear(hidden_dim, hidden_dim,bias=None) for i in range(nlayers)])
         if empty_grad:
-            self.linear2 = torch.nn.Linear(hidden_dim, hidden_dim)
+            self.linear2 = torch.nn.Linear(hidden_dim, hidden_dim,bias=None)
         self.cross_entropy_loss = torch.nn.CrossEntropyLoss()
         self.empty_grad = empty_grad
 
@@ -32,10 +50,9 @@ def forward(self, x, y):
             x = self.linears[0](x)
         else:
             for i, l in enumerate(self.linears):
-                x = self.linears[i // 2](x) + l(x)
+                x = self.linears[i](x)
         return self.cross_entropy_loss(x, y)
-
-
+    
 class SimpleFrozenModel(torch.nn.Module):
 
     def __init__(self, hidden_dim, empty_grad=False):

From 97e659cf10321265bc706f71d6b6284acf782f2f Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Thu, 12 Dec 2024 04:11:23 +0000
Subject: [PATCH 16/71] finished all ut code base

---
 .../model_parallelism/test_autotp_training.py | 83 ++++++++++++++++++-
 1 file changed, 79 insertions(+), 4 deletions(-)

diff --git a/tests/unit/model_parallelism/test_autotp_training.py b/tests/unit/model_parallelism/test_autotp_training.py
index c514c5187b85..efe39a5f9681 100644
--- a/tests/unit/model_parallelism/test_autotp_training.py
+++ b/tests/unit/model_parallelism/test_autotp_training.py
@@ -10,7 +10,7 @@
 from unit.common import DistributedTest, preferred_dtype
 import deepspeed
 from deepspeed.accelerator import get_accelerator
-from unit.simple_model import SimpleModel, random_dataloader
+from unit.simple_model import SimpleModel, random_dataloader, sequence_dataloader
 from deepspeed.utils import groups
 from contextlib import contextmanager
 from torch import nn
@@ -20,10 +20,10 @@
 # test daloader check      done
 # test fwd/ bwd   done
 # test gather/partition done
-# test save/load ckpt 
+# test save/load ckpt  done
 # test save model done 
 # test grad_norm  done , need to refine.
-
+# test compatibility with zero.etc.?
 
 @contextmanager
 def should_assert_with_msg(expected_message):
@@ -355,6 +355,81 @@ def compare_state_dicts(state_dict1, state_dict2):
         base_state_dict = base.state_dict()
         
         assert(base_state_dict, tp_state_dict)
+    
+    def test_ckpt_save(self):    
+        tp_size=4
+        hidden_dim = 64
+        batch_size_per_device=1
+        config_dict = {
+            "train_micro_batch_size_per_gpu": 1,
+            "steps_per_print": 1,
+            "optimizer": {
+                "type": "Adam",
+                "params": {
+                    "lr": 1e-3
+                }
+            },
+            "zero_optimization": {
+                "stage": 0,
+                "autotp_size":tp_size
+          
+            }
+        }
+  
+        if preferred_dtype() is torch.float16:
+            config_dict["fp16"] = {"enabled": True}
+        elif preferred_dtype() is torch.bfloat16:
+            config_dict["bf16"] = {"enabled": True}
+
+        # for group
+        modelt = SimpleModel(hidden_dim=hidden_dim)
+        modelt, optimizer, _, _ = deepspeed.initialize(model=modelt, model_parameters=modelt.parameters(), config=config_dict)
+        
+        
+        model = SimpleModel(hidden_dim=hidden_dim , nlayers=8)
+        model2 = SimpleModel(hidden_dim=hidden_dim , nlayers=8)
+        
+        for i in ([2,5]):
+            model.linears[i]=LinearLayer(model.linears[i], groups.get_tensor_model_parallel_group())
+            model2.linears[i]=LinearLayer(model2.linears[i], groups.get_tensor_model_parallel_group())
+        for i in ([3,6]):
+            model.linears[i]=LinearAllreduce(model.linears[i], groups.get_tensor_model_parallel_group())
+            model2.linears[i]=LinearAllreduce(model2.linears[i], groups.get_tensor_model_parallel_group())
+
+        model,_,_,_= deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
+        torch.manual_seed(42)
+
+        data_loader = random_dataloader(model=model,
+                                total_samples=3,
+                                hidden_dim=hidden_dim,
+                                device=model.device,
+                                dtype=preferred_dtype())
+        test_batch=None
+        ckpt_path = "./test_ckpt/"
+        for i, batch in enumerate(data_loader):
+            batch[0].requires_grad = True
+            loss = model(batch[0], batch[1])
+            loss = loss
+            model.backward(loss)
+            model.step()
+        model.save_checkpoint(ckpt_path)
+     
+
+            
+  
+        # base_loss = model(test_batch[0],test_batch[1])
+        
+        model2,_,_,_ = deepspeed.initialize(model=model2, model_parameters=model2.parameters(),config=config_dict)
+        model2.load_checkpoint(ckpt_path,load_optimizer_states=True,load_lr_scheduler_states=True)
+        from unit.checkpoint.common import compare_opt_state_dicts, compare_state_dicts,compare_optimizer_states
+        
+        compare_optimizer_states(model,  model2,   preferred_dtype())
+       
+
+
+
+      
+        
         
 class TestNorm(DistributedTest):
     
@@ -452,7 +527,7 @@ def test(self):
         assert cur_params_numel<base_params_numel
         
        
-        
+
     
         
 

From a15905be03fd6c9a836cb24b7f7fd5f474f54c4a Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Thu, 12 Dec 2024 06:23:52 +0000
Subject: [PATCH 17/71] addllr scheduler test

---
 .../model_parallelism/test_autotp_training.py | 23 +++++++++++--------
 1 file changed, 13 insertions(+), 10 deletions(-)

diff --git a/tests/unit/model_parallelism/test_autotp_training.py b/tests/unit/model_parallelism/test_autotp_training.py
index efe39a5f9681..4d3c58b8bc1e 100644
--- a/tests/unit/model_parallelism/test_autotp_training.py
+++ b/tests/unit/model_parallelism/test_autotp_training.py
@@ -30,7 +30,6 @@ def should_assert_with_msg(expected_message):
     try:
         yield  
     except AssertionError as e:
-        # ignoe blank
         if dist.get_rank()==0:
             print(expected_message)
             print(str(e))
@@ -373,6 +372,14 @@ def test_ckpt_save(self):
                 "stage": 0,
                 "autotp_size":tp_size
           
+            },
+            "scheduler": {
+            "type": "WarmupLR",
+                "params": {
+                    "warmup_min_lr": 0,
+                    "warmup_max_lr": 0.001,
+                    "warmup_num_steps": 1000
+                }
             }
         }
   
@@ -421,15 +428,11 @@ def test_ckpt_save(self):
         
         model2,_,_,_ = deepspeed.initialize(model=model2, model_parameters=model2.parameters(),config=config_dict)
         model2.load_checkpoint(ckpt_path,load_optimizer_states=True,load_lr_scheduler_states=True)
-        from unit.checkpoint.common import compare_opt_state_dicts, compare_state_dicts,compare_optimizer_states
-        
-        compare_optimizer_states(model,  model2,   preferred_dtype())
-       
-
-
-
-      
-        
+        from unit.checkpoint.common import compare_lr_scheduler_states,compare_optimizer_states
+        is_fp16= (preferred_dtype()==torch.float16)
+        compare_optimizer_states(model,  model2, 0,  fp16=is_fp16)
+        compare_lr_scheduler_states(model, model2)
+        b=0
         
 class TestNorm(DistributedTest):
     

From e9802b08dd7a7fed893897ba54fa2ef5cfe1538a Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Thu, 12 Dec 2024 10:08:36 +0000
Subject: [PATCH 18/71] refine ut

---
 .../model_parallelism/test_autotp_training.py | 336 ++++++++----------
 tests/unit/simple_model.py                    |  21 +-
 2 files changed, 152 insertions(+), 205 deletions(-)

diff --git a/tests/unit/model_parallelism/test_autotp_training.py b/tests/unit/model_parallelism/test_autotp_training.py
index 4d3c58b8bc1e..399744604e7f 100644
--- a/tests/unit/model_parallelism/test_autotp_training.py
+++ b/tests/unit/model_parallelism/test_autotp_training.py
@@ -6,6 +6,7 @@
 import pytest
 import deepspeed.comm as dist
 import torch
+import math
 
 from unit.common import DistributedTest, preferred_dtype
 import deepspeed
@@ -24,6 +25,26 @@
 # test save model done 
 # test grad_norm  done , need to refine.
 # test compatibility with zero.etc.?
+# todo:add more batch_size/hidden_dim  test
+
+class SequentialLinearModel(torch.nn.Module):
+
+    def __init__(self, hidden_dim, empty_grad=False, nlayers=1):
+        super(SequentialLinearModel, self).__init__()
+        self.linears = torch.nn.ModuleList([torch.nn.Linear(hidden_dim, hidden_dim,bias=None) for i in range(nlayers)])
+        if empty_grad:
+            self.linear2 = torch.nn.Linear(hidden_dim, hidden_dim,bias=None)
+        self.cross_entropy_loss = torch.nn.CrossEntropyLoss()
+        self.empty_grad = empty_grad
+
+    def forward(self, x, y):
+        if len(self.linears) == 1:
+            x = self.linears[0](x)
+        else:
+            for i, l in enumerate(self.linears):
+                x = self.linears[i](x)
+        return self.cross_entropy_loss(x, y)
+
 
 @contextmanager
 def should_assert_with_msg(expected_message):
@@ -112,11 +133,20 @@ def test(self):
             dist.broadcast(batch[1],src=groups.get_tensor_model_parallel_src_rank(),group=groups.get_tensor_model_parallel_group())
             model(batch[0], batch[1])
 
-class TestTpLayerfwdandbwd(DistributedTest):
+def process_linear_layer(hidden_dim, input):
+    torch_linear = nn.Linear(hidden_dim, hidden_dim, dtype=preferred_dtype(), device="cpu", bias=None)
+    torch_out = torch_linear(input)
+    torch_loss = torch_out.sum()
+    torch_loss.backward()
+    torch_norm = torch.norm(torch_linear.weight.grad)
+    torch_linear.zero_grad()
+    return torch_linear, torch_out, torch_norm
+
+
+class TestTpLayerFwdBwd(DistributedTest):
     world_size = 4
     reuse_dist_env = True
-    
-    def test1(self):
+    def testRowParallel(self):
         tp_size=4
         hidden_dim = 128
         batch_size_per_device=1
@@ -139,19 +169,14 @@ def test1(self):
             config_dict["fp16"] = {"enabled": True}
         elif preferred_dtype() is torch.bfloat16:
             config_dict["bf16"] = {"enabled": True}
-
         torch.manual_seed(42)
-        model = SimpleModel(hidden_dim=hidden_dim)
+
+        model = SequentialLinearModel(hidden_dim=hidden_dim)
         model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
         input = torch.randn(batch_size_per_device, hidden_dim, dtype=preferred_dtype(), requires_grad=True,device="cpu")
 
-        torch_linear = nn.Linear(hidden_dim, hidden_dim, dtype=preferred_dtype(),device="cpu", bias=None)
-        torch_out = torch_linear(input)
-        torch_loss=torch_out.sum()
-        torch_loss.backward()
-        torch_norm =  torch.norm(torch_linear.weight.grad)
-        torch_linear.zero_grad()
-
+        torch_linear, torch_out, torch_norm = process_linear_layer(hidden_dim, input)
+        
         linear = LinearAllreduce(torch_linear, groups.get_tensor_model_parallel_group())
         input.to(get_accelerator().current_device())
         
@@ -163,9 +188,11 @@ def test1(self):
         norm_pow =norm**2
         dist.all_reduce(norm_pow,group=groups.get_tensor_model_parallel_group())
         norm=torch.sqrt(norm_pow)
+        
         assert torch.equal(norm, torch_norm.to(get_accelerator().current_device()))
-        assert torch.equal(out, torch_out.to(get_accelerator().current_device()))
-    def test2(self):
+        assert torch.allclose(out, torch_out.to(get_accelerator().current_device()),atol=1e-3)
+ 
+    def testColumnParallel(self):
         
         tp_size=4
         hidden_dim = 128
@@ -189,44 +216,36 @@ def test2(self):
             config_dict["fp16"] = {"enabled": True}
         elif preferred_dtype() is torch.bfloat16:
             config_dict["bf16"] = {"enabled": True}
-
         torch.manual_seed(42)
-        model = SimpleModel(hidden_dim=hidden_dim)
+
+        model = SequentialLinearModel(hidden_dim=hidden_dim)
         model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
         input = torch.randn(batch_size_per_device, hidden_dim, dtype=preferred_dtype(), requires_grad=True,device="cpu")
 
-        torch_linear = nn.Linear(hidden_dim, hidden_dim, dtype=preferred_dtype(),device="cpu", bias=None)
-        torch_out = torch_linear(input)
-        torch_loss=torch_out.sum()
-        torch_loss.backward()
-        torch_norm =  torch.norm(torch_linear.weight.grad)
-        torch_linear.zero_grad()
+        torch_linear, torch_out, torch_norm = process_linear_layer(hidden_dim, input)
         
         linear = LinearLayer(torch_linear, groups.get_tensor_model_parallel_group())
         
         out = linear(input.to(get_accelerator().current_device()))
-
         loss = out.sum()
         loss.backward()
         norm = torch.norm(linear.weight.grad)
         norm_pow =norm**2
         dist.all_reduce(norm_pow,group=groups.get_tensor_model_parallel_group())
         norm=torch.sqrt(norm_pow)   
-        assert torch.equal(norm, torch_norm.to(get_accelerator().current_device()))
         cur_device_out = torch.chunk(torch_out, tp_size, dim=-1)[groups.get_tensor_model_parallel_rank()]
-        
-        assert  torch.allclose(cur_device_out.to(get_accelerator().current_device()).contiguous(), out.contiguous(),atol=1e-6)
+        assert torch.equal(norm, torch_norm.to(get_accelerator().current_device()))
+        assert  torch.allclose(cur_device_out.to(get_accelerator().current_device()).contiguous(), out.contiguous(),atol=1e-3)
 
-class TestparamsGather(DistributedTest):
+class TestParamsGather(DistributedTest):
     world_size = 4
     reuse_dist_env = True
-    def test(self):
+    @pytest.mark.parametrize("layer_type", ["linear", "linearallreduce"])
+    def test(self, layer_type):
         tp_size=4
         hidden_dim = 128
-        batch_size_per_device=1
         config_dict = {
             "train_micro_batch_size_per_gpu": 1,
-            "steps_per_print": 1,
             "optimizer": {
                 "type": "Adam",
                 "params": {
@@ -245,55 +264,69 @@ def test(self):
             config_dict["bf16"] = {"enabled": True}
 
         torch.manual_seed(42)
-        model = SimpleModel(hidden_dim=hidden_dim)
+        model = SequentialLinearModel(hidden_dim=hidden_dim)
         model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
-        input = torch.randn(batch_size_per_device, hidden_dim, dtype=preferred_dtype(), requires_grad=True,device="cpu")
 
         torch_linear = nn.Linear(hidden_dim, hidden_dim, dtype=preferred_dtype(),device="cpu", bias=None)
-        total_params0 = sum(p.numel() for p in torch_linear.parameters())
+        total_params = sum(p.numel() for p in torch_linear.parameters())
 
-        
-        # TODO : make it to param
-        linear = None
-        type = "linearallreduce"
-        if type == "linear":
-            linear = LinearLayer(torch_linear, groups.get_tensor_model_parallel_group())
-        elif type == "linearallreduce":
-            linear = LinearAllreduce(torch_linear, groups.get_tensor_model_parallel_group())
+        tp_layer = None
+        if layer_type == "linear":
+            tp_layer = LinearLayer(torch_linear, groups.get_tensor_model_parallel_group())
+        elif layer_type == "linearallreduce":
+            tp_layer = LinearAllreduce(torch_linear, groups.get_tensor_model_parallel_group())
         else:
             raise ValueError(f"Invalid linear type: {config_dict['linear_type']}")
         
+        tp_params = sum(p.numel() for p in tp_layer.parameters())
         
-        params0 = sum(p.numel() for p in linear.parameters())
-        
-        assert total_params0//tp_size==params0
-        for name, param in linear.named_parameters(recurse=False):
+        assert total_params//tp_size==tp_params
+        for name, param in tp_layer.named_parameters(recurse=False):
             param.gather_params([param])
 
-        same_weights = all(torch.equal(param1, param2) 
-                   for param1, param2 in zip(linear.parameters(), torch_linear.parameters()))
+        is_same_weights = all(torch.equal(param1, param2) 
+                   for param1, param2 in zip(tp_layer.parameters(), torch_linear.parameters()))
         
-        assert same_weights
+        assert is_same_weights
          
-        params1 = sum(p.numel() for p in linear.parameters())
-        assert total_params0==params1
+        params1 = sum(p.numel() for p in tp_layer.parameters())
+        assert total_params==params1
 
-        for name, param in linear.named_parameters(recurse=False):
+        for name, param in tp_layer.named_parameters(recurse=False):
             param.partition([param])
         
-        params2 = sum(p.numel() for p in linear.parameters())
-
-        assert total_params0//tp_size==params2
-
-
+        tp_params2 = sum(p.numel() for p in tp_layer.parameters())
+
+        assert total_params//tp_size==tp_params2
+
+def dummy_init_engine(config):
+    # This is a dummy initialization function for the DeepSpeed engine.
+    # We only need to use the config to initialize the distributed settings for the test.
+    model = SequentialLinearModel(hidden_dim=8)
+    model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config)
+
+def prepare_tp_model(hidden_dim, nlayers, linear_indices, allreduce_indices, group, return_global_copy=False):
+    model = SequentialLinearModel(hidden_dim=hidden_dim, nlayers=nlayers).to(preferred_dtype())
+    base_model=None
+    from copy import deepcopy
+    if return_global_copy:
+        base_model = deepcopy(model)
+    for i in linear_indices:
+        layer = LinearLayer(model.linears[i], group)
+        model.linears[i] = layer
+    
+    for i in allreduce_indices:
+        layer = LinearAllreduce(model.linears[i], group)
+        model.linears[i] = layer
+    
+    return model, base_model
 class TestSave(DistributedTest):
-        
+    
     world_size = 4
     reuse_dist_env = True
-    def test(self):
+    def test_save_original_weight(self):
         tp_size=4
         hidden_dim = 64
-        batch_size_per_device=1
         config_dict = {
             "train_micro_batch_size_per_gpu": 1,
             "steps_per_print": 1,
@@ -306,37 +339,20 @@ def test(self):
             "zero_optimization": {
                 "stage": 0,
                 "autotp_size":tp_size
-          
             }
         }
         if preferred_dtype() is torch.float16:
             config_dict["fp16"] = {"enabled": True}
         elif preferred_dtype() is torch.bfloat16:
             config_dict["bf16"] = {"enabled": True}
-
+        dummy_init_engine(config_dict)
         torch.manual_seed(42)
-        model = SimpleModel(hidden_dim=hidden_dim , nlayers=8)
-        from copy import deepcopy
-        base = deepcopy(model)
-
-        modelt = SimpleModel(hidden_dim=hidden_dim)
-        modelt, _, _, _ = deepspeed.initialize(model=modelt, model_parameters=modelt.parameters(), config=config_dict)
-        #2,3   5,6 
         
-
-        for i in ([2,5]):
-            model.linears[i]=LinearLayer(model.linears[i], groups.get_tensor_model_parallel_group())
-
-        for i in ([3,6]):
-            model.linears[i]=LinearAllreduce(model.linears[i], groups.get_tensor_model_parallel_group())
-
-        del modelt
-
+        model, base_model=prepare_tp_model(hidden_dim, 8, [2,5], [3,6], groups.get_tensor_model_parallel_group(),return_global_copy=True)
         model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
 
-        
         cur_params_numel = sum(p.numel() for p in model.parameters())
-        base_params_numel =  sum(p.numel() for p in base.parameters())
+        base_params_numel =  sum(p.numel() for p in base_model.parameters())
         assert cur_params_numel<base_params_numel
         
         tp_state_dict = model._consolidated_16bit_state_dict()
@@ -346,19 +362,22 @@ def compare_state_dicts(state_dict1, state_dict2):
                 return False
             
             for key in state_dict1:
-                if not torch.equal(state_dict1[key], state_dict2[key]):
+                if not torch.allclose(state_dict1[key], state_dict2[key],atol=1e-3):
+                    assert state_dict1[key].device=="cpu"
                     print(f"Parameters for {key} are different!")
                     return False
             
             return True
-        base_state_dict = base.state_dict()
-        
-        assert(base_state_dict, tp_state_dict)
-    
+        base_state_dict = base_model.state_dict()
+        if dist.get_rank()==0:
+        # we should consider the case when zero3 is used in the future.
+            assert compare_state_dicts(base_state_dict, tp_state_dict), f"State_dict is not the same!"
+        else:
+            assert tp_state_dict is None, f"noly rank0 should have the state_dict"
+      
     def test_ckpt_save(self):    
         tp_size=4
         hidden_dim = 64
-        batch_size_per_device=1
         config_dict = {
             "train_micro_batch_size_per_gpu": 1,
             "steps_per_print": 1,
@@ -388,60 +407,41 @@ def test_ckpt_save(self):
         elif preferred_dtype() is torch.bfloat16:
             config_dict["bf16"] = {"enabled": True}
 
-        # for group
-        modelt = SimpleModel(hidden_dim=hidden_dim)
-        modelt, optimizer, _, _ = deepspeed.initialize(model=modelt, model_parameters=modelt.parameters(), config=config_dict)
-        
-        
-        model = SimpleModel(hidden_dim=hidden_dim , nlayers=8)
-        model2 = SimpleModel(hidden_dim=hidden_dim , nlayers=8)
-        
-        for i in ([2,5]):
-            model.linears[i]=LinearLayer(model.linears[i], groups.get_tensor_model_parallel_group())
-            model2.linears[i]=LinearLayer(model2.linears[i], groups.get_tensor_model_parallel_group())
-        for i in ([3,6]):
-            model.linears[i]=LinearAllreduce(model.linears[i], groups.get_tensor_model_parallel_group())
-            model2.linears[i]=LinearAllreduce(model2.linears[i], groups.get_tensor_model_parallel_group())
-
-        model,_,_,_= deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
+        dummy_init_engine(config_dict)
+
+        trained_model, _=prepare_tp_model(hidden_dim, 8, [2,5], [3,6], groups.get_tensor_model_parallel_group())
+        loaded_model, _=prepare_tp_model(hidden_dim, 8, [2,5], [3,6], groups.get_tensor_model_parallel_group())
+
+        trained_model,_,_,_= deepspeed.initialize(model=trained_model, model_parameters=trained_model.parameters(), config=config_dict)
         torch.manual_seed(42)
 
-        data_loader = random_dataloader(model=model,
+        data_loader = random_dataloader(model=trained_model,
                                 total_samples=3,
                                 hidden_dim=hidden_dim,
-                                device=model.device,
+                                device=trained_model.device,
                                 dtype=preferred_dtype())
-        test_batch=None
         ckpt_path = "./test_ckpt/"
         for i, batch in enumerate(data_loader):
             batch[0].requires_grad = True
-            loss = model(batch[0], batch[1])
+            loss = trained_model(batch[0], batch[1])
             loss = loss
-            model.backward(loss)
-            model.step()
-        model.save_checkpoint(ckpt_path)
-     
-
-            
-  
-        # base_loss = model(test_batch[0],test_batch[1])
-        
-        model2,_,_,_ = deepspeed.initialize(model=model2, model_parameters=model2.parameters(),config=config_dict)
-        model2.load_checkpoint(ckpt_path,load_optimizer_states=True,load_lr_scheduler_states=True)
+            trained_model.backward(loss)
+            trained_model.step()
+        trained_model.save_checkpoint(ckpt_path)
+                 
+        loaded_model,_,_,_ = deepspeed.initialize(model=loaded_model, model_parameters=loaded_model.parameters(),config=config_dict)
+        loaded_model.load_checkpoint(ckpt_path,load_optimizer_states=True,load_lr_scheduler_states=True)
         from unit.checkpoint.common import compare_lr_scheduler_states,compare_optimizer_states
-        is_fp16= (preferred_dtype()==torch.float16)
-        compare_optimizer_states(model,  model2, 0,  fp16=is_fp16)
-        compare_lr_scheduler_states(model, model2)
-        b=0
+        compare_optimizer_states(trained_model,  loaded_model, hidden_dim,  fp16=(preferred_dtype()==torch.float16))
+        compare_lr_scheduler_states(trained_model, loaded_model)
         
-class TestNorm(DistributedTest):
+class TestTpGradNorm(DistributedTest):
     
     world_size = 4
     reuse_dist_env = True
     def test(self):
         tp_size=4
         hidden_dim = 64
-        batch_size_per_device=1
         config_dict = {
             "train_micro_batch_size_per_gpu": 1,
             "steps_per_print": 1,
@@ -452,9 +452,8 @@ def test(self):
                 }
             },
             "zero_optimization": {
-                "stage": 0,
-                "autotp_size":tp_size
-          
+                "stage": 0,  
+                "autotp_size":4  
             }
         }
         if preferred_dtype() is torch.float16:
@@ -463,75 +462,40 @@ def test(self):
             config_dict["bf16"] = {"enabled": True}
 
         torch.manual_seed(42)
-        model_base = SimpleModel(hidden_dim=hidden_dim , nlayers=8)
-        from copy import deepcopy
-
-        model_base, optimizer ,_,_ = deepspeed.initialize(model=model_base, model_parameters=model_base.parameters(), config=config_dict)
-
-        data_loader = random_dataloader(model=model_base,
+    
+        dummy_init_engine(config=config_dict)
+        tp_model,base_model = prepare_tp_model(hidden_dim, 8, [2,5], [3,6], groups.get_tensor_model_parallel_group(),return_global_copy=True)
+        
+        base_model, base_optimizer, _, _ = deepspeed.initialize(model=base_model, model_parameters=base_model.parameters(), config=config_dict)
+        data_loader = random_dataloader(model=base_model,
                                 total_samples=2,
                                 hidden_dim=hidden_dim,
-                                device=model_base.device,
+                                device=base_model.device,
                                 dtype=preferred_dtype())
-
-        for i, batch in enumerate(data_loader):
-            batch[0].requires_grad = True
-            loss = model_base(batch[0], batch[1])
-            loss = loss
-            model_base.backward(loss)
-            optimizer.step()
-            
+        with base_model.no_sync():
+            # duplicate each rank training.
+            for i, batch in enumerate(data_loader):
+                batch[0].requires_grad = True
+                loss = base_model(batch[0], batch[1])
+                loss = loss
+                base_model.backward(loss)
+                base_model.step()
             
-    
-        grad_norm_base =  optimizer._global_grad_norm
-
-        torch.manual_seed(42)
-
-                
-                
-        modelt = SimpleModel(hidden_dim=hidden_dim)
-        modelt, optimizer, _, _ = deepspeed.initialize(model=modelt, model_parameters=modelt.parameters(), config=config_dict)
-        #2,3   5,6 
+        base_norm =  base_optimizer._global_grad_norm
         
-        model = SimpleModel(hidden_dim=hidden_dim , nlayers=8)
-
-        
-
-        for i in ([2,5]):
-            model.linears[i]=LinearLayer(model.linears[i], groups.get_tensor_model_parallel_group())
-
-        for i in ([3,6]):
-            model.linears[i]=LinearAllreduce(model.linears[i], groups.get_tensor_model_parallel_group())
-
-
-        for param in model.parameters():
-            if param.grad is not None:
-                param.grad.data.fill_(0.01)
-        model, optimizer, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
-
-
+        base_model.destroy()
         
+        tp_model, tp_optimizer, _, _ = deepspeed.initialize(model=tp_model, model_parameters=tp_model.parameters(), config=config_dict)
         for i, batch in enumerate(data_loader):
             batch[0].requires_grad = True
-            loss = model(batch[0], batch[1])
+            loss = tp_model(batch[0], batch[1])
             loss = loss
-            model.backward(loss)
-            optimizer.step()
-
-        
-        # optimizer.step()
-        norm = optimizer._global_grad_norm
-        
-
-        norm_diff_percent = abs(norm - grad_norm_base) / grad_norm_base * 100
-        assert norm_diff_percent<5
-        cur_params_numel = sum(p.numel() for p in model.parameters())
-        base_params_numel =  sum(p.numel() for p in model_base.parameters())
-        assert cur_params_numel<base_params_numel
-        
-       
-
-    
-        
+            tp_model.backward(loss)
+            tp_model.step()
 
+        tp_norm = tp_optimizer._global_grad_norm
         
+        assert math.isclose(base_norm,tp_norm,abs_tol=1e-3)
+        tp_params_numel = sum(p.numel() for p in tp_model.parameters())
+        base_params_numel =  sum(p.numel() for p in base_model.parameters())
+        assert tp_params_numel<base_params_numel
diff --git a/tests/unit/simple_model.py b/tests/unit/simple_model.py
index 023876f9ae7c..5df1b88ed15e 100644
--- a/tests/unit/simple_model.py
+++ b/tests/unit/simple_model.py
@@ -17,24 +17,6 @@
 from .common import preferred_dtype
 
 
-# class SimpleModel(torch.nn.Module):
-
-#     def __init__(self, hidden_dim, empty_grad=False, nlayers=1):
-#         super(SimpleModel, self).__init__()
-#         self.linears = torch.nn.ModuleList([torch.nn.Linear(hidden_dim, hidden_dim,bias=None) for i in range(nlayers)])
-#         if empty_grad:
-#             self.linear2 = torch.nn.Linear(hidden_dim, hidden_dim,bias=None)
-#         self.cross_entropy_loss = torch.nn.CrossEntropyLoss()
-#         self.empty_grad = empty_grad
-
-#     def forward(self, x, y):
-#         if len(self.linears) == 1:
-#             x = self.linears[0](x)
-#         else:
-#             for i, l in enumerate(self.linears):
-#                 x = self.linears[i // 2](x) + l(x)
-#         return self.cross_entropy_loss(x, y)
-
 class SimpleModel(torch.nn.Module):
 
     def __init__(self, hidden_dim, empty_grad=False, nlayers=1):
@@ -50,8 +32,9 @@ def forward(self, x, y):
             x = self.linears[0](x)
         else:
             for i, l in enumerate(self.linears):
-                x = self.linears[i](x)
+                x = self.linears[i // 2](x) + l(x)
         return self.cross_entropy_loss(x, y)
+
     
 class SimpleFrozenModel(torch.nn.Module):
 

From 88b8acf9fc1c22469f104efbe9303fcb47b216ae Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Sun, 15 Dec 2024 03:42:48 +0000
Subject: [PATCH 19/71] fix bcast_objlist

---
 deepspeed/comm/comm.py      | 1 +
 deepspeed/comm/torch.py     | 2 +-
 deepspeed/runtime/engine.py | 5 +++--
 3 files changed, 5 insertions(+), 3 deletions(-)

diff --git a/deepspeed/comm/comm.py b/deepspeed/comm/comm.py
index a51c250f7adf..cb176ba43d9a 100755
--- a/deepspeed/comm/comm.py
+++ b/deepspeed/comm/comm.py
@@ -228,6 +228,7 @@ def broadcast_object_list(object_list, src, group=None, device=None):
     global cdb
     return cdb.broadcast_object_list(object_list=object_list, src=src, group=group, device=device)
 
+
 @timed_op
 def all_gather(tensor_list,
                tensor,
diff --git a/deepspeed/comm/torch.py b/deepspeed/comm/torch.py
index 2bb565233362..fa87f0da2a3f 100755
--- a/deepspeed/comm/torch.py
+++ b/deepspeed/comm/torch.py
@@ -200,7 +200,7 @@ def broadcast(self, tensor, src, group=None, async_op=False):
             return torch.distributed.broadcast(tensor=tensor, src=src, group=group, async_op=async_op)
 
     @compiler.disable
-    def broadcast_object_list(object_list, src, group=None, device=None):
+    def broadcast_object_list(self, object_list, src, group=None, device=None):
         return torch.distributed.broadcast_object_list(object_list=object_list, src=src, group=group, device=device)
     
     @compiler.disable
diff --git a/deepspeed/runtime/engine.py b/deepspeed/runtime/engine.py
index 880638a1ef06..09f7dc289a12 100755
--- a/deepspeed/runtime/engine.py
+++ b/deepspeed/runtime/engine.py
@@ -445,12 +445,13 @@ def broadcast_and_check(args, bcast_rank, bcast_group):
                 if len(args) >0:
                     if self.mpu.get_tensor_model_parallel_rank()==0:
                         _src_args=[args]
-                        torch.distributed.broadcast_object_list(object_list=_src_args, src=bcast_rank, group=bcast_group, device=get_accelerator().current_device())
+                        dist.broadcast_object_list(object_list=_src_args, src=bcast_rank, group=bcast_group, device=get_accelerator().current_device())
                         # Rank 0 does not need to compare with itself
                         is_equal=True
                     else:
                         _src_args=[None]
-                        torch.distributed.broadcast_object_list(object_list=_src_args, src=bcast_rank, group=bcast_group, device=get_accelerator().current_device())
+                        dist.broadcast_object_list(object_list=_src_args, src=bcast_rank, group=bcast_group, device=get_accelerator().current_device())
+
                         print(f"RANK[{dist.get_rank()}],bcast finished")
                         is_equal=compare_tensors_in_structures(args, _src_args[0])
                         

From 868be0b2af37144b44bc61869ce3cd39cfb31037 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Sun, 15 Dec 2024 04:38:24 +0000
Subject: [PATCH 20/71] refine layers.py

---
 deepspeed/module_inject/layers.py | 106 +++++++++++++++++++++++-------
 1 file changed, 82 insertions(+), 24 deletions(-)

diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index b68abfae6881..cd518114d7b8 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -11,7 +11,7 @@
 from deepspeed.accelerator import get_accelerator
 from deepspeed.module_inject.tp_shard import get_shard_size, get_shard_size_list
 from abc import ABC, abstractmethod
-from typing import Iterable
+from typing import Iterable, Any, Optional, List
 from deepspeed.utils import groups
 from .fusedqkv_utils import shard_value_with_share_qk, shard_chunk_mlp, prepare_tp_fused_qkvw
 
@@ -26,70 +26,128 @@ def move(tensor, device):
         # Otherwise to() will not create a new copy for the view of the full tensor, and it will not be de-referenced.
         return tensor.to(device, copy=True)
 class RowParallel(torch.autograd.Function):
-
+    """
+    A custom autograd function for performing row-wise parallelism.
+    """
+    @staticmethod
+    def symbolic(graph, input):
+        """Symbolic function for tracing."""
+        return input
+    
     @staticmethod
-    def forward(ctx, group: dist.ProcessGroup, input_):
+    def forward(ctx: Any, group: dist.ProcessGroup, input: torch.Tensor)-> torch.Tensor:
+        """
+        Forward pass.
+        """
         ctx.group = group
         if group == None:
-            return input_
+            return input
         # for debug ,will apply dist.inference_all_reduce
-        dist.all_reduce(input_, group=group)
-        return input_
+        dist.all_reduce(input.contiguous(), group=group)
+        return input
 
     @staticmethod
-    def backward(ctx, grad_output):
-
+    def backward(ctx:Any, grad_output: torch.Tensor)-> tuple[None, torch.Tensor]:
+        """
+        Backward pass.
+        """
         return None, grad_output
 
 
 class ColumnParallel(torch.autograd.Function):
-
+    """
+    Custom autograd function for column-wise parallelism.
+    """
     @staticmethod
-    def forward(ctx, group, input_):
+    def symbolic(graph, input):
+        """Symbolic function for tracing."""
+        return dist.all_reduce(input.contiguous(), dist.get_tensor_model_parallel_group())
+    
+    @staticmethod
+    def forward(ctx: Any, group: dist.ProcessGroup, input: torch.Tensor)-> torch.Tensor:
+        """
+        Forward pass.
+        """
         ctx.group = group
-        return input_
+        return input
 
     @staticmethod
-    def backward(ctx, grad_output):
-
+    def backward(ctx: Any, grad_output: torch.Tensor)-> tuple[None, torch.Tensor]:
+        """
+        Backward pass.
+        """
         if ctx.group == None:
             return None, grad_output
         # for debug ,will apply dist.inference_all_reduce
-        dist.all_reduce(grad_output, group=ctx.group)
+        dist.all_reduce(grad_output.contiguous(), group=ctx.group)
         return None, grad_output
 
 
-#Parent class handling common logic
 class Replaced_Layer(nn.Module, ABC):
+    """
+    A base class for model layers with  tensor parallelism support. 
+    This class is designed to be extended by specific layers that require distributed 
+    operations and parameter gather/partitioning during inference or training.
+
+    Attributes:
+        mode (str): The mode of operation[INFERENCE or Training], default is "INFERENCE".
+        mp_group (Optional[dist.ProcessGroup]): The process group used for model parallelism.
+        tp_world_sz (int): The world size of tensor parallelism, i.e., the number of parallel workers.
+        tp_index (int): The rank (ID) of the current worker in tensor parallelism.
+        support_training (bool): Flag indicating whether the layer supports training (default: False).
+        name (Optional[str]): The name of the layer, if provided.
+    """
+    
     mode = "INFERENCE" 
-    def __init__(self, mp_group, name=None):
+    def __init__(self, mp_group: Optional[dist.ProcessGroup], name: Optional[str] = None):
+        """
+        Initializes the Replaced_Layer with optional model parallelism group and layer name.
+        
+        Args:
+            mp_group (Optional[dist.ProcessGroup]): The process group for model parallelism. 
+                                                    If None, no model parallelism is set.
+            name (Optional[str]): The optional name for the layer.
+        """
         super().__init__()
-        self.support_training = False
+        self.support_training: bool = False
         if mp_group is not None:
             self.mp_group = mp_group
-            self.tp_world_sz = dist.get_world_size(self.mp_group)
-            self.tp_index = dist.get_rank(mp_group)
+            self.tp_world_sz: int  = dist.get_world_size(self.mp_group)
+            self.tp_index: int  = dist.get_rank(mp_group)
         if name is not None:
-            self.name=name
+            self.name=name # Set the layer name if provided.
     @abstractmethod
     def forward(self, input):
         """
-        Forward pass method. Must be implemented by subclasses.
+        Forward pass method. Must be implemented by subclasses to define layer-specific operations.
         """
         pass
 
     @abstractmethod
     def gather_params(self, params_list):
+        """
+        Gathers parameters across devices for distributed training. Must be implemented by subclasses in "TRAINING" mode.
+        """
         pass
 
-    def partition(self, params_list, move_to_device=False):
+    def partition(self, params_list:List[torch.Tensor], move_to_device:bool=False):
+        """
+        Partitions the parameters for tensor parallelism. 
+        """
+        
         for idx, param in enumerate(params_list):
             params_list[idx].data = param.data_partition
             del param.data_partition
 
-        # for param in params_list:
-        #     param.data=torch.empty(0, dtype=param.dtype, device=param.device)
     def config_tp_training(self, weight):
+        """
+        Configures the weight tensor for training with tensor parallelism. This includes enabling gradients 
+        and associating necessary methods for parameter gathering and partitioning.
+
+        Args:
+            weight (Optional[torch.Tensor]): The weight tensor to configure for tensor parallelism. 
+                                              If None, no action is taken.
+        """
         assert self.support_training, "No implementation of backward."
         if weight is not None:
             weight.requires_grad = True

From 3788e078e50f32eb1004b8ceb131f26dd60447ec Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Sun, 15 Dec 2024 04:48:44 +0000
Subject: [PATCH 21/71] refine gather

---
 deepspeed/module_inject/layers.py | 65 +++++++++++++++++++++++--------
 1 file changed, 49 insertions(+), 16 deletions(-)

diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index cd518114d7b8..e8ecfa7ae3a5 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -135,9 +135,9 @@ def partition(self, params_list:List[torch.Tensor], move_to_device:bool=False):
         Partitions the parameters for tensor parallelism. 
         """
         
-        for idx, param in enumerate(params_list):
-            params_list[idx].data = param.data_partition
-            del param.data_partition
+        # for idx, param in enumerate(params_list):
+        #     params_list[idx].data = param.data_partition
+        #     del param.data_partition
 
     def config_tp_training(self, weight):
         """
@@ -159,34 +159,59 @@ def config_tp_training(self, weight):
 
 class GatherReplacedLayerParams:
 
-    def __init__(self, params, module, enabled=True):
+    """
+    A context manager for gathering parameters of a replaced layer, enabling partitioning and gathering functionality
+    based on the configuration of the model. 
+    """
+    def __init__(self, params:Iterable[torch.Tensor] | torch.Tensor, module: torch.nn.Module, enabled: bool=True):
+        """
+        Initialize the context manager to handle parameter gathering and partitioning for a replaced layer.
+
+        Args:
+            params (Iterable or torch.Tensor): A collection or single parameter to manage.
+            module (torch.nn.Module): The module that these parameters belong to.
+            enabled (bool): Flag indicating whether the parameter management is enabled (default: True).
+        """
         self.enabled = enabled
         self.module = module
         if not enabled:
             return
+        
+        # Ensure params is a list, whether it's a single param or iterable (e.g., model.parameters())
         if isinstance(params, Iterable) and not isinstance(params, torch.Tensor):
-            # deal with generators like model.parameters()
-            # must convert to list to be able to iterate more than once if we get a generator
-            params = list(params)
+            self.params: List[torch.Tensor] = list(params) # Convert generators to a list for multiple iterations
         else:
-            # single param
-            params = [params]
+            self.params: List[torch.Tensor] = [params] # Wrap single parameter in a list for uniform processing
 
-        self.params = params
 
+        # Check if the parameters belong to a replaced layer (indicated by a specific attribute)
         if not any(self._is_replaced_module_weight(p) for p in params):
             self.enabled = False
             return
 
-    def _is_replaced_module_weight(self, param):
-        return getattr(param, 'ds_is_preleace_module', False)
+    def _is_replaced_module_weight(self, param: torch.Tensor)-> bool:
+        """
+        Helper function to determine if a parameter belongs to a replaced module.
 
-    def __enter__(self):
+        Args:
+            param (torch.Tensor): The parameter to check.
+        
+        Returns:
+            bool: True if the parameter belongs to a replaced module, False otherwise.
+        """
+        return getattr(param, 'ds_is_preleace_module', False)
 
+    def __enter__(self)-> None:
+        """
+        Enter the context manager. If enabled, gather parameters for the replaced module.
+        """
         if self.enabled:
             self.params[0].gather_params(self.params)
 
-    def __exit__(self, exc_type, exc_value, traceback):
+    def __exit__(self, exc_type, exc_value, traceback)-> None:
+        """
+        Exit the context manager. If enabled, partition the parameters for the replaced module.
+        """
         #TODO : Check whether there are any missing attributes.
         if self.enabled:
             self.params[0].partition(self.params)
@@ -211,7 +236,7 @@ def forward(self, input):
         if self.bias is not None:
             output += self.bias
         return output
-
+    @torch.no_grad()
     def gather_params(self, params_list):
 
         for idx, param in enumerate(params_list):
@@ -224,6 +249,7 @@ def gather_params(self, params_list):
             dist.all_gather_into_tensor(output_param, param, group=self.mp_group)
             params_list[idx].data = output_param.transpose(0, 1).contiguous()
         return
+    @torch.no_grad()
     def partition(self, params_list, move_to_device=False):
         for idx, param in enumerate(params_list):
             if param is None:
@@ -257,7 +283,7 @@ def forward(self, input):
         if self.bias is not None:
             output += self.bias
         return output
-
+    @torch.no_grad()
     def gather_params(self, params_list):
 
         for idx, param in enumerate(params_list):
@@ -271,6 +297,7 @@ def gather_params(self, params_list):
                                        device=param.device)
             dist.all_gather_into_tensor(output_param, param, group=self.mp_group)
             params_list[idx].data = output_param.contiguous()
+    @torch.no_grad()
     def partition(self, params_list, move_to_device=False):
         
         for idx, param in enumerate(params_list):
@@ -302,6 +329,7 @@ def from_weights(cls, weight_shape=None, dtype=torch.half, weight=None, bias=Non
         
 
 class fused_LinearLayer(LinearLayer):
+    @torch.no_grad()
     def partition(self, params_list, move_to_device=False): 
         def prepare_tp_fused_qkvw(module, src, mp_size, gpu_index):
             
@@ -316,6 +344,7 @@ def prepare_tp_fused_qkvw(module, src, mp_size, gpu_index):
             params_list[idx].data = _partition
 
 class conv_LinearLayer(LinearLayer):
+    @torch.no_grad()
     def partition(self, params_list, move_to_device=False):
         weight = None
         bias = None
@@ -368,18 +397,22 @@ def forward(self, input):
 
 #override the subclasses related to weight splitting.
 def Yuan_LinearALlreduce(LinearAllreduce):
+    @torch.no_grad()
     def partition(self, params_list, move_to_device=False):
         params_list[0], params_list[1]=shard_value_with_share_qk(params_list[0],params_list[1],self.tp_world_size, self.tp_index, False)
 
 def Yuan_LinearLayer(LinearLayer):
+    @torch.no_grad()
     def partition(self, params_list, move_to_device=False):
         params_list[0], params_list[1]=shard_value_with_share_qk(params_list[0],params_list[1],self.tp_world_size, self.tp_index, False)
 
 def GLM_LinearLayer(LinearLayer):
+    @torch.no_grad()
     def partition(self, params_list, move_to_device=False):
         params_list[0], params_list[1]=shard_chunk_mlp(params_list[0],params_list[1],self.tp_world_size, self.tp_index, False)
 
 def Conv_LinearALlreduce(LinearALlreduce):
+    @torch.no_grad()
     def partition(self, params_list, move_to_device=False):            
         for idx, param in enumerate(params_list):
             if param is None:

From 27b24f6ae3b4d031b05b03e3d65ce6e0a4044ad6 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Mon, 16 Dec 2024 06:59:04 +0000
Subject: [PATCH 22/71] pass codegen350M +TP2 ut

---
 deepspeed/module_inject/auto_tp.py        |  3 +--
 deepspeed/module_inject/fusedqkv_utils.py |  4 +--
 deepspeed/module_inject/layers.py         | 30 ++++++++++++-----------
 3 files changed, 19 insertions(+), 18 deletions(-)

diff --git a/deepspeed/module_inject/auto_tp.py b/deepspeed/module_inject/auto_tp.py
index 6c936e2bd03b..ea74a2b259a4 100755
--- a/deepspeed/module_inject/auto_tp.py
+++ b/deepspeed/module_inject/auto_tp.py
@@ -366,8 +366,7 @@ def _replace(self, child, name, conv_linear_layer):
                 conv_LinearLayer(child, self.mp_group)
             elif require_tp_fused_qkvw(name, self.mp_size):
                 #Check and handle fused qkv for TP
-                #The copy is a regular copy, The shape of dst and src is the same
-                return fused_LinearLayer(child, self.mp_group, str(self.module).strip())
+                return fused_LinearLayer(child,self.mp_group,fused_module=self.module)
             
             return LinearLayer(child, self.mp_group)
 
diff --git a/deepspeed/module_inject/fusedqkv_utils.py b/deepspeed/module_inject/fusedqkv_utils.py
index 3f16348f0e3a..0609c6001dd2 100644
--- a/deepspeed/module_inject/fusedqkv_utils.py
+++ b/deepspeed/module_inject/fusedqkv_utils.py
@@ -26,9 +26,9 @@ def require_tp_fused_qkvw(name, mp_size):
     return False
 
 
-def prepare_tp_fused_qkvw(name, src, mp_size, gpu_index):
+def prepare_tp_fused_qkvw(module, src, mp_size, gpu_index):
 
-    module_str = name
+    module_str = str(module).strip()
     if src is None:
         return
     fused_type_dict = {
diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index e8ecfa7ae3a5..ef0d536ce4fb 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -106,7 +106,7 @@ def __init__(self, mp_group: Optional[dist.ProcessGroup], name: Optional[str] =
         Args:
             mp_group (Optional[dist.ProcessGroup]): The process group for model parallelism. 
                                                     If None, no model parallelism is set.
-            name (Optional[str]): The optional name for the layer.
+            name (Optional[str]): The optional name for the layer.        
         """
         super().__init__()
         self.support_training: bool = False
@@ -240,6 +240,9 @@ def forward(self, input):
     def gather_params(self, params_list):
 
         for idx, param in enumerate(params_list):
+            if param is None or idx>0:
+                # don't gather bias
+                return
             params_list[idx].data_partition = param.data
             param = param.transpose(0, 1).contiguous()
             output_param = torch.empty(self.tp_world_sz * param.shape[0],
@@ -252,9 +255,10 @@ def gather_params(self, params_list):
     @torch.no_grad()
     def partition(self, params_list, move_to_device=False):
         for idx, param in enumerate(params_list):
-            if param is None:
+            if param is None or idx>0:
+                # don't slipt bias
                 return 
-            _partition=torch.chunk(param, self.tp_world_sz, dim=1)[self.tp_index]
+            _partition=torch.chunk(param, self.tp_world_sz, dim=-1)[self.tp_index]
 
             if move_to_device:
                 partition=move(_partition, get_accelerator().current_device()).detach()
@@ -265,12 +269,12 @@ def partition(self, params_list, move_to_device=False):
 
 class LinearLayer(Replaced_Layer):
 
-    def __init__(self, module, mp_group, name=None, skip_partition=False):
-        super(LinearLayer, self).__init__(mp_group, name)
+    def __init__(self, module, mp_group , name=None, skip_partition=False, **kwargs):
+        super(LinearLayer, self).__init__(mp_group)
         self.weight = module.weight
         self.bias = module.bias
         if not skip_partition:
-            self.partition([self.weight, self.bias], move_to_device=True)
+            self.partition([self.weight, self.bias], move_to_device=True, **kwargs)
         self.support_training = True
         self.config_tp_training(self.weight)
         if self.bias is not None:
@@ -298,7 +302,7 @@ def gather_params(self, params_list):
             dist.all_gather_into_tensor(output_param, param, group=self.mp_group)
             params_list[idx].data = output_param.contiguous()
     @torch.no_grad()
-    def partition(self, params_list, move_to_device=False):
+    def partition(self, params_list, move_to_device=False, **kwargs):
         
         for idx, param in enumerate(params_list):
             if param is None:
@@ -330,13 +334,11 @@ def from_weights(cls, weight_shape=None, dtype=torch.half, weight=None, bias=Non
 
 class fused_LinearLayer(LinearLayer):
     @torch.no_grad()
-    def partition(self, params_list, move_to_device=False): 
-        def prepare_tp_fused_qkvw(module, src, mp_size, gpu_index):
-            
-            for idx, param in params_list:
-                if param is None:
-                    return 
-                _partition=prepare_tp_fused_qkvw(self.name, param, self.tp_world_sz, self.tp_index )
+    def partition(self, params_list, move_to_device=False, **kwargs): 
+        for idx, param in enumerate(params_list):
+            if param is None:
+                return 
+            _partition=prepare_tp_fused_qkvw(kwargs.get('fused_module'), param, self.tp_world_sz, self.tp_index )
             if move_to_device:
                 partition=move(_partition, get_accelerator().current_device()).detach()
                 del _partition

From 3d7b89f390e0d2f6a58c44fa3090bbfcf5c3dfee Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Mon, 16 Dec 2024 07:26:21 +0000
Subject: [PATCH 23/71] add mode choice

---
 deepspeed/__init__.py             |  7 ++++++-
 deepspeed/inference/config.py     |  3 +++
 deepspeed/module_inject/layers.py | 16 ++++++++++++----
 3 files changed, 21 insertions(+), 5 deletions(-)

diff --git a/deepspeed/__init__.py b/deepspeed/__init__.py
index a8d15cd5332b..f918c03d9916 100755
--- a/deepspeed/__init__.py
+++ b/deepspeed/__init__.py
@@ -32,7 +32,7 @@
 from .runtime.hybrid_engine import DeepSpeedHybridEngine
 from .runtime.pipe.engine import PipelineEngine
 from .inference.engine import InferenceEngine
-from .inference.config import DeepSpeedInferenceConfig
+from .inference.config import DeepSpeedInferenceConfig, AUTOTP_MODE
 from .runtime.lr_schedules import add_tuning_arguments
 from .runtime.config import DeepSpeedConfig, DeepSpeedConfigError
 from .runtime.activation_checkpointing import checkpointing
@@ -364,3 +364,8 @@ def init_inference(model, config=None, **kwargs):
     engine = InferenceEngine(model, config=ds_inference_config)
 
     return engine
+
+def tp_model_training_init(model,tp_size, dtype):
+    global DEEPSPEED_AUTOTP_MODE
+    DEEPSPEED_AUTOTP_MODE =AUTOTP_MODE.TRAINING
+    model=init_inference(model=model, mp_size=tp_size, dtype=dtype, replace_with_kernel_inject=False).module
\ No newline at end of file
diff --git a/deepspeed/inference/config.py b/deepspeed/inference/config.py
index c7c7684fff79..11e601d7b709 100644
--- a/deepspeed/inference/config.py
+++ b/deepspeed/inference/config.py
@@ -30,6 +30,9 @@ class MoETypeEnum(str, Enum):
     residual = "residual"
     standard = "standard"
 
+class AUTOTP_MODE(Enum):
+    TRAINING = "TRAINING"
+    INFERENCE = "INFERENCE"
 
 class DeepSpeedTPConfig(DeepSpeedConfigModel):
     """ Configure tensor parallelism settings """
diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index ef0d536ce4fb..a49152f3b87a 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -14,6 +14,8 @@
 from typing import Iterable, Any, Optional, List
 from deepspeed.utils import groups
 from .fusedqkv_utils import shard_value_with_share_qk, shard_chunk_mlp, prepare_tp_fused_qkvw
+from deepspeed.inference.config import AUTOTP_MODE
+DEEPSPEED_AUTOTP_MODE=AUTOTP_MODE.INFERENCE
 
 def move(tensor, device):
     #TODO: the data parallelism (DP) is greater than 2,
@@ -98,7 +100,6 @@ class Replaced_Layer(nn.Module, ABC):
         name (Optional[str]): The name of the layer, if provided.
     """
     
-    mode = "INFERENCE" 
     def __init__(self, mp_group: Optional[dist.ProcessGroup], name: Optional[str] = None):
         """
         Initializes the Replaced_Layer with optional model parallelism group and layer name.
@@ -148,14 +149,21 @@ def config_tp_training(self, weight):
             weight (Optional[torch.Tensor]): The weight tensor to configure for tensor parallelism. 
                                               If None, no action is taken.
         """
-        assert self.support_training, "No implementation of backward."
+        if self.is_training_mode():
+            assert self.support_training, "No implementation of backward."
         if weight is not None:
-            weight.requires_grad = True
+            if self.is_training_mode():
+                if weight.requires_grad is None:
+                    weight.requires_grad = True
+            else:
+                weight.requires_grad =False
             setattr(weight, 'tensor_model_parallel', True)
             weight.ds_is_preleace_module = True
             weight.gather_params = self.gather_params
             weight.partition = self.partition
-
+    def is_training_mode(self):
+        global DEEPSPEED_AUTOTP_MODE
+        return DEEPSPEED_AUTOTP_MODE==AUTOTP_MODE.TRAINING
 
 class GatherReplacedLayerParams:
 

From 47a6b0b68c98c4f0f02e4bdee8b537dcc57a6790 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Mon, 16 Dec 2024 08:34:23 +0000
Subject: [PATCH 24/71] fix chatglm

---
 deepspeed/module_inject/layers.py | 39 ++++++++++++++++---------------
 1 file changed, 20 insertions(+), 19 deletions(-)

diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index a49152f3b87a..64620a964322 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -94,7 +94,7 @@ class Replaced_Layer(nn.Module, ABC):
     Attributes:
         mode (str): The mode of operation[INFERENCE or Training], default is "INFERENCE".
         mp_group (Optional[dist.ProcessGroup]): The process group used for model parallelism.
-        tp_world_sz (int): The world size of tensor parallelism, i.e., the number of parallel workers.
+        tp_world_size (int): The world size of tensor parallelism, i.e., the number of parallel workers.
         tp_index (int): The rank (ID) of the current worker in tensor parallelism.
         support_training (bool): Flag indicating whether the layer supports training (default: False).
         name (Optional[str]): The name of the layer, if provided.
@@ -113,7 +113,7 @@ def __init__(self, mp_group: Optional[dist.ProcessGroup], name: Optional[str] =
         self.support_training: bool = False
         if mp_group is not None:
             self.mp_group = mp_group
-            self.tp_world_sz: int  = dist.get_world_size(self.mp_group)
+            self.tp_world_size: int  = dist.get_world_size(self.mp_group)
             self.tp_index: int  = dist.get_rank(mp_group)
         if name is not None:
             self.name=name # Set the layer name if provided.
@@ -253,7 +253,7 @@ def gather_params(self, params_list):
                 return
             params_list[idx].data_partition = param.data
             param = param.transpose(0, 1).contiguous()
-            output_param = torch.empty(self.tp_world_sz * param.shape[0],
+            output_param = torch.empty(self.tp_world_size * param.shape[0],
                                        param.shape[1],
                                        dtype=param.dtype,
                                        device=param.device)
@@ -266,7 +266,7 @@ def partition(self, params_list, move_to_device=False):
             if param is None or idx>0:
                 # don't slipt bias
                 return 
-            _partition=torch.chunk(param, self.tp_world_sz, dim=-1)[self.tp_index]
+            _partition=torch.chunk(param, self.tp_world_size, dim=-1)[self.tp_index]
 
             if move_to_device:
                 partition=move(_partition, get_accelerator().current_device()).detach()
@@ -303,7 +303,7 @@ def gather_params(self, params_list):
             # shape_tensor=torch.tensor(param.shape[0],dtype=param.dtype,device=param.device)
             # dist.all_reduce(shape_tensor, group=self.mp_group)
             params_list[idx].data_partition = param.data
-            output_param = torch.empty(self.tp_world_sz * param.shape[0],
+            output_param = torch.empty(self.tp_world_size * param.shape[0],
                                        param.shape[1],
                                        dtype=param.dtype,
                                        device=param.device)
@@ -315,7 +315,7 @@ def partition(self, params_list, move_to_device=False, **kwargs):
         for idx, param in enumerate(params_list):
             if param is None:
                 return 
-            _partition=torch.chunk(param, self.tp_world_sz, dim=0)[self.tp_index]
+            _partition=torch.chunk(param, self.tp_world_size, dim=0)[self.tp_index]
 
             if move_to_device:
                 partition=move(_partition, get_accelerator().current_device()).detach()
@@ -346,7 +346,7 @@ def partition(self, params_list, move_to_device=False, **kwargs):
         for idx, param in enumerate(params_list):
             if param is None:
                 return 
-            _partition=prepare_tp_fused_qkvw(kwargs.get('fused_module'), param, self.tp_world_sz, self.tp_index )
+            _partition=prepare_tp_fused_qkvw(kwargs.get('fused_module'), param, self.tp_world_size, self.tp_index )
             if move_to_device:
                 partition=move(_partition, get_accelerator().current_device()).detach()
                 del _partition
@@ -362,14 +362,14 @@ def partition(self, params_list, move_to_device=False):
             weight=params_list[0]
         elif len(params_list)==2:
             weight, bias=params_list[0], params_list[1]
-        _partition = weight.data.split(get_shard_size_list(weight.shape[0],  self.tp_world_sz, self.name), dim=1)
+        _partition = weight.data.split(get_shard_size_list(weight.shape[0],  self.tp_world_size, self.name), dim=1)
         partition=move(_partition, get_accelerator().current_device()).detach()
         del _partition
         weight.data=partition
         
         if bias is not None:
             _partition = bias.data.split(get_shard_size_list(
-                        weight.shape[1] ,self.tp_world_sz, self.name),
+                        weight.shape[1] ,self.tp_world_size, self.name),
                                                       dim=0)
             partition=move(_partition, get_accelerator().current_device()).detach()
             del _partition
@@ -402,26 +402,27 @@ def forward(self, input):
             output += self.bias
         return output
 
+class Yuan_LinearALlreduce(LinearAllreduce):
+    
+    @torch.no_grad()
+    def partition(self, params_list, move_to_device=False):
+        params_list[0], params_list[1]=shard_value_with_share_qk(params_list[0],params_list[1],self.tp_world_size, self.tp_index, False)
 
 
 
 #override the subclasses related to weight splitting.
-def Yuan_LinearALlreduce(LinearAllreduce):
-    @torch.no_grad()
-    def partition(self, params_list, move_to_device=False):
-        params_list[0], params_list[1]=shard_value_with_share_qk(params_list[0],params_list[1],self.tp_world_size, self.tp_index, False)
 
-def Yuan_LinearLayer(LinearLayer):
+class Yuan_LinearLayer(LinearLayer):
     @torch.no_grad()
     def partition(self, params_list, move_to_device=False):
         params_list[0], params_list[1]=shard_value_with_share_qk(params_list[0],params_list[1],self.tp_world_size, self.tp_index, False)
 
-def GLM_LinearLayer(LinearLayer):
+class GLM_LinearLayer(LinearLayer):
     @torch.no_grad()
     def partition(self, params_list, move_to_device=False):
-        params_list[0], params_list[1]=shard_chunk_mlp(params_list[0],params_list[1],self.tp_world_size, self.tp_index, False)
-
-def Conv_LinearALlreduce(LinearALlreduce):
+        params_list[0], params_list[1]=shard_chunk_mlp(params_list[0].data,params_list[1],self.tp_index, self.tp_world_size )
+        b=0
+class Conv_LinearALlreduce(LinearAllreduce):
     @torch.no_grad()
     def partition(self, params_list, move_to_device=False):            
         for idx, param in enumerate(params_list):
@@ -447,7 +448,7 @@ def partition(self, params_list, move_to_device=False):
 class LmHeadLinearAllreduce(LinearAllreduce):
 
     def forward(self, input):
-        input_shard_size = get_shard_size(input.shape[-1], self.tp_world_sz, "lm_head")
+        input_shard_size = get_shard_size(input.shape[-1], self.tp_world_size, "lm_head")
         input_shard_offset = sum(get_shard_size_list(input.shape[-1], self.world_size, "lm_head")[0:self.tp_index])
         output = torch.matmul(input[:, :, input_shard_offset:input_shard_offset + input_shard_size],
                               self.weight.transpose(-1, -2))

From 3a23997c6d37e1c38ad7e1ad777680e00ab0b21f Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Mon, 16 Dec 2024 09:02:41 +0000
Subject: [PATCH 25/71] fix chatglm2 with transformers=4.40 version

---
 deepspeed/module_inject/layers.py | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index 64620a964322..3972dd943a17 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -420,8 +420,10 @@ def partition(self, params_list, move_to_device=False):
 class GLM_LinearLayer(LinearLayer):
     @torch.no_grad()
     def partition(self, params_list, move_to_device=False):
-        params_list[0], params_list[1]=shard_chunk_mlp(params_list[0].data,params_list[1],self.tp_index, self.tp_world_size )
-        b=0
+        weight, bias=shard_chunk_mlp(params_list[0].data,params_list[1],self.tp_index, self.tp_world_size )
+        params_list[0].data=weight
+        if bias is not None:  
+            params_list[1].data=bias
 class Conv_LinearALlreduce(LinearAllreduce):
     @torch.no_grad()
     def partition(self, params_list, move_to_device=False):            

From e3ec46e38c02f10e33c3143cb23ec927f58621ad Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Mon, 16 Dec 2024 10:11:30 +0000
Subject: [PATCH 26/71] uneven

---
 deepspeed/module_inject/auto_tp.py |  2 +-
 deepspeed/module_inject/layers.py  | 66 ++++++++++++++++++++++++------
 2 files changed, 54 insertions(+), 14 deletions(-)

diff --git a/deepspeed/module_inject/auto_tp.py b/deepspeed/module_inject/auto_tp.py
index ea74a2b259a4..9a19de98179e 100755
--- a/deepspeed/module_inject/auto_tp.py
+++ b/deepspeed/module_inject/auto_tp.py
@@ -356,7 +356,7 @@ def _replace(self, child, name, conv_linear_layer):
             elif name == "lm_head" or name == 'embed_out':
                 return LmHeadLinearAllreduce(child, self.mp_group)
 
-            return LinearAllreduce(child, self.mp_group)
+            return LinearAllreduce(child, self.mp_group,name=name)
         
             
         else:
diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index 3972dd943a17..cb290ade48f3 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -227,12 +227,12 @@ def __exit__(self, exc_type, exc_value, traceback)-> None:
 
 class LinearAllreduce(Replaced_Layer):
 
-    def __init__(self, module, mp_group, name=None):
-        super(LinearAllreduce, self).__init__(mp_group, name)
+    def __init__(self, module, mp_group, **kwargs):
+        super(LinearAllreduce, self).__init__(mp_group)
         self.weight = module.weight
         self.bias = module.bias
         
-        self.partition([self.weight, self.bias], move_to_device=True)
+        self.partition([self.weight, self.bias], move_to_device=True,**kwargs)
         self.support_training = True
         self.config_tp_training(self.weight)
         if self.bias is not None:
@@ -261,24 +261,44 @@ def gather_params(self, params_list):
             params_list[idx].data = output_param.transpose(0, 1).contiguous()
         return
     @torch.no_grad()
-    def partition(self, params_list, move_to_device=False):
+    def partition(self, params_list, move_to_device=False, **kwargs):
+        
+        if DEEPSPEED_AUTOTP_MODE ==AUTOTP_MODE.INFERENCE:
+            self.uneven_partition(params_list, move_to_device,**kwargs)
+            return 
+
+        else:
+            for idx, param in enumerate(params_list):
+                if param is None or idx>0:
+                    # don't slipt bias
+                    return 
+                _partition=torch.chunk(param, self.tp_world_size, dim=-1)[self.tp_index]
+
+                if move_to_device:
+                    partition=move(_partition, get_accelerator().current_device()).detach()
+                    del _partition
+                    _partition=partition
+                
+                params_list[idx].data = _partition
+    def uneven_partition(self, params_list, move_to_device,**kwargs):
         for idx, param in enumerate(params_list):
             if param is None or idx>0:
                 # don't slipt bias
                 return 
-            _partition=torch.chunk(param, self.tp_world_size, dim=-1)[self.tp_index]
+            _partition=params_list[idx].split(get_shard_size_list(params_list[idx].shape[1] ,self.tp_world_size,kwargs.get('name')),dim=1)[self.tp_index]
 
             if move_to_device:
                 partition=move(_partition, get_accelerator().current_device()).detach()
                 del _partition
                 _partition=partition
-            
             params_list[idx].data = _partition
 
+        
+
 class LinearLayer(Replaced_Layer):
 
     def __init__(self, module, mp_group , name=None, skip_partition=False, **kwargs):
-        super(LinearLayer, self).__init__(mp_group)
+        super(LinearLayer, self).__init__(mp_group,name)
         self.weight = module.weight
         self.bias = module.bias
         if not skip_partition:
@@ -312,9 +332,13 @@ def gather_params(self, params_list):
     @torch.no_grad()
     def partition(self, params_list, move_to_device=False, **kwargs):
         
+        if DEEPSPEED_AUTOTP_MODE==AUTOTP_MODE.INFERENCE:
+            self.uneven_partition(params_list, move_to_device,**kwargs)
+            return 
         for idx, param in enumerate(params_list):
             if param is None:
                 return 
+            #split bias if provide
             _partition=torch.chunk(param, self.tp_world_size, dim=0)[self.tp_index]
 
             if move_to_device:
@@ -323,6 +347,19 @@ def partition(self, params_list, move_to_device=False, **kwargs):
                 _partition=partition
             
             params_list[idx].data = _partition
+    def uneven_partition(self, params_list, move_to_device=False, **kwargs):
+        
+        for idx, param in enumerate(params_list):
+            if param is None or idx>0:
+                # don't slipt bias
+                return 
+            _partition=params_list[idx].split(get_shard_size_list(params_list[idx].shape[0] ,self.tp_world_size,kwargs.get('name')),dim=0)[self.tp_index]
+
+            if move_to_device:
+                partition=move(_partition, get_accelerator().current_device()).detach()
+                del _partition
+                _partition=partition
+            params_list[idx].data = _partition
     # for bwc
     @classmethod
     def from_weights(cls, weight_shape=None, dtype=torch.half, weight=None, bias=None):
@@ -338,7 +375,8 @@ def from_weights(cls, weight_shape=None, dtype=torch.half, weight=None, bias=Non
             out_features = weight_shape[0]  
             linear = nn.Linear(in_features, out_features, bias=(bias is not None))
         return cls(linear, skip_partition=True)
-        
+    
+    
 
 class fused_LinearLayer(LinearLayer):
     @torch.no_grad()
@@ -362,7 +400,7 @@ def partition(self, params_list, move_to_device=False):
             weight=params_list[0]
         elif len(params_list)==2:
             weight, bias=params_list[0], params_list[1]
-        _partition = weight.data.split(get_shard_size_list(weight.shape[0],  self.tp_world_size, self.name), dim=1)
+        _partition = weight.data.split(get_shard_size_list(weight.shape[0],  self.tp_world_size, self.name), dim=1)[self.tp_index]
         partition=move(_partition, get_accelerator().current_device()).detach()
         del _partition
         weight.data=partition
@@ -370,7 +408,7 @@ def partition(self, params_list, move_to_device=False):
         if bias is not None:
             _partition = bias.data.split(get_shard_size_list(
                         weight.shape[1] ,self.tp_world_size, self.name),
-                                                      dim=0)
+                                                      dim=0)[self.tp_index]
             partition=move(_partition, get_accelerator().current_device()).detach()
             del _partition
             bias.data=partition
@@ -415,8 +453,10 @@ def partition(self, params_list, move_to_device=False):
 class Yuan_LinearLayer(LinearLayer):
     @torch.no_grad()
     def partition(self, params_list, move_to_device=False):
-        params_list[0], params_list[1]=shard_value_with_share_qk(params_list[0],params_list[1],self.tp_world_size, self.tp_index, False)
-
+        weight, bias=shard_value_with_share_qk(params_list[0],params_list[1],self.tp_world_size, self.tp_index, False)
+        params_list[0].data=weight
+        if bias is not None:  
+            params_list[1].data=bias
 class GLM_LinearLayer(LinearLayer):
     @torch.no_grad()
     def partition(self, params_list, move_to_device=False):
@@ -434,7 +474,7 @@ def partition(self, params_list, move_to_device=False):
             
             _partition=param.split(get_shard_size_list(
                 param.shape[0] , self.tp_world_size, self.name),
-                                           dim=1)
+                                           dim=1)[self.tp_index]
 
             if move_to_device:
                 partition=move(_partition, get_accelerator().current_device())

From 9685879705dc74d30071ab1e86904c5e02b9841d Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Mon, 16 Dec 2024 11:53:39 +0000
Subject: [PATCH 27/71] fix uneven

---
 deepspeed/module_inject/auto_tp.py | 2 +-
 deepspeed/module_inject/layers.py  | 8 ++++----
 2 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/deepspeed/module_inject/auto_tp.py b/deepspeed/module_inject/auto_tp.py
index 9a19de98179e..6fa5d2e9e980 100755
--- a/deepspeed/module_inject/auto_tp.py
+++ b/deepspeed/module_inject/auto_tp.py
@@ -368,7 +368,7 @@ def _replace(self, child, name, conv_linear_layer):
                 #Check and handle fused qkv for TP
                 return fused_LinearLayer(child,self.mp_group,fused_module=self.module)
             
-            return LinearLayer(child, self.mp_group)
+            return LinearLayer(child, self.mp_group,name=name)
 
     def _slice_embedding(self, child, name, conv_linear_layer):
         if getattr(child, "replaced", False) == True:
diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index cb290ade48f3..bb34c0a34084 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -297,8 +297,8 @@ def uneven_partition(self, params_list, move_to_device,**kwargs):
 
 class LinearLayer(Replaced_Layer):
 
-    def __init__(self, module, mp_group , name=None, skip_partition=False, **kwargs):
-        super(LinearLayer, self).__init__(mp_group,name)
+    def __init__(self, module, mp_group , skip_partition=False, **kwargs):
+        super(LinearLayer, self).__init__(mp_group)
         self.weight = module.weight
         self.bias = module.bias
         if not skip_partition:
@@ -350,8 +350,8 @@ def partition(self, params_list, move_to_device=False, **kwargs):
     def uneven_partition(self, params_list, move_to_device=False, **kwargs):
         
         for idx, param in enumerate(params_list):
-            if param is None or idx>0:
-                # don't slipt bias
+            if param is None :
+                #split bias if provide
                 return 
             _partition=params_list[idx].split(get_shard_size_list(params_list[idx].shape[0] ,self.tp_world_size,kwargs.get('name')),dim=0)[self.tp_index]
 

From 7b99b0339d65bf1a220a17b40c0f92ac1870cc6e Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Mon, 16 Dec 2024 12:49:21 +0000
Subject: [PATCH 28/71] fix training

---
 deepspeed/__init__.py                                | 11 ++++++-----
 deepspeed/inference/engine.py                        |  2 +-
 deepspeed/module_inject/__init__.py                  |  2 +-
 deepspeed/module_inject/layers.py                    | 10 ++++++++++
 tests/unit/model_parallelism/test_autotp_training.py | 10 +++++++++-
 5 files changed, 27 insertions(+), 8 deletions(-)

diff --git a/deepspeed/__init__.py b/deepspeed/__init__.py
index f918c03d9916..f6210543201f 100755
--- a/deepspeed/__init__.py
+++ b/deepspeed/__init__.py
@@ -37,7 +37,7 @@
 from .runtime.config import DeepSpeedConfig, DeepSpeedConfigError
 from .runtime.activation_checkpointing import checkpointing
 from .ops.transformer import DeepSpeedTransformerLayer, DeepSpeedTransformerConfig
-from .module_inject import replace_transformer_layer, revert_transformer_layer
+from .module_inject import replace_transformer_layer, revert_transformer_layer, set_autotp_mode
 
 from .utils import log_dist, OnDevice, logger
 from .comm.comm import init_distributed
@@ -365,7 +365,8 @@ def init_inference(model, config=None, **kwargs):
 
     return engine
 
-def tp_model_training_init(model,tp_size, dtype):
-    global DEEPSPEED_AUTOTP_MODE
-    DEEPSPEED_AUTOTP_MODE =AUTOTP_MODE.TRAINING
-    model=init_inference(model=model, mp_size=tp_size, dtype=dtype, replace_with_kernel_inject=False).module
\ No newline at end of file
+def tp_model_init(model,tp_size, dtype):
+    
+    set_autotp_mode(training=True)
+    model=init_inference(model=model, mp_size=tp_size, dtype=dtype, replace_with_kernel_inject=False).module
+    return model
\ No newline at end of file
diff --git a/deepspeed/inference/engine.py b/deepspeed/inference/engine.py
index 1215e3f85cbb..9769431504fc 100755
--- a/deepspeed/inference/engine.py
+++ b/deepspeed/inference/engine.py
@@ -22,7 +22,7 @@
 from ..comm.comm import init_distributed
 from ..pipe import PipelineModule
 from ..moe.utils import has_moe_layers
-from ..module_inject import LinearAllreduce, LinearLayer, Normalize, ReplaceWithTensorSlicing
+from ..module_inject import  LinearAllreduce, LinearLayer, Normalize, ReplaceWithTensorSlicing
 from deepspeed.accelerator import get_accelerator
 from ..module_inject.policy import TransformerPolicy
 from ..module_inject.auto_tp import AutoTP
diff --git a/deepspeed/module_inject/__init__.py b/deepspeed/module_inject/__init__.py
index 4bdabf383b26..9fc2f979a04b 100755
--- a/deepspeed/module_inject/__init__.py
+++ b/deepspeed/module_inject/__init__.py
@@ -6,5 +6,5 @@
 from .replace_module import replace_transformer_layer, revert_transformer_layer, ReplaceWithTensorSlicing, GroupQuantizer, generic_injection
 from .module_quantize import quantize_transformer_layer
 from .replace_policy import HFBertLayerPolicy
-from .layers import LinearAllreduce, LinearLayer, EmbeddingLayer, Normalize
+from .layers import LinearAllreduce, LinearLayer, EmbeddingLayer, Normalize, set_autotp_mode
 from .policy import DSPolicy
diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index bb34c0a34084..0f472eec7ee9 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -17,6 +17,14 @@
 from deepspeed.inference.config import AUTOTP_MODE
 DEEPSPEED_AUTOTP_MODE=AUTOTP_MODE.INFERENCE
 
+def set_autotp_mode(training=False):
+    global DEEPSPEED_AUTOTP_MODE
+    if training:
+        DEEPSPEED_AUTOTP_MODE=AUTOTP_MODE.TRAINING
+    else:
+        DEEPSPEED_AUTOTP_MODE=AUTOTP_MODE.INFERENCE
+
+    
 def move(tensor, device):
     #TODO: the data parallelism (DP) is greater than 2,
     # we need to consider when to delete the CPU data.
@@ -149,6 +157,7 @@ def config_tp_training(self, weight):
             weight (Optional[torch.Tensor]): The weight tensor to configure for tensor parallelism. 
                                               If None, no action is taken.
         """
+        # # The RNG states have already been synchronized in init_inference.
         if self.is_training_mode():
             assert self.support_training, "No implementation of backward."
         if weight is not None:
@@ -161,6 +170,7 @@ def config_tp_training(self, weight):
             weight.ds_is_preleace_module = True
             weight.gather_params = self.gather_params
             weight.partition = self.partition
+            
     def is_training_mode(self):
         global DEEPSPEED_AUTOTP_MODE
         return DEEPSPEED_AUTOTP_MODE==AUTOTP_MODE.TRAINING
diff --git a/tests/unit/model_parallelism/test_autotp_training.py b/tests/unit/model_parallelism/test_autotp_training.py
index 399744604e7f..3b0db935d56f 100644
--- a/tests/unit/model_parallelism/test_autotp_training.py
+++ b/tests/unit/model_parallelism/test_autotp_training.py
@@ -15,7 +15,7 @@
 from deepspeed.utils import groups
 from contextlib import contextmanager
 from torch import nn
-from deepspeed.module_inject.layers import LinearAllreduce, LinearLayer
+from deepspeed.module_inject.layers import LinearAllreduce, LinearLayer, set_autotp_mode
 
 # test group         done
 # test daloader check      done
@@ -62,6 +62,7 @@ def should_assert_with_msg(expected_message):
 class TestTpParallelStates(DistributedTest):
     world_size = 4
     def test(self):
+        set_autotp_mode(training=True)
         tp_size=4
 
         dp_size = 4 / dist.get_world_size()
@@ -87,6 +88,7 @@ class TestTpDataloaderCorrectness(DistributedTest):
     def test(self):
         tp_size=4
         hidden_dim = 128
+        set_autotp_mode(training=True)
         config_dict = {
             "train_micro_batch_size_per_gpu": 1,
             "steps_per_print": 1,
@@ -150,6 +152,7 @@ def testRowParallel(self):
         tp_size=4
         hidden_dim = 128
         batch_size_per_device=1
+        set_autotp_mode(training=True)
         config_dict = {
             "train_micro_batch_size_per_gpu": 1,
             "steps_per_print": 1,
@@ -197,6 +200,7 @@ def testColumnParallel(self):
         tp_size=4
         hidden_dim = 128
         batch_size_per_device=1
+        set_autotp_mode(training=True)
         config_dict = {
             "train_micro_batch_size_per_gpu": 1,
             "steps_per_print": 1,
@@ -244,6 +248,7 @@ class TestParamsGather(DistributedTest):
     def test(self, layer_type):
         tp_size=4
         hidden_dim = 128
+        set_autotp_mode(training=True)
         config_dict = {
             "train_micro_batch_size_per_gpu": 1,
             "optimizer": {
@@ -327,6 +332,7 @@ class TestSave(DistributedTest):
     def test_save_original_weight(self):
         tp_size=4
         hidden_dim = 64
+        set_autotp_mode(training=True)
         config_dict = {
             "train_micro_batch_size_per_gpu": 1,
             "steps_per_print": 1,
@@ -378,6 +384,7 @@ def compare_state_dicts(state_dict1, state_dict2):
     def test_ckpt_save(self):    
         tp_size=4
         hidden_dim = 64
+        set_autotp_mode(training=True)
         config_dict = {
             "train_micro_batch_size_per_gpu": 1,
             "steps_per_print": 1,
@@ -442,6 +449,7 @@ class TestTpGradNorm(DistributedTest):
     def test(self):
         tp_size=4
         hidden_dim = 64
+        set_autotp_mode(training=True)
         config_dict = {
             "train_micro_batch_size_per_gpu": 1,
             "steps_per_print": 1,

From 570645f5c1afa95a38162c4d8a05696c88997946 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Tue, 17 Dec 2024 06:22:15 +0000
Subject: [PATCH 29/71] refine code

---
 deepspeed/inference/engine.py      |  3 +-
 deepspeed/module_inject/auto_tp.py |  9 ++--
 deepspeed/module_inject/layers.py  | 66 ++++++++----------------------
 deepspeed/runtime/engine.py        | 18 +++-----
 4 files changed, 28 insertions(+), 68 deletions(-)

diff --git a/deepspeed/inference/engine.py b/deepspeed/inference/engine.py
index 9769431504fc..e69132b84df8 100755
--- a/deepspeed/inference/engine.py
+++ b/deepspeed/inference/engine.py
@@ -155,8 +155,7 @@ def __init__(self, model, config):
                 # 2. DeepSpeed Kernel Injection
                 self._apply_injection_policy(config)
 
-            # WA, hard code, for TP=1, use module replace for debug."
-            elif config.tensor_parallel.tp_size >= 1:
+            elif config.tensor_parallel.tp_size > 1:
                 # 3. Automatic Tensor Parallelism
                 parser_dict = AutoTP.tp_parser(model)
                 print("AutoTP: ", parser_dict)
diff --git a/deepspeed/module_inject/auto_tp.py b/deepspeed/module_inject/auto_tp.py
index 6fa5d2e9e980..db42c33ee411 100755
--- a/deepspeed/module_inject/auto_tp.py
+++ b/deepspeed/module_inject/auto_tp.py
@@ -328,6 +328,8 @@ def set_tensor_parallel_config(self, mp_size, mp_group):
         self.mp_group = mp_group
 
     def _replace(self, child, name, conv_linear_layer):
+        # This function should clearly define the routing rules for specific layers 
+        # and avoid any complex shard-related logic.
         if getattr(child, "replaced", False) == True:
             return
         weight_shape = child.weight.shape
@@ -339,12 +341,11 @@ def _replace(self, child, name, conv_linear_layer):
         # For Yuan model
         if 'Yuan' in str(self.module):
             if 'v_proj' in name:
-
-                # should we use a factory?
                 return Yuan_LinearLayer(child, self.mp_group)
+            
             elif 'o_proj' in name:
-
                 return Yuan_LinearALlreduce(child, self.mp_group)
+            
         # For MLP including chunk layer.
         if 'gate_up_proj' in name or ('dense_h_to_4h' in name and 'GLM' in str(self.module)):
             return GLM_LinearLayer(child, self.mp_group)
@@ -357,8 +358,6 @@ def _replace(self, child, name, conv_linear_layer):
                 return LmHeadLinearAllreduce(child, self.mp_group)
 
             return LinearAllreduce(child, self.mp_group,name=name)
-        
-            
         else:
          
             setattr(child, "replaced", True)
diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index 0f472eec7ee9..d1f933b157af 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -26,8 +26,8 @@ def set_autotp_mode(training=False):
 
     
 def move(tensor, device):
-    #TODO: the data parallelism (DP) is greater than 2,
-    # we need to consider when to delete the CPU data.
+    # TODO: consider the timing of deletion 
+    # to save host resources when DP > 1。
     if tensor.is_meta:
         return torch.empty_like(tensor, device=device)
     else:
@@ -45,23 +45,25 @@ def symbolic(graph, input):
         return input
     
     @staticmethod
-    def forward(ctx: Any, group: dist.ProcessGroup, input: torch.Tensor)-> torch.Tensor:
+    def forward(ctx: Any, group: dist.ProcessGroup, input: torch.Tensor, is_inference_mode:bool)-> torch.Tensor:
         """
         Forward pass.
         """
         ctx.group = group
         if group == None:
             return input
-        # for debug ,will apply dist.inference_all_reduce
-        dist.all_reduce(input.contiguous(), group=group)
+        if is_inference_mode:
+            dist.inference_all_reduce(input, group=group)
+        else:
+            dist.all_reduce(input.contiguous(), group=group)
         return input
 
     @staticmethod
-    def backward(ctx:Any, grad_output: torch.Tensor)-> tuple[None, torch.Tensor]:
+    def backward(ctx:Any, grad_output: torch.Tensor)-> tuple[None, torch.Tensor, None]:
         """
         Backward pass.
         """
-        return None, grad_output
+        return None, grad_output, None
 
 
 class ColumnParallel(torch.autograd.Function):
@@ -88,7 +90,7 @@ def backward(ctx: Any, grad_output: torch.Tensor)-> tuple[None, torch.Tensor]:
         """
         if ctx.group == None:
             return None, grad_output
-        # for debug ,will apply dist.inference_all_reduce
+
         dist.all_reduce(grad_output.contiguous(), group=ctx.group)
         return None, grad_output
 
@@ -142,11 +144,10 @@ def gather_params(self, params_list):
     def partition(self, params_list:List[torch.Tensor], move_to_device:bool=False):
         """
         Partitions the parameters for tensor parallelism. 
+        It is necessary to ensure that this function only involves the logic of params partitioning.
         """
         
-        # for idx, param in enumerate(params_list):
-        #     params_list[idx].data = param.data_partition
-        #     del param.data_partition
+
 
     def config_tp_training(self, weight):
         """
@@ -250,7 +251,7 @@ def __init__(self, module, mp_group, **kwargs):
 
     def forward(self, input):
         output = torch.matmul(input, self.weight.transpose(-1, -2))
-        output = RowParallel.apply(self.mp_group, output)
+        output = RowParallel.apply(self.mp_group, output, not self.is_training_mode())
         if self.bias is not None:
             output += self.bias
         return output
@@ -327,11 +328,9 @@ def forward(self, input):
         return output
     @torch.no_grad()
     def gather_params(self, params_list):
-
+        #  Does not support uneven shard.
         for idx, param in enumerate(params_list):
-            # TODO: uneven support
-            # shape_tensor=torch.tensor(param.shape[0],dtype=param.dtype,device=param.device)
-            # dist.all_reduce(shape_tensor, group=self.mp_group)
+        
             params_list[idx].data_partition = param.data
             output_param = torch.empty(self.tp_world_size * param.shape[0],
                                        param.shape[1],
@@ -423,43 +422,14 @@ def partition(self, params_list, move_to_device=False):
             del _partition
             bias.data=partition
 
-            
-        
-    
-            
-class bwc_LinearLayer(nn.Module):
-
-    def __init__(self, weight_shape=None, dtype=torch.half, weight=None, bias=None):
-        super(LinearLayer, self).__init__()
-        if weight is not None:
-            self.weight = weight
-            self.bias = bias
-        else:
-            self.weight = Parameter(
-                torch.empty(weight_shape, dtype=dtype, device=get_accelerator().current_device_name()))
-
-            self.bias = Parameter(
-                torch.empty(weight_shape[0],
-                            dtype=dtype,
-                            device=get_accelerator().current_device_name())) \
-                if bias is not None else None
-
-    def forward(self, input):
-        output = torch.matmul(input, self.weight.transpose(-1, -2))
-        if self.bias is not None:
-            output += self.bias
-        return output
 
+#override the subclasses related to weight splitting.
 class Yuan_LinearALlreduce(LinearAllreduce):
     
     @torch.no_grad()
     def partition(self, params_list, move_to_device=False):
         params_list[0], params_list[1]=shard_value_with_share_qk(params_list[0],params_list[1],self.tp_world_size, self.tp_index, False)
 
-
-
-#override the subclasses related to weight splitting.
-
 class Yuan_LinearLayer(LinearLayer):
     @torch.no_grad()
     def partition(self, params_list, move_to_device=False):
@@ -493,10 +463,8 @@ def partition(self, params_list, move_to_device=False):
             
             params_list[idx].data = _partition
         
-        
-    
 
-#override the subclasses related to reward.
+#override the subclasses related to fwd/bwd.
 class LmHeadLinearAllreduce(LinearAllreduce):
 
     def forward(self, input):
diff --git a/deepspeed/runtime/engine.py b/deepspeed/runtime/engine.py
index 09f7dc289a12..032491134a5a 100755
--- a/deepspeed/runtime/engine.py
+++ b/deepspeed/runtime/engine.py
@@ -413,12 +413,13 @@ def _optimized_linear_offload_setup(self):
                     p.ds_offload = False
 
     def _configure_tensor_parallel_states(self, model):
-        # It should have a unified group initialization function,
-        # Like Megatron-LM, including tp, sp, pp, dp, ep, and so on
-
+        """
+        Configures the tensor parallel states for the model. 
+        This includes setting up the tensor parallel groups, initializing the TP mesh, 
+        and registering a pre-hook to ensure that the Dataloader inputs are consistent across ranks.
+        """
         # The compatibility has only been validated for 'gpus==autotp_size' at the moment.
-        # Sanity check]
-        #to do, remove this line.
+        # Sanity check
         self._set_client_model(model)
 
         assert self.zero_autotp_size() == dist.get_world_size_from_launcher(
@@ -426,16 +427,9 @@ def _configure_tensor_parallel_states(self, model):
         assert self.zero_optimization_stage(
         ) == 0, "Currently, the compatibility between 'autotp' and 'zero_stage > 0' has not been validated"
 
-        # from deepspeed.utils import parallel_states
-        # self.mpu = parallel_states
-        # disable self.allreduce_gradients() for dp =1 test.
-        # self.mpu._create_model_parallel(tensor_model_parallel_size=self.zero_autotp_size())
-        
         self.mpu = groups
-        
         self.mpu._init_tp_mesh_device(tensor_model_parallel_size=self.zero_autotp_size())
         
-        # self.enable_backward_allreduce = False
         self.first_dataloader_check=None
         def check_dataloader_inputs_same_across_ranks(module, args, kwargs):
 

From 3729b64345375e7bf4814aceb49e0463686cb776 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Tue, 17 Dec 2024 09:06:16 +0000
Subject: [PATCH 30/71] remove skip bcase&reduce

---
 deepspeed/__init__.py             |  5 +++++
 deepspeed/module_inject/layers.py |  4 ++--
 deepspeed/runtime/engine.py       | 13 +++----------
 3 files changed, 10 insertions(+), 12 deletions(-)

diff --git a/deepspeed/__init__.py b/deepspeed/__init__.py
index f6210543201f..bc8d91024f06 100755
--- a/deepspeed/__init__.py
+++ b/deepspeed/__init__.py
@@ -367,6 +367,11 @@ def init_inference(model, config=None, **kwargs):
 
 def tp_model_init(model,tp_size, dtype):
     
+    # avoid re-entry
+    assert not hasattr(model, 'autotp_pds_autotp_parsedarsed'), "Model already has 'autotp_parsed' attribute, preventing re-entry"
+
     set_autotp_mode(training=True)
     model=init_inference(model=model, mp_size=tp_size, dtype=dtype, replace_with_kernel_inject=False).module
+    setattr(model, 'ds_autotp_parsed', True)
+
     return model
\ No newline at end of file
diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index d1f933b157af..0297161dd7a2 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -274,7 +274,7 @@ def gather_params(self, params_list):
     @torch.no_grad()
     def partition(self, params_list, move_to_device=False, **kwargs):
         
-        if DEEPSPEED_AUTOTP_MODE ==AUTOTP_MODE.INFERENCE:
+        if not self.is_training_mode():
             self.uneven_partition(params_list, move_to_device,**kwargs)
             return 
 
@@ -341,7 +341,7 @@ def gather_params(self, params_list):
     @torch.no_grad()
     def partition(self, params_list, move_to_device=False, **kwargs):
         
-        if DEEPSPEED_AUTOTP_MODE==AUTOTP_MODE.INFERENCE:
+        if not self.is_training_mode():
             self.uneven_partition(params_list, move_to_device,**kwargs)
             return 
         for idx, param in enumerate(params_list):
diff --git a/deepspeed/runtime/engine.py b/deepspeed/runtime/engine.py
index 032491134a5a..8777a86c31f7 100755
--- a/deepspeed/runtime/engine.py
+++ b/deepspeed/runtime/engine.py
@@ -246,7 +246,7 @@ def __init__(self,
         self._do_args_sanity_check(args)
         self._configure_with_arguments(args, mpu)
         self._do_sanity_check()
-        if self.zero_autotp_size() > 0:
+        if self.zero_autotp_size() > 1:
             self._configure_tensor_parallel_states(model)
         see_memory_usage(f"DeepSpeed Engine: After args sanity test", force=self.memory_breakdown())
         if mpu is not None:
@@ -460,7 +460,6 @@ def broadcast_and_check(args, bcast_rank, bcast_group):
             broadcast_and_check(args, bcast_rank, bcast_group)
             broadcast_and_check(kwargs, bcast_rank, bcast_group)
             
-            # assert , "Data inconsistency within the TP group. Please check the Dataloader implementation to ensure consistency."
 
             print(f"RANK[{dist.get_rank()}]:The Dataloader has passed the TP group consistency check.")
 
@@ -1170,11 +1169,7 @@ def _do_sanity_check(self):
                 f'Client Optimizer (type = {type(self.client_optimizer)} is not instantiated but Client LR Scheduler is instantiated'
 
     def _broadcast_model(self):
-        if self.zero_autotp_size() > 0:
-            # At present, only the 'tp' has been validated with 'dp=1', where the 'seq_data_parallel_group'
-            # will execute an incorrect broadcast. Hard code skip for test.
-            # Unified group creation function is needed
-            return
+
 
         def is_replicated(p):
             if hasattr(p, "ds_status") and p.ds_status is not ZeroParamStatus.AVAILABLE:
@@ -2563,9 +2558,7 @@ def _reduce_non_expert_gradients(self, grads, elements_per_buffer):
             dp_group = groups._get_sequence_data_parallel_group()
             dp_world_size = dist.get_world_size(dp_group) / float(self.sequence_parallel_size)
             
-        # bypass gradient reduction when dp_size equals 1.
-        if dp_world_size == 1:
-            return 
+
         
         for _, sparse_bucket_tuple in enumerate(split_sparse_tensor_buckets):
             if sparse_bucket_tuple:

From 62d8858ecb7f4dcbbcea46600e8f7812495b9031 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Tue, 17 Dec 2024 09:10:07 +0000
Subject: [PATCH 31/71] fix typo

---
 deepspeed/__init__.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/deepspeed/__init__.py b/deepspeed/__init__.py
index bc8d91024f06..dcff508f95a9 100755
--- a/deepspeed/__init__.py
+++ b/deepspeed/__init__.py
@@ -368,7 +368,7 @@ def init_inference(model, config=None, **kwargs):
 def tp_model_init(model,tp_size, dtype):
     
     # avoid re-entry
-    assert not hasattr(model, 'autotp_pds_autotp_parsedarsed'), "Model already has 'autotp_parsed' attribute, preventing re-entry"
+    assert not hasattr(model, 'ds_autotp_parsed'), "Model already has 'autotp_parsed' attribute, preventing re-entry"
 
     set_autotp_mode(training=True)
     model=init_inference(model=model, mp_size=tp_size, dtype=dtype, replace_with_kernel_inject=False).module

From dd17313598736660e111558a6398d20ad3080eba Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Tue, 17 Dec 2024 18:05:34 +0800
Subject: [PATCH 32/71] format

---
 deepspeed/__init__.py                         |   9 +-
 deepspeed/comm/comm.py                        |   2 +-
 deepspeed/comm/torch.py                       |   4 +-
 deepspeed/inference/config.py                 |   2 +
 deepspeed/inference/engine.py                 |   2 +-
 deepspeed/module_inject/auto_tp.py            |  20 +-
 deepspeed/module_inject/layers.py             | 274 +++++++++--------
 deepspeed/module_inject/load_checkpoint.py    |   4 +-
 deepspeed/runtime/engine.py                   |  70 +++--
 deepspeed/runtime/utils.py                    |  21 +-
 deepspeed/utils/groups.py                     |  42 +--
 .../model_parallelism/test_autotp_training.py | 291 ++++++++++--------
 tests/unit/simple_model.py                    |   7 +-
 13 files changed, 410 insertions(+), 338 deletions(-)

diff --git a/deepspeed/__init__.py b/deepspeed/__init__.py
index dcff508f95a9..ea27e88fea07 100755
--- a/deepspeed/__init__.py
+++ b/deepspeed/__init__.py
@@ -365,13 +365,14 @@ def init_inference(model, config=None, **kwargs):
 
     return engine
 
-def tp_model_init(model,tp_size, dtype):
-    
+
+def tp_model_init(model, tp_size, dtype):
+
     # avoid re-entry
     assert not hasattr(model, 'ds_autotp_parsed'), "Model already has 'autotp_parsed' attribute, preventing re-entry"
 
     set_autotp_mode(training=True)
-    model=init_inference(model=model, mp_size=tp_size, dtype=dtype, replace_with_kernel_inject=False).module
+    model = init_inference(model=model, mp_size=tp_size, dtype=dtype, replace_with_kernel_inject=False).module
     setattr(model, 'ds_autotp_parsed', True)
 
-    return model
\ No newline at end of file
+    return model
diff --git a/deepspeed/comm/comm.py b/deepspeed/comm/comm.py
index cb176ba43d9a..1aa9b135115b 100755
--- a/deepspeed/comm/comm.py
+++ b/deepspeed/comm/comm.py
@@ -223,6 +223,7 @@ def broadcast(tensor, src, group=None, async_op=False, prof=False, log_name='bro
     global cdb
     return cdb.broadcast(tensor=tensor, src=src, group=group, async_op=async_op)
 
+
 @timed_op
 def broadcast_object_list(object_list, src, group=None, device=None):
     global cdb
@@ -357,7 +358,6 @@ def all_to_all(output_tensor_list, input_tensor_list, group=None, async_op=False
     return cdb.all_to_all(output_tensor_list, input_tensor_list, group=group, async_op=async_op)
 
 
-
 @timed_op
 def send(tensor, dst, group=None, tag=0, prof=False, log_name='send', debug=get_caller_func()):
     global cdb
diff --git a/deepspeed/comm/torch.py b/deepspeed/comm/torch.py
index fa87f0da2a3f..e155fb00826a 100755
--- a/deepspeed/comm/torch.py
+++ b/deepspeed/comm/torch.py
@@ -202,7 +202,7 @@ def broadcast(self, tensor, src, group=None, async_op=False):
     @compiler.disable
     def broadcast_object_list(self, object_list, src, group=None, device=None):
         return torch.distributed.broadcast_object_list(object_list=object_list, src=src, group=group, device=device)
-    
+
     @compiler.disable
     def all_gather(self, tensor_list, tensor, group=None, async_op=False):
         if DS_COMM_ALL_GATHER_OFF:
@@ -295,8 +295,6 @@ def all_to_all_single(self,
     def all_to_all(self, output_tensor_list, input_tensor_list, group=None, async_op=False):
         return torch.distributed.all_to_all(output_tensor_list, input_tensor_list, group=group, async_op=async_op)
 
-
-    
     @compiler.disable
     def send(self, tensor, dst, group=None, tag=0):
         return torch.distributed.send(tensor=tensor, dst=dst, group=group, tag=tag)
diff --git a/deepspeed/inference/config.py b/deepspeed/inference/config.py
index 11e601d7b709..a692b0b69822 100644
--- a/deepspeed/inference/config.py
+++ b/deepspeed/inference/config.py
@@ -30,10 +30,12 @@ class MoETypeEnum(str, Enum):
     residual = "residual"
     standard = "standard"
 
+
 class AUTOTP_MODE(Enum):
     TRAINING = "TRAINING"
     INFERENCE = "INFERENCE"
 
+
 class DeepSpeedTPConfig(DeepSpeedConfigModel):
     """ Configure tensor parallelism settings """
 
diff --git a/deepspeed/inference/engine.py b/deepspeed/inference/engine.py
index e69132b84df8..9d23e8f53c15 100755
--- a/deepspeed/inference/engine.py
+++ b/deepspeed/inference/engine.py
@@ -22,7 +22,7 @@
 from ..comm.comm import init_distributed
 from ..pipe import PipelineModule
 from ..moe.utils import has_moe_layers
-from ..module_inject import  LinearAllreduce, LinearLayer, Normalize, ReplaceWithTensorSlicing
+from ..module_inject import LinearAllreduce, LinearLayer, Normalize, ReplaceWithTensorSlicing
 from deepspeed.accelerator import get_accelerator
 from ..module_inject.policy import TransformerPolicy
 from ..module_inject.auto_tp import AutoTP
diff --git a/deepspeed/module_inject/auto_tp.py b/deepspeed/module_inject/auto_tp.py
index db42c33ee411..32bc3aa8ac8e 100755
--- a/deepspeed/module_inject/auto_tp.py
+++ b/deepspeed/module_inject/auto_tp.py
@@ -11,9 +11,9 @@
 from typing import Optional
 import torch
 from deepspeed import comm as dist
-from .layers import LinearAllreduce, LinearLayer, LmHeadLinearAllreduce, Yuan_LinearALlreduce, Yuan_LinearLayer, GLM_LinearLayer, Conv_LinearALlreduce, fused_LinearLayer,conv_LinearLayer
+from .layers import LinearAllreduce, LinearLayer, LmHeadLinearAllreduce, Yuan_LinearALlreduce, Yuan_LinearLayer, GLM_LinearLayer, Conv_LinearALlreduce, fused_LinearLayer, conv_LinearLayer
 from deepspeed.accelerator import get_accelerator
-from .fusedqkv_utils import require_tp_fused_qkvw, prepare_tp_fused_qkvw, shard_value_with_share_qk, shard_chunk_mlp
+from .fusedqkv_utils import require_tp_fused_qkvw
 from deepspeed.module_inject.tp_shard import get_shard_size, get_shard_size_list
 
 
@@ -328,7 +328,7 @@ def set_tensor_parallel_config(self, mp_size, mp_group):
         self.mp_group = mp_group
 
     def _replace(self, child, name, conv_linear_layer):
-        # This function should clearly define the routing rules for specific layers 
+        # This function should clearly define the routing rules for specific layers
         # and avoid any complex shard-related logic.
         if getattr(child, "replaced", False) == True:
             return
@@ -342,10 +342,10 @@ def _replace(self, child, name, conv_linear_layer):
         if 'Yuan' in str(self.module):
             if 'v_proj' in name:
                 return Yuan_LinearLayer(child, self.mp_group)
-            
+
             elif 'o_proj' in name:
                 return Yuan_LinearALlreduce(child, self.mp_group)
-            
+
         # For MLP including chunk layer.
         if 'gate_up_proj' in name or ('dense_h_to_4h' in name and 'GLM' in str(self.module)):
             return GLM_LinearLayer(child, self.mp_group)
@@ -357,17 +357,17 @@ def _replace(self, child, name, conv_linear_layer):
             elif name == "lm_head" or name == 'embed_out':
                 return LmHeadLinearAllreduce(child, self.mp_group)
 
-            return LinearAllreduce(child, self.mp_group,name=name)
+            return LinearAllreduce(child, self.mp_group, name=name)
         else:
-         
+
             setattr(child, "replaced", True)
             if self.conv_linear_layer:
                 conv_LinearLayer(child, self.mp_group)
             elif require_tp_fused_qkvw(name, self.mp_size):
                 #Check and handle fused qkv for TP
-                return fused_LinearLayer(child,self.mp_group,fused_module=self.module)
-            
-            return LinearLayer(child, self.mp_group,name=name)
+                return fused_LinearLayer(child, self.mp_group, fused_module=self.module)
+
+            return LinearLayer(child, self.mp_group, name=name)
 
     def _slice_embedding(self, child, name, conv_linear_layer):
         if getattr(child, "replaced", False) == True:
diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index 0297161dd7a2..c038f7d43931 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -12,21 +12,22 @@
 from deepspeed.module_inject.tp_shard import get_shard_size, get_shard_size_list
 from abc import ABC, abstractmethod
 from typing import Iterable, Any, Optional, List
-from deepspeed.utils import groups
 from .fusedqkv_utils import shard_value_with_share_qk, shard_chunk_mlp, prepare_tp_fused_qkvw
 from deepspeed.inference.config import AUTOTP_MODE
-DEEPSPEED_AUTOTP_MODE=AUTOTP_MODE.INFERENCE
+
+DEEPSPEED_AUTOTP_MODE = AUTOTP_MODE.INFERENCE
+
 
 def set_autotp_mode(training=False):
     global DEEPSPEED_AUTOTP_MODE
     if training:
-        DEEPSPEED_AUTOTP_MODE=AUTOTP_MODE.TRAINING
+        DEEPSPEED_AUTOTP_MODE = AUTOTP_MODE.TRAINING
     else:
-        DEEPSPEED_AUTOTP_MODE=AUTOTP_MODE.INFERENCE
+        DEEPSPEED_AUTOTP_MODE = AUTOTP_MODE.INFERENCE
+
 
-    
 def move(tensor, device):
-    # TODO: consider the timing of deletion 
+    # TODO: consider the timing of deletion
     # to save host resources when DP > 1。
     if tensor.is_meta:
         return torch.empty_like(tensor, device=device)
@@ -35,17 +36,20 @@ def move(tensor, device):
         # Using copy=True instead of clone() will help in case of cpu --> cpu.
         # Otherwise to() will not create a new copy for the view of the full tensor, and it will not be de-referenced.
         return tensor.to(device, copy=True)
+
+
 class RowParallel(torch.autograd.Function):
     """
     A custom autograd function for performing row-wise parallelism.
     """
+
     @staticmethod
     def symbolic(graph, input):
         """Symbolic function for tracing."""
         return input
-    
+
     @staticmethod
-    def forward(ctx: Any, group: dist.ProcessGroup, input: torch.Tensor, is_inference_mode:bool)-> torch.Tensor:
+    def forward(ctx: Any, group: dist.ProcessGroup, input: torch.Tensor, is_inference_mode: bool) -> torch.Tensor:
         """
         Forward pass.
         """
@@ -59,7 +63,7 @@ def forward(ctx: Any, group: dist.ProcessGroup, input: torch.Tensor, is_inferenc
         return input
 
     @staticmethod
-    def backward(ctx:Any, grad_output: torch.Tensor)-> tuple[None, torch.Tensor, None]:
+    def backward(ctx: Any, grad_output: torch.Tensor) -> tuple[None, torch.Tensor, None]:
         """
         Backward pass.
         """
@@ -70,13 +74,14 @@ class ColumnParallel(torch.autograd.Function):
     """
     Custom autograd function for column-wise parallelism.
     """
+
     @staticmethod
     def symbolic(graph, input):
         """Symbolic function for tracing."""
         return dist.all_reduce(input.contiguous(), dist.get_tensor_model_parallel_group())
-    
+
     @staticmethod
-    def forward(ctx: Any, group: dist.ProcessGroup, input: torch.Tensor)-> torch.Tensor:
+    def forward(ctx: Any, group: dist.ProcessGroup, input: torch.Tensor) -> torch.Tensor:
         """
         Forward pass.
         """
@@ -84,7 +89,7 @@ def forward(ctx: Any, group: dist.ProcessGroup, input: torch.Tensor)-> torch.Ten
         return input
 
     @staticmethod
-    def backward(ctx: Any, grad_output: torch.Tensor)-> tuple[None, torch.Tensor]:
+    def backward(ctx: Any, grad_output: torch.Tensor) -> tuple[None, torch.Tensor]:
         """
         Backward pass.
         """
@@ -97,8 +102,8 @@ def backward(ctx: Any, grad_output: torch.Tensor)-> tuple[None, torch.Tensor]:
 
 class Replaced_Layer(nn.Module, ABC):
     """
-    A base class for model layers with  tensor parallelism support. 
-    This class is designed to be extended by specific layers that require distributed 
+    A base class for model layers with  tensor parallelism support.
+    This class is designed to be extended by specific layers that require distributed
     operations and parameter gather/partitioning during inference or training.
 
     Attributes:
@@ -109,24 +114,25 @@ class Replaced_Layer(nn.Module, ABC):
         support_training (bool): Flag indicating whether the layer supports training (default: False).
         name (Optional[str]): The name of the layer, if provided.
     """
-    
+
     def __init__(self, mp_group: Optional[dist.ProcessGroup], name: Optional[str] = None):
         """
         Initializes the Replaced_Layer with optional model parallelism group and layer name.
-        
+
         Args:
-            mp_group (Optional[dist.ProcessGroup]): The process group for model parallelism. 
+            mp_group (Optional[dist.ProcessGroup]): The process group for model parallelism.
                                                     If None, no model parallelism is set.
-            name (Optional[str]): The optional name for the layer.        
+            name (Optional[str]): The optional name for the layer.
         """
         super().__init__()
         self.support_training: bool = False
         if mp_group is not None:
             self.mp_group = mp_group
-            self.tp_world_size: int  = dist.get_world_size(self.mp_group)
-            self.tp_index: int  = dist.get_rank(mp_group)
+            self.tp_world_size: int = dist.get_world_size(self.mp_group)
+            self.tp_index: int = dist.get_rank(mp_group)
         if name is not None:
-            self.name=name # Set the layer name if provided.
+            self.name = name  # Set the layer name if provided.
+
     @abstractmethod
     def forward(self, input):
         """
@@ -141,21 +147,19 @@ def gather_params(self, params_list):
         """
         pass
 
-    def partition(self, params_list:List[torch.Tensor], move_to_device:bool=False):
+    def partition(self, params_list: List[torch.Tensor], move_to_device: bool = False):
         """
-        Partitions the parameters for tensor parallelism. 
+        Partitions the parameters for tensor parallelism.
         It is necessary to ensure that this function only involves the logic of params partitioning.
         """
-        
-
 
     def config_tp_training(self, weight):
         """
-        Configures the weight tensor for training with tensor parallelism. This includes enabling gradients 
+        Configures the weight tensor for training with tensor parallelism. This includes enabling gradients
         and associating necessary methods for parameter gathering and partitioning.
 
         Args:
-            weight (Optional[torch.Tensor]): The weight tensor to configure for tensor parallelism. 
+            weight (Optional[torch.Tensor]): The weight tensor to configure for tensor parallelism.
                                               If None, no action is taken.
         """
         # # The RNG states have already been synchronized in init_inference.
@@ -166,23 +170,24 @@ def config_tp_training(self, weight):
                 if weight.requires_grad is None:
                     weight.requires_grad = True
             else:
-                weight.requires_grad =False
+                weight.requires_grad = False
             setattr(weight, 'tensor_model_parallel', True)
             weight.ds_is_preleace_module = True
             weight.gather_params = self.gather_params
             weight.partition = self.partition
-            
+
     def is_training_mode(self):
         global DEEPSPEED_AUTOTP_MODE
-        return DEEPSPEED_AUTOTP_MODE==AUTOTP_MODE.TRAINING
+        return DEEPSPEED_AUTOTP_MODE == AUTOTP_MODE.TRAINING
 
-class GatherReplacedLayerParams:
 
+class GatherReplacedLayerParams:
     """
     A context manager for gathering parameters of a replaced layer, enabling partitioning and gathering functionality
-    based on the configuration of the model. 
+    based on the configuration of the model.
     """
-    def __init__(self, params:Iterable[torch.Tensor] | torch.Tensor, module: torch.nn.Module, enabled: bool=True):
+
+    def __init__(self, params: Iterable[torch.Tensor] | torch.Tensor, module: torch.nn.Module, enabled: bool = True):
         """
         Initialize the context manager to handle parameter gathering and partitioning for a replaced layer.
 
@@ -195,39 +200,38 @@ def __init__(self, params:Iterable[torch.Tensor] | torch.Tensor, module: torch.n
         self.module = module
         if not enabled:
             return
-        
+
         # Ensure params is a list, whether it's a single param or iterable (e.g., model.parameters())
         if isinstance(params, Iterable) and not isinstance(params, torch.Tensor):
-            self.params: List[torch.Tensor] = list(params) # Convert generators to a list for multiple iterations
+            self.params: List[torch.Tensor] = list(params)  # Convert generators to a list for multiple iterations
         else:
-            self.params: List[torch.Tensor] = [params] # Wrap single parameter in a list for uniform processing
-
+            self.params: List[torch.Tensor] = [params]  # Wrap single parameter in a list for uniform processing
 
         # Check if the parameters belong to a replaced layer (indicated by a specific attribute)
         if not any(self._is_replaced_module_weight(p) for p in params):
             self.enabled = False
             return
 
-    def _is_replaced_module_weight(self, param: torch.Tensor)-> bool:
+    def _is_replaced_module_weight(self, param: torch.Tensor) -> bool:
         """
         Helper function to determine if a parameter belongs to a replaced module.
 
         Args:
             param (torch.Tensor): The parameter to check.
-        
+
         Returns:
             bool: True if the parameter belongs to a replaced module, False otherwise.
         """
         return getattr(param, 'ds_is_preleace_module', False)
 
-    def __enter__(self)-> None:
+    def __enter__(self) -> None:
         """
         Enter the context manager. If enabled, gather parameters for the replaced module.
         """
         if self.enabled:
             self.params[0].gather_params(self.params)
 
-    def __exit__(self, exc_type, exc_value, traceback)-> None:
+    def __exit__(self, exc_type, exc_value, traceback) -> None:
         """
         Exit the context manager. If enabled, partition the parameters for the replaced module.
         """
@@ -242,8 +246,8 @@ def __init__(self, module, mp_group, **kwargs):
         super(LinearAllreduce, self).__init__(mp_group)
         self.weight = module.weight
         self.bias = module.bias
-        
-        self.partition([self.weight, self.bias], move_to_device=True,**kwargs)
+
+        self.partition([self.weight, self.bias], move_to_device=True, **kwargs)
         self.support_training = True
         self.config_tp_training(self.weight)
         if self.bias is not None:
@@ -255,11 +259,12 @@ def forward(self, input):
         if self.bias is not None:
             output += self.bias
         return output
+
     @torch.no_grad()
     def gather_params(self, params_list):
 
         for idx, param in enumerate(params_list):
-            if param is None or idx>0:
+            if param is None or idx > 0:
                 # don't gather bias
                 return
             params_list[idx].data_partition = param.data
@@ -271,44 +276,47 @@ def gather_params(self, params_list):
             dist.all_gather_into_tensor(output_param, param, group=self.mp_group)
             params_list[idx].data = output_param.transpose(0, 1).contiguous()
         return
+
     @torch.no_grad()
     def partition(self, params_list, move_to_device=False, **kwargs):
-        
+
         if not self.is_training_mode():
-            self.uneven_partition(params_list, move_to_device,**kwargs)
-            return 
+            self.uneven_partition(params_list, move_to_device, **kwargs)
+            return
 
         else:
             for idx, param in enumerate(params_list):
-                if param is None or idx>0:
+                if param is None or idx > 0:
                     # don't slipt bias
-                    return 
-                _partition=torch.chunk(param, self.tp_world_size, dim=-1)[self.tp_index]
+                    return
+                _partition = torch.chunk(param, self.tp_world_size, dim=-1)[self.tp_index]
 
                 if move_to_device:
-                    partition=move(_partition, get_accelerator().current_device()).detach()
+                    partition = move(_partition, get_accelerator().current_device()).detach()
                     del _partition
-                    _partition=partition
-                
+                    _partition = partition
+
                 params_list[idx].data = _partition
-    def uneven_partition(self, params_list, move_to_device,**kwargs):
+
+    def uneven_partition(self, params_list, move_to_device, **kwargs):
         for idx, param in enumerate(params_list):
-            if param is None or idx>0:
+            if param is None or idx > 0:
                 # don't slipt bias
-                return 
-            _partition=params_list[idx].split(get_shard_size_list(params_list[idx].shape[1] ,self.tp_world_size,kwargs.get('name')),dim=1)[self.tp_index]
+                return
+            _partition = params_list[idx].split(get_shard_size_list(params_list[idx].shape[1], self.tp_world_size,
+                                                                    kwargs.get('name')),
+                                                dim=1)[self.tp_index]
 
             if move_to_device:
-                partition=move(_partition, get_accelerator().current_device()).detach()
+                partition = move(_partition, get_accelerator().current_device()).detach()
                 del _partition
-                _partition=partition
+                _partition = partition
             params_list[idx].data = _partition
 
-        
 
 class LinearLayer(Replaced_Layer):
 
-    def __init__(self, module, mp_group , skip_partition=False, **kwargs):
+    def __init__(self, module, mp_group, skip_partition=False, **kwargs):
         super(LinearLayer, self).__init__(mp_group)
         self.weight = module.weight
         self.bias = module.bias
@@ -319,18 +327,18 @@ def __init__(self, module, mp_group , skip_partition=False, **kwargs):
         if self.bias is not None:
             self.config_tp_training(self.bias)
 
-
     def forward(self, input):
         input = ColumnParallel.apply(self.mp_group, input)
         output = torch.matmul(input, self.weight.transpose(-1, -2))
         if self.bias is not None:
             output += self.bias
         return output
+
     @torch.no_grad()
     def gather_params(self, params_list):
         #  Does not support uneven shard.
         for idx, param in enumerate(params_list):
-        
+
             params_list[idx].data_partition = param.data
             output_param = torch.empty(self.tp_world_size * param.shape[0],
                                        param.shape[1],
@@ -338,131 +346,147 @@ def gather_params(self, params_list):
                                        device=param.device)
             dist.all_gather_into_tensor(output_param, param, group=self.mp_group)
             params_list[idx].data = output_param.contiguous()
+
     @torch.no_grad()
     def partition(self, params_list, move_to_device=False, **kwargs):
-        
+
         if not self.is_training_mode():
-            self.uneven_partition(params_list, move_to_device,**kwargs)
-            return 
+            self.uneven_partition(params_list, move_to_device, **kwargs)
+            return
         for idx, param in enumerate(params_list):
             if param is None:
-                return 
+                return
             #split bias if provide
-            _partition=torch.chunk(param, self.tp_world_size, dim=0)[self.tp_index]
+            _partition = torch.chunk(param, self.tp_world_size, dim=0)[self.tp_index]
 
             if move_to_device:
-                partition=move(_partition, get_accelerator().current_device()).detach()
+                partition = move(_partition, get_accelerator().current_device()).detach()
                 del _partition
-                _partition=partition
-            
+                _partition = partition
+
             params_list[idx].data = _partition
+
     def uneven_partition(self, params_list, move_to_device=False, **kwargs):
-        
+
         for idx, param in enumerate(params_list):
-            if param is None :
+            if param is None:
                 #split bias if provide
-                return 
-            _partition=params_list[idx].split(get_shard_size_list(params_list[idx].shape[0] ,self.tp_world_size,kwargs.get('name')),dim=0)[self.tp_index]
+                return
+            _partition = params_list[idx].split(get_shard_size_list(params_list[idx].shape[0], self.tp_world_size,
+                                                                    kwargs.get('name')),
+                                                dim=0)[self.tp_index]
 
             if move_to_device:
-                partition=move(_partition, get_accelerator().current_device()).detach()
+                partition = move(_partition, get_accelerator().current_device()).detach()
                 del _partition
-                _partition=partition
+                _partition = partition
             params_list[idx].data = _partition
+
     # for bwc
     @classmethod
     def from_weights(cls, weight_shape=None, dtype=torch.half, weight=None, bias=None):
         if weight is not None:
-            in_features = weight.shape[1] 
-            out_features = weight.shape[0]  
+            in_features = weight.shape[1]
+            out_features = weight.shape[0]
             linear = nn.Linear(in_features, out_features, bias=(bias is not None))
             linear.weight.data = weight
             if bias is not None:
                 linear.bias.data = bias
         else:
-            in_features = weight_shape[1] 
-            out_features = weight_shape[0]  
+            in_features = weight_shape[1]
+            out_features = weight_shape[0]
             linear = nn.Linear(in_features, out_features, bias=(bias is not None))
         return cls(linear, skip_partition=True)
-    
-    
+
 
 class fused_LinearLayer(LinearLayer):
+
     @torch.no_grad()
-    def partition(self, params_list, move_to_device=False, **kwargs): 
+    def partition(self, params_list, move_to_device=False, **kwargs):
         for idx, param in enumerate(params_list):
             if param is None:
-                return 
-            _partition=prepare_tp_fused_qkvw(kwargs.get('fused_module'), param, self.tp_world_size, self.tp_index )
+                return
+            _partition = prepare_tp_fused_qkvw(kwargs.get('fused_module'), param, self.tp_world_size, self.tp_index)
             if move_to_device:
-                partition=move(_partition, get_accelerator().current_device()).detach()
+                partition = move(_partition, get_accelerator().current_device()).detach()
                 del _partition
-                _partition=partition
+                _partition = partition
             params_list[idx].data = _partition
 
+
 class conv_LinearLayer(LinearLayer):
+
     @torch.no_grad()
     def partition(self, params_list, move_to_device=False):
         weight = None
         bias = None
-        if len(params_list)==1:
-            weight=params_list[0]
-        elif len(params_list)==2:
-            weight, bias=params_list[0], params_list[1]
-        _partition = weight.data.split(get_shard_size_list(weight.shape[0],  self.tp_world_size, self.name), dim=1)[self.tp_index]
-        partition=move(_partition, get_accelerator().current_device()).detach()
+        if len(params_list) == 1:
+            weight = params_list[0]
+        elif len(params_list) == 2:
+            weight, bias = params_list[0], params_list[1]
+        _partition = weight.data.split(get_shard_size_list(weight.shape[0], self.tp_world_size, self.name),
+                                       dim=1)[self.tp_index]
+        partition = move(_partition, get_accelerator().current_device()).detach()
         del _partition
-        weight.data=partition
-        
+        weight.data = partition
+
         if bias is not None:
-            _partition = bias.data.split(get_shard_size_list(
-                        weight.shape[1] ,self.tp_world_size, self.name),
-                                                      dim=0)[self.tp_index]
-            partition=move(_partition, get_accelerator().current_device()).detach()
+            _partition = bias.data.split(get_shard_size_list(weight.shape[1], self.tp_world_size, self.name),
+                                         dim=0)[self.tp_index]
+            partition = move(_partition, get_accelerator().current_device()).detach()
             del _partition
-            bias.data=partition
+            bias.data = partition
 
 
 #override the subclasses related to weight splitting.
 class Yuan_LinearALlreduce(LinearAllreduce):
-    
+
     @torch.no_grad()
     def partition(self, params_list, move_to_device=False):
-        params_list[0], params_list[1]=shard_value_with_share_qk(params_list[0],params_list[1],self.tp_world_size, self.tp_index, False)
+        params_list[0], params_list[1] = shard_value_with_share_qk(params_list[0], params_list[1], self.tp_world_size,
+                                                                   self.tp_index, False)
+
 
 class Yuan_LinearLayer(LinearLayer):
+
     @torch.no_grad()
     def partition(self, params_list, move_to_device=False):
-        weight, bias=shard_value_with_share_qk(params_list[0],params_list[1],self.tp_world_size, self.tp_index, False)
-        params_list[0].data=weight
-        if bias is not None:  
-            params_list[1].data=bias
+        weight, bias = shard_value_with_share_qk(params_list[0], params_list[1], self.tp_world_size, self.tp_index,
+                                                 False)
+        params_list[0].data = weight
+        if bias is not None:
+            params_list[1].data = bias
+
+
 class GLM_LinearLayer(LinearLayer):
+
     @torch.no_grad()
     def partition(self, params_list, move_to_device=False):
-        weight, bias=shard_chunk_mlp(params_list[0].data,params_list[1],self.tp_index, self.tp_world_size )
-        params_list[0].data=weight
-        if bias is not None:  
-            params_list[1].data=bias
+        weight, bias = shard_chunk_mlp(params_list[0].data, params_list[1], self.tp_index, self.tp_world_size)
+        params_list[0].data = weight
+        if bias is not None:
+            params_list[1].data = bias
+
+
 class Conv_LinearALlreduce(LinearAllreduce):
+
     @torch.no_grad()
-    def partition(self, params_list, move_to_device=False):            
+    def partition(self, params_list, move_to_device=False):
         for idx, param in enumerate(params_list):
             if param is None:
-                return 
-            param.data= param.data.transpose(-1, -2).contiguous()
-            
-            _partition=param.split(get_shard_size_list(
-                param.shape[0] , self.tp_world_size, self.name),
-                                           dim=1)[self.tp_index]
+                return
+            param.data = param.data.transpose(-1, -2).contiguous()
+
+            _partition = param.split(get_shard_size_list(param.shape[0], self.tp_world_size, self.name),
+                                     dim=1)[self.tp_index]
 
             if move_to_device:
-                partition=move(_partition, get_accelerator().current_device())
+                partition = move(_partition, get_accelerator().current_device())
                 del _partition
-                _partition=partition
-            
+                _partition = partition
+
             params_list[idx].data = _partition
-        
+
 
 #override the subclasses related to fwd/bwd.
 class LmHeadLinearAllreduce(LinearAllreduce):
@@ -477,10 +501,8 @@ def forward(self, input):
         if self.bias is not None:
             output += self.bias
         return output
-        
-        
-        
-        
+
+
 class TensorParallelConv2d(nn.Module):
 
     def __init__(self, conv, rank, world_size, shard_by_oc):
diff --git a/deepspeed/module_inject/load_checkpoint.py b/deepspeed/module_inject/load_checkpoint.py
index ed8dc2d7a63f..862628fa7b4b 100644
--- a/deepspeed/module_inject/load_checkpoint.py
+++ b/deepspeed/module_inject/load_checkpoint.py
@@ -249,7 +249,9 @@ def load_module_recursive(module, prefix='', level=0):
                         child = Normalize(dim=ds_shape[-1], dtype=child.weight.dtype, eps=child.eps)
                         setattr(module, name, child)
                     elif child.__class__ in [nn.Linear, ColumnParallelLinear, RowParallelLinear]:
-                        child = LinearLayer.from_weights(weight_shape=child.weight.shape, dtype=child.weight.dtype, bias=child.bias)
+                        child = LinearLayer.from_weights(weight_shape=child.weight.shape,
+                                                         dtype=child.weight.dtype,
+                                                         bias=child.bias)
                         setattr(module, name, child)
                     elif child.__class__ is OPTLearnedPositionalEmbedding:
                         child = OPTEmbedding(weight_shape=ds_shape)
diff --git a/deepspeed/runtime/engine.py b/deepspeed/runtime/engine.py
index 8777a86c31f7..831d1b9d6d4c 100755
--- a/deepspeed/runtime/engine.py
+++ b/deepspeed/runtime/engine.py
@@ -414,8 +414,8 @@ def _optimized_linear_offload_setup(self):
 
     def _configure_tensor_parallel_states(self, model):
         """
-        Configures the tensor parallel states for the model. 
-        This includes setting up the tensor parallel groups, initializing the TP mesh, 
+        Configures the tensor parallel states for the model.
+        This includes setting up the tensor parallel groups, initializing the TP mesh,
         and registering a pre-hook to ensure that the Dataloader inputs are consistent across ranks.
         """
         # The compatibility has only been validated for 'gpus==autotp_size' at the moment.
@@ -429,46 +429,57 @@ def _configure_tensor_parallel_states(self, model):
 
         self.mpu = groups
         self.mpu._init_tp_mesh_device(tensor_model_parallel_size=self.zero_autotp_size())
-        
-        self.first_dataloader_check=None
+
+        self.first_dataloader_check = None
+
         def check_dataloader_inputs_same_across_ranks(module, args, kwargs):
 
             def broadcast_and_check(args, bcast_rank, bcast_group):
-                if isinstance(args, tuple): 
-                    args = list(args) 
-                if len(args) >0:
-                    if self.mpu.get_tensor_model_parallel_rank()==0:
-                        _src_args=[args]
-                        dist.broadcast_object_list(object_list=_src_args, src=bcast_rank, group=bcast_group, device=get_accelerator().current_device())
+                if isinstance(args, tuple):
+                    args = list(args)
+                if len(args) > 0:
+                    if self.mpu.get_tensor_model_parallel_rank() == 0:
+                        _src_args = [args]
+                        dist.broadcast_object_list(object_list=_src_args,
+                                                   src=bcast_rank,
+                                                   group=bcast_group,
+                                                   device=get_accelerator().current_device())
                         # Rank 0 does not need to compare with itself
-                        is_equal=True
+                        is_equal = True
                     else:
-                        _src_args=[None]
-                        dist.broadcast_object_list(object_list=_src_args, src=bcast_rank, group=bcast_group, device=get_accelerator().current_device())
+                        _src_args = [None]
+                        dist.broadcast_object_list(object_list=_src_args,
+                                                   src=bcast_rank,
+                                                   group=bcast_group,
+                                                   device=get_accelerator().current_device())
 
                         print(f"RANK[{dist.get_rank()}],bcast finished")
-                        is_equal=compare_tensors_in_structures(args, _src_args[0])
-                        
-                
-                    equal_tensor = torch.tensor(is_equal,dtype=self.communication_data_type,device=get_accelerator().current_device())
-                    dist.all_reduce(equal_tensor,group=bcast_group)
-                    assert torch.equal(equal_tensor, torch.tensor(groups.get_tensor_model_parallel_world_size(), dtype=self.communication_data_type,device=get_accelerator().current_device())), "Data inconsistency within the TP group. Please check the Dataloader implementation to ensure consistency."
-            
-            bcast_rank=self.mpu.get_tensor_model_parallel_src_rank()
-            bcast_group=self.mpu.get_tensor_model_parallel_group()
-            
+                        is_equal = compare_tensors_in_structures(args, _src_args[0])
+
+                    equal_tensor = torch.tensor(is_equal,
+                                                dtype=self.communication_data_type,
+                                                device=get_accelerator().current_device())
+                    dist.all_reduce(equal_tensor, group=bcast_group)
+                    assert torch.equal(
+                        equal_tensor,
+                        torch.tensor(groups.get_tensor_model_parallel_world_size(),
+                                     dtype=self.communication_data_type,
+                                     device=get_accelerator().current_device())
+                    ), "Data inconsistency within the TP group. Please check the Dataloader implementation to ensure consistency."
+
+            bcast_rank = self.mpu.get_tensor_model_parallel_src_rank()
+            bcast_group = self.mpu.get_tensor_model_parallel_group()
+
             broadcast_and_check(args, bcast_rank, bcast_group)
             broadcast_and_check(kwargs, bcast_rank, bcast_group)
-            
 
             print(f"RANK[{dist.get_rank()}]:The Dataloader has passed the TP group consistency check.")
 
             self.first_dataloader_check.remove()
-            
-        self.first_dataloader_check= self.module.register_forward_pre_hook(check_dataloader_inputs_same_across_ranks,prepend=True, with_kwargs=True)
-        
-        
 
+        self.first_dataloader_check = self.module.register_forward_pre_hook(check_dataloader_inputs_same_across_ranks,
+                                                                            prepend=True,
+                                                                            with_kwargs=True)
 
     def destroy(self):
         if self.optimizer is not None and hasattr(self.optimizer, 'destroy'):
@@ -1170,7 +1181,6 @@ def _do_sanity_check(self):
 
     def _broadcast_model(self):
 
-
         def is_replicated(p):
             if hasattr(p, "ds_status") and p.ds_status is not ZeroParamStatus.AVAILABLE:
                 return False
@@ -2557,9 +2567,7 @@ def _reduce_non_expert_gradients(self, grads, elements_per_buffer):
         else:
             dp_group = groups._get_sequence_data_parallel_group()
             dp_world_size = dist.get_world_size(dp_group) / float(self.sequence_parallel_size)
-            
 
-        
         for _, sparse_bucket_tuple in enumerate(split_sparse_tensor_buckets):
             if sparse_bucket_tuple:
                 bucket_type, sparse_bucket = sparse_bucket_tuple
diff --git a/deepspeed/runtime/utils.py b/deepspeed/runtime/utils.py
index 63a1a8c053de..91fe7cbdcc96 100755
--- a/deepspeed/runtime/utils.py
+++ b/deepspeed/runtime/utils.py
@@ -1103,10 +1103,7 @@ def move_back_key(state, key):
             move_back_key(state, "exp_avg_sq")
 
 
-def compare_tensors_in_structures(
-    inputs1: Union[List, Dict],
-    inputs2: Union[List, Dict]
-) -> bool:
+def compare_tensors_in_structures(inputs1: Union[List, Dict], inputs2: Union[List, Dict]) -> bool:
     """
     Compare two lists or dictionaries for equality, including any tensors they may contain.
 
@@ -1119,17 +1116,17 @@ def compare_tensors_in_structures(
     """
     if type(inputs1) != type(inputs2):  # Ensure types match
         return False
-    
+
     if isinstance(inputs1, list) and isinstance(inputs2, list):
         if len(inputs1) != len(inputs2):
             return False
         for val1, val2 in zip(inputs1, inputs2):
             if isinstance(val1, torch.Tensor) and isinstance(val2, torch.Tensor):
-                val1=val1.to(get_accelerator().current_device())
-                val2=val2.to(get_accelerator().current_device())
-                if not torch.equal(val1, val2): 
+                val1 = val1.to(get_accelerator().current_device())
+                val2 = val2.to(get_accelerator().current_device())
+                if not torch.equal(val1, val2):
                     return False
-            elif val1 != val2:  
+            elif val1 != val2:
                 return False
         return True
 
@@ -1140,10 +1137,10 @@ def compare_tensors_in_structures(
             val1 = inputs1[key].to(get_accelerator().current_device())
             val2 = inputs2[key].to(get_accelerator().current_device())
             if isinstance(val1, torch.Tensor) and isinstance(val2, torch.Tensor):
-                if not torch.equal(val1, val2): 
+                if not torch.equal(val1, val2):
                     return False
-            elif val1 != val2:  
+            elif val1 != val2:
                 return False
         return True
 
-    return False
\ No newline at end of file
+    return False
diff --git a/deepspeed/utils/groups.py b/deepspeed/utils/groups.py
index b5f0085f2091..869bf0d6a6bc 100755
--- a/deepspeed/utils/groups.py
+++ b/deepspeed/utils/groups.py
@@ -46,7 +46,6 @@
 # All to All quantized graident communication groups
 _ALL_TO_ALL_GROUP = {}
 
-
 mesh_device = None
 
 
@@ -63,8 +62,6 @@ def _ensure_divisibility(numerator, denominator):
     assert numerator % denominator == 0, '{} is not divisible by {}'.format(numerator, denominator)
 
 
-
-
 # ======== Start: Tensor Parallel Group Attributes ========
 
 # Intra-layer model parallel group that the current rank belongs to.
@@ -79,30 +76,32 @@ def _ensure_divisibility(numerator, denominator):
 _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE = None
 _MPU_TENSOR_MODEL_PARALLEL_RANK = None
 
+
 def _init_tp_mesh_device(tensor_model_parallel_size=1, data_parallel_size=1):
     """Initialize model data parallel groups."""
 
     global _DATA_PARALLEL_GROUP
     global _MODEL_PARALLEL_GROUP
     global _TENSOR_MODEL_PARALLEL_GROUP
-    
-    data_parallel_size = dist.get_world_size()//tensor_model_parallel_size
-    
-    mesh_device = dist.initialize_mesh_device((data_parallel_size, tensor_model_parallel_size), ("data_parallel", "tensor_parallel"))
-    _TENSOR_MODEL_PARALLEL_GROUP= mesh_device.get_group(mesh_dim="tensor_parallel")
+
+    data_parallel_size = dist.get_world_size() // tensor_model_parallel_size
+
+    mesh_device = dist.initialize_mesh_device((data_parallel_size, tensor_model_parallel_size),
+                                              ("data_parallel", "tensor_parallel"))
+    _TENSOR_MODEL_PARALLEL_GROUP = mesh_device.get_group(mesh_dim="tensor_parallel")
     _DATA_PARALLEL_GROUP = mesh_device.get_group(mesh_dim="data_parallel")
-    
+
     # They are always equal only in 2D (DP + TP) parallelism.
     # _MODEL_PARALLEL_GROUP is assigned the same value as _TENSOR_MODEL_PARALLEL_GROUP
     # to allow for future potential changes.
     _MODEL_PARALLEL_GROUP = _TENSOR_MODEL_PARALLEL_GROUP
-    
+
     return _DATA_PARALLEL_GROUP, _MODEL_PARALLEL_GROUP
-    
-    
+
+
 def get_tensor_model_parallel_group():
     """Get the tensor model parallel group the caller rank belongs to."""
-    
+
     assert _TENSOR_MODEL_PARALLEL_GROUP is not None, \
         'intra_layer_model parallel group is not initialized'
     return _TENSOR_MODEL_PARALLEL_GROUP
@@ -110,7 +109,7 @@ def get_tensor_model_parallel_group():
 
 def get_model_parallel_group():
     """Get the model parallel group the caller rank belongs to."""
-    
+
     assert _MODEL_PARALLEL_GROUP is not None, \
         'model parallel group is not initialized'
     return _MODEL_PARALLEL_GROUP
@@ -122,27 +121,31 @@ def get_data_parallel_group():
         'data parallel group is not initialized'
     return _DATA_PARALLEL_GROUP
 
+
 def set_tensor_model_parallel_world_size(world_size):
     """Set the tensor model parallel size"""
     global _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE
     _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE = world_size
 
 
-
 def get_tensor_model_parallel_world_size():
     """Return world size for the tensor model parallel group."""
     global _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE
     if _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE is not None:
         return _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE
     return dist.get_world_size(group=get_tensor_model_parallel_group())
+
+
 def get_model_parallel_world_size():
     return get_tensor_model_parallel_world_size()
 
+
 def set_tensor_model_parallel_rank(rank):
     """Set tensor model parallel rank."""
     global _MPU_TENSOR_MODEL_PARALLEL_RANK
     _MPU_TENSOR_MODEL_PARALLEL_RANK = rank
 
+
 def get_tensor_model_parallel_rank():
     """Return my rank for the tensor model parallel group."""
     global _MPU_TENSOR_MODEL_PARALLEL_RANK
@@ -150,9 +153,11 @@ def get_tensor_model_parallel_rank():
         return _MPU_TENSOR_MODEL_PARALLEL_RANK
     return dist.get_rank(group=get_tensor_model_parallel_group())
 
+
 def get_model_parallel_rank():
     return get_tensor_model_parallel_rank()
 
+
 def get_tensor_model_parallel_src_rank():
     """Calculate the global rank corresponding to the first local rank
     in the tensor model parallel group."""
@@ -165,14 +170,15 @@ def get_data_parallel_world_size():
     """Return world size for the data parallel group."""
     return dist.get_world_size(group=get_data_parallel_group())
 
+
 def get_data_parallel_rank():
     """Return my rank for the data parallel group."""
     return dist.get_rank(group=get_data_parallel_group())
 
+
 # ======== End: Tensor Parallel Group Attributes ========
-    
-    
-    
+
+
 # Not currently used. Helper function to create a model (tensor) parallel group.
 def _create_model_parallel(model_parallel_size_):
     """
diff --git a/tests/unit/model_parallelism/test_autotp_training.py b/tests/unit/model_parallelism/test_autotp_training.py
index 3b0db935d56f..e7cc637b5873 100644
--- a/tests/unit/model_parallelism/test_autotp_training.py
+++ b/tests/unit/model_parallelism/test_autotp_training.py
@@ -11,7 +11,7 @@
 from unit.common import DistributedTest, preferred_dtype
 import deepspeed
 from deepspeed.accelerator import get_accelerator
-from unit.simple_model import SimpleModel, random_dataloader, sequence_dataloader
+from unit.simple_model import SimpleModel, random_dataloader
 from deepspeed.utils import groups
 from contextlib import contextmanager
 from torch import nn
@@ -22,18 +22,20 @@
 # test fwd/ bwd   done
 # test gather/partition done
 # test save/load ckpt  done
-# test save model done 
+# test save model done
 # test grad_norm  done , need to refine.
 # test compatibility with zero.etc.?
 # todo:add more batch_size/hidden_dim  test
 
+
 class SequentialLinearModel(torch.nn.Module):
 
     def __init__(self, hidden_dim, empty_grad=False, nlayers=1):
         super(SequentialLinearModel, self).__init__()
-        self.linears = torch.nn.ModuleList([torch.nn.Linear(hidden_dim, hidden_dim,bias=None) for i in range(nlayers)])
+        self.linears = torch.nn.ModuleList(
+            [torch.nn.Linear(hidden_dim, hidden_dim, bias=None) for i in range(nlayers)])
         if empty_grad:
-            self.linear2 = torch.nn.Linear(hidden_dim, hidden_dim,bias=None)
+            self.linear2 = torch.nn.Linear(hidden_dim, hidden_dim, bias=None)
         self.cross_entropy_loss = torch.nn.CrossEntropyLoss()
         self.empty_grad = empty_grad
 
@@ -49,44 +51,39 @@ def forward(self, x, y):
 @contextmanager
 def should_assert_with_msg(expected_message):
     try:
-        yield  
+        yield
     except AssertionError as e:
-        if dist.get_rank()==0:
+        if dist.get_rank() == 0:
             print(expected_message)
             print(str(e))
         if str(e) == expected_message:
-            pass  
+            pass
         else:
-            raise e  
-        
+            raise e
+
+
 class TestTpParallelStates(DistributedTest):
     world_size = 4
+
     def test(self):
         set_autotp_mode(training=True)
-        tp_size=4
+        tp_size = 4
 
         dp_size = 4 / dist.get_world_size()
         hidden_dim = 128
-        config_dict = {
-            "train_micro_batch_size_per_gpu": 1,
-            "zero_optimization": {
-                "stage": 0,
-                "autotp_size":tp_size
-          
-            }
-        }
+        config_dict = {"train_micro_batch_size_per_gpu": 1, "zero_optimization": {"stage": 0, "autotp_size": tp_size}}
         model = SimpleModel(hidden_dim=hidden_dim)
         model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
-        assert groups.get_tensor_model_parallel_world_size()==tp_size
-        assert groups.get_data_parallel_world_size()==dp_size
+        assert groups.get_tensor_model_parallel_world_size() == tp_size
+        assert groups.get_data_parallel_world_size() == dp_size
+
 
-        
 class TestTpDataloaderCorrectness(DistributedTest):
     world_size = 4
     reuse_dist_env = True
-    
+
     def test(self):
-        tp_size=4
+        tp_size = 4
         hidden_dim = 128
         set_autotp_mode(training=True)
         config_dict = {
@@ -100,8 +97,7 @@ def test(self):
             },
             "zero_optimization": {
                 "stage": 0,
-                "autotp_size":tp_size
-          
+                "autotp_size": tp_size
             }
         }
         if preferred_dtype() is torch.float16:
@@ -117,12 +113,14 @@ def test(self):
                                         device=model.device,
                                         dtype=preferred_dtype())
         dist.barrier()
-        with should_assert_with_msg("Data inconsistency within the TP group. Please check the Dataloader implementation to ensure consistency."):
+        with should_assert_with_msg(
+                "Data inconsistency within the TP group. Please check the Dataloader implementation to ensure consistency."
+        ):
             for batch in data_loader:
                 # batch[0].requires_grad = requires_grad
-                batch[0]+= dist.get_rank()
+                batch[0] += dist.get_rank()
                 model(batch[0], batch[1])
-                
+
         model = SimpleModel(hidden_dim=hidden_dim)
         model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
         data_loader = random_dataloader(model=model,
@@ -131,10 +129,15 @@ def test(self):
                                         device=model.device,
                                         dtype=preferred_dtype())
         for batch in data_loader:
-            dist.broadcast(batch[0],src=groups.get_tensor_model_parallel_src_rank(),group=groups.get_tensor_model_parallel_group())
-            dist.broadcast(batch[1],src=groups.get_tensor_model_parallel_src_rank(),group=groups.get_tensor_model_parallel_group())
+            dist.broadcast(batch[0],
+                           src=groups.get_tensor_model_parallel_src_rank(),
+                           group=groups.get_tensor_model_parallel_group())
+            dist.broadcast(batch[1],
+                           src=groups.get_tensor_model_parallel_src_rank(),
+                           group=groups.get_tensor_model_parallel_group())
             model(batch[0], batch[1])
 
+
 def process_linear_layer(hidden_dim, input):
     torch_linear = nn.Linear(hidden_dim, hidden_dim, dtype=preferred_dtype(), device="cpu", bias=None)
     torch_out = torch_linear(input)
@@ -148,10 +151,11 @@ def process_linear_layer(hidden_dim, input):
 class TestTpLayerFwdBwd(DistributedTest):
     world_size = 4
     reuse_dist_env = True
+
     def testRowParallel(self):
-        tp_size=4
+        tp_size = 4
         hidden_dim = 128
-        batch_size_per_device=1
+        batch_size_per_device = 1
         set_autotp_mode(training=True)
         config_dict = {
             "train_micro_batch_size_per_gpu": 1,
@@ -164,8 +168,7 @@ def testRowParallel(self):
             },
             "zero_optimization": {
                 "stage": 0,
-                "autotp_size":tp_size
-          
+                "autotp_size": tp_size
             }
         }
         if preferred_dtype() is torch.float16:
@@ -176,30 +179,34 @@ def testRowParallel(self):
 
         model = SequentialLinearModel(hidden_dim=hidden_dim)
         model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
-        input = torch.randn(batch_size_per_device, hidden_dim, dtype=preferred_dtype(), requires_grad=True,device="cpu")
+        input = torch.randn(batch_size_per_device,
+                            hidden_dim,
+                            dtype=preferred_dtype(),
+                            requires_grad=True,
+                            device="cpu")
 
         torch_linear, torch_out, torch_norm = process_linear_layer(hidden_dim, input)
-        
+
         linear = LinearAllreduce(torch_linear, groups.get_tensor_model_parallel_group())
         input.to(get_accelerator().current_device())
-        
-        input_=torch.chunk(input, tp_size, dim=-1)[groups.get_tensor_model_parallel_rank()]
+
+        input_ = torch.chunk(input, tp_size, dim=-1)[groups.get_tensor_model_parallel_rank()]
         out = linear(input_.to(get_accelerator().current_device()))
         loss = out.sum()
         loss.backward()
         norm = torch.norm(linear.weight.grad)
-        norm_pow =norm**2
-        dist.all_reduce(norm_pow,group=groups.get_tensor_model_parallel_group())
-        norm=torch.sqrt(norm_pow)
-        
+        norm_pow = norm**2
+        dist.all_reduce(norm_pow, group=groups.get_tensor_model_parallel_group())
+        norm = torch.sqrt(norm_pow)
+
         assert torch.equal(norm, torch_norm.to(get_accelerator().current_device()))
-        assert torch.allclose(out, torch_out.to(get_accelerator().current_device()),atol=1e-3)
- 
+        assert torch.allclose(out, torch_out.to(get_accelerator().current_device()), atol=1e-3)
+
     def testColumnParallel(self):
-        
-        tp_size=4
+
+        tp_size = 4
         hidden_dim = 128
-        batch_size_per_device=1
+        batch_size_per_device = 1
         set_autotp_mode(training=True)
         config_dict = {
             "train_micro_batch_size_per_gpu": 1,
@@ -212,8 +219,7 @@ def testColumnParallel(self):
             },
             "zero_optimization": {
                 "stage": 0,
-                "autotp_size":tp_size
-          
+                "autotp_size": tp_size
             }
         }
         if preferred_dtype() is torch.float16:
@@ -224,29 +230,37 @@ def testColumnParallel(self):
 
         model = SequentialLinearModel(hidden_dim=hidden_dim)
         model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
-        input = torch.randn(batch_size_per_device, hidden_dim, dtype=preferred_dtype(), requires_grad=True,device="cpu")
+        input = torch.randn(batch_size_per_device,
+                            hidden_dim,
+                            dtype=preferred_dtype(),
+                            requires_grad=True,
+                            device="cpu")
 
         torch_linear, torch_out, torch_norm = process_linear_layer(hidden_dim, input)
-        
+
         linear = LinearLayer(torch_linear, groups.get_tensor_model_parallel_group())
-        
+
         out = linear(input.to(get_accelerator().current_device()))
         loss = out.sum()
         loss.backward()
         norm = torch.norm(linear.weight.grad)
-        norm_pow =norm**2
-        dist.all_reduce(norm_pow,group=groups.get_tensor_model_parallel_group())
-        norm=torch.sqrt(norm_pow)   
+        norm_pow = norm**2
+        dist.all_reduce(norm_pow, group=groups.get_tensor_model_parallel_group())
+        norm = torch.sqrt(norm_pow)
         cur_device_out = torch.chunk(torch_out, tp_size, dim=-1)[groups.get_tensor_model_parallel_rank()]
         assert torch.equal(norm, torch_norm.to(get_accelerator().current_device()))
-        assert  torch.allclose(cur_device_out.to(get_accelerator().current_device()).contiguous(), out.contiguous(),atol=1e-3)
+        assert torch.allclose(cur_device_out.to(get_accelerator().current_device()).contiguous(),
+                              out.contiguous(),
+                              atol=1e-3)
+
 
 class TestParamsGather(DistributedTest):
     world_size = 4
     reuse_dist_env = True
+
     @pytest.mark.parametrize("layer_type", ["linear", "linearallreduce"])
     def test(self, layer_type):
-        tp_size=4
+        tp_size = 4
         hidden_dim = 128
         set_autotp_mode(training=True)
         config_dict = {
@@ -259,8 +273,7 @@ def test(self, layer_type):
             },
             "zero_optimization": {
                 "stage": 0,
-                "autotp_size":tp_size
-          
+                "autotp_size": tp_size
             }
         }
         if preferred_dtype() is torch.float16:
@@ -272,7 +285,7 @@ def test(self, layer_type):
         model = SequentialLinearModel(hidden_dim=hidden_dim)
         model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
 
-        torch_linear = nn.Linear(hidden_dim, hidden_dim, dtype=preferred_dtype(),device="cpu", bias=None)
+        torch_linear = nn.Linear(hidden_dim, hidden_dim, dtype=preferred_dtype(), device="cpu", bias=None)
         total_params = sum(p.numel() for p in torch_linear.parameters())
 
         tp_layer = None
@@ -282,27 +295,28 @@ def test(self, layer_type):
             tp_layer = LinearAllreduce(torch_linear, groups.get_tensor_model_parallel_group())
         else:
             raise ValueError(f"Invalid linear type: {config_dict['linear_type']}")
-        
+
         tp_params = sum(p.numel() for p in tp_layer.parameters())
-        
-        assert total_params//tp_size==tp_params
+
+        assert total_params // tp_size == tp_params
         for name, param in tp_layer.named_parameters(recurse=False):
             param.gather_params([param])
 
-        is_same_weights = all(torch.equal(param1, param2) 
-                   for param1, param2 in zip(tp_layer.parameters(), torch_linear.parameters()))
-        
+        is_same_weights = all(
+            torch.equal(param1, param2) for param1, param2 in zip(tp_layer.parameters(), torch_linear.parameters()))
+
         assert is_same_weights
-         
+
         params1 = sum(p.numel() for p in tp_layer.parameters())
-        assert total_params==params1
+        assert total_params == params1
 
         for name, param in tp_layer.named_parameters(recurse=False):
             param.partition([param])
-        
+
         tp_params2 = sum(p.numel() for p in tp_layer.parameters())
 
-        assert total_params//tp_size==tp_params2
+        assert total_params // tp_size == tp_params2
+
 
 def dummy_init_engine(config):
     # This is a dummy initialization function for the DeepSpeed engine.
@@ -310,27 +324,31 @@ def dummy_init_engine(config):
     model = SequentialLinearModel(hidden_dim=8)
     model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config)
 
+
 def prepare_tp_model(hidden_dim, nlayers, linear_indices, allreduce_indices, group, return_global_copy=False):
     model = SequentialLinearModel(hidden_dim=hidden_dim, nlayers=nlayers).to(preferred_dtype())
-    base_model=None
+    base_model = None
     from copy import deepcopy
     if return_global_copy:
         base_model = deepcopy(model)
     for i in linear_indices:
         layer = LinearLayer(model.linears[i], group)
         model.linears[i] = layer
-    
+
     for i in allreduce_indices:
         layer = LinearAllreduce(model.linears[i], group)
         model.linears[i] = layer
-    
+
     return model, base_model
+
+
 class TestSave(DistributedTest):
-    
+
     world_size = 4
     reuse_dist_env = True
+
     def test_save_original_weight(self):
-        tp_size=4
+        tp_size = 4
         hidden_dim = 64
         set_autotp_mode(training=True)
         config_dict = {
@@ -344,7 +362,7 @@ def test_save_original_weight(self):
             },
             "zero_optimization": {
                 "stage": 0,
-                "autotp_size":tp_size
+                "autotp_size": tp_size
             }
         }
         if preferred_dtype() is torch.float16:
@@ -353,36 +371,41 @@ def test_save_original_weight(self):
             config_dict["bf16"] = {"enabled": True}
         dummy_init_engine(config_dict)
         torch.manual_seed(42)
-        
-        model, base_model=prepare_tp_model(hidden_dim, 8, [2,5], [3,6], groups.get_tensor_model_parallel_group(),return_global_copy=True)
+
+        model, base_model = prepare_tp_model(hidden_dim,
+                                             8, [2, 5], [3, 6],
+                                             groups.get_tensor_model_parallel_group(),
+                                             return_global_copy=True)
         model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
 
         cur_params_numel = sum(p.numel() for p in model.parameters())
-        base_params_numel =  sum(p.numel() for p in base_model.parameters())
-        assert cur_params_numel<base_params_numel
-        
+        base_params_numel = sum(p.numel() for p in base_model.parameters())
+        assert cur_params_numel < base_params_numel
+
         tp_state_dict = model._consolidated_16bit_state_dict()
+
         def compare_state_dicts(state_dict1, state_dict2):
             if state_dict1.keys() != state_dict2.keys():
                 print("The state_dicts have different keys!")
                 return False
-            
+
             for key in state_dict1:
-                if not torch.allclose(state_dict1[key], state_dict2[key],atol=1e-3):
-                    assert state_dict1[key].device=="cpu"
+                if not torch.allclose(state_dict1[key], state_dict2[key], atol=1e-3):
+                    assert state_dict1[key].device == "cpu"
                     print(f"Parameters for {key} are different!")
                     return False
-            
+
             return True
+
         base_state_dict = base_model.state_dict()
-        if dist.get_rank()==0:
-        # we should consider the case when zero3 is used in the future.
+        if dist.get_rank() == 0:
+            # we should consider the case when zero3 is used in the future.
             assert compare_state_dicts(base_state_dict, tp_state_dict), f"State_dict is not the same!"
         else:
             assert tp_state_dict is None, f"noly rank0 should have the state_dict"
-      
-    def test_ckpt_save(self):    
-        tp_size=4
+
+    def test_ckpt_save(self):
+        tp_size = 4
         hidden_dim = 64
         set_autotp_mode(training=True)
         config_dict = {
@@ -396,11 +419,10 @@ def test_ckpt_save(self):
             },
             "zero_optimization": {
                 "stage": 0,
-                "autotp_size":tp_size
-          
+                "autotp_size": tp_size
             },
             "scheduler": {
-            "type": "WarmupLR",
+                "type": "WarmupLR",
                 "params": {
                     "warmup_min_lr": 0,
                     "warmup_max_lr": 0.001,
@@ -408,7 +430,7 @@ def test_ckpt_save(self):
                 }
             }
         }
-  
+
         if preferred_dtype() is torch.float16:
             config_dict["fp16"] = {"enabled": True}
         elif preferred_dtype() is torch.bfloat16:
@@ -416,17 +438,19 @@ def test_ckpt_save(self):
 
         dummy_init_engine(config_dict)
 
-        trained_model, _=prepare_tp_model(hidden_dim, 8, [2,5], [3,6], groups.get_tensor_model_parallel_group())
-        loaded_model, _=prepare_tp_model(hidden_dim, 8, [2,5], [3,6], groups.get_tensor_model_parallel_group())
+        trained_model, _ = prepare_tp_model(hidden_dim, 8, [2, 5], [3, 6], groups.get_tensor_model_parallel_group())
+        loaded_model, _ = prepare_tp_model(hidden_dim, 8, [2, 5], [3, 6], groups.get_tensor_model_parallel_group())
 
-        trained_model,_,_,_= deepspeed.initialize(model=trained_model, model_parameters=trained_model.parameters(), config=config_dict)
+        trained_model, _, _, _ = deepspeed.initialize(model=trained_model,
+                                                      model_parameters=trained_model.parameters(),
+                                                      config=config_dict)
         torch.manual_seed(42)
 
         data_loader = random_dataloader(model=trained_model,
-                                total_samples=3,
-                                hidden_dim=hidden_dim,
-                                device=trained_model.device,
-                                dtype=preferred_dtype())
+                                        total_samples=3,
+                                        hidden_dim=hidden_dim,
+                                        device=trained_model.device,
+                                        dtype=preferred_dtype())
         ckpt_path = "./test_ckpt/"
         for i, batch in enumerate(data_loader):
             batch[0].requires_grad = True
@@ -435,19 +459,23 @@ def test_ckpt_save(self):
             trained_model.backward(loss)
             trained_model.step()
         trained_model.save_checkpoint(ckpt_path)
-                 
-        loaded_model,_,_,_ = deepspeed.initialize(model=loaded_model, model_parameters=loaded_model.parameters(),config=config_dict)
-        loaded_model.load_checkpoint(ckpt_path,load_optimizer_states=True,load_lr_scheduler_states=True)
-        from unit.checkpoint.common import compare_lr_scheduler_states,compare_optimizer_states
-        compare_optimizer_states(trained_model,  loaded_model, hidden_dim,  fp16=(preferred_dtype()==torch.float16))
+
+        loaded_model, _, _, _ = deepspeed.initialize(model=loaded_model,
+                                                     model_parameters=loaded_model.parameters(),
+                                                     config=config_dict)
+        loaded_model.load_checkpoint(ckpt_path, load_optimizer_states=True, load_lr_scheduler_states=True)
+        from unit.checkpoint.common import compare_lr_scheduler_states, compare_optimizer_states
+        compare_optimizer_states(trained_model, loaded_model, hidden_dim, fp16=(preferred_dtype() == torch.float16))
         compare_lr_scheduler_states(trained_model, loaded_model)
-        
+
+
 class TestTpGradNorm(DistributedTest):
-    
+
     world_size = 4
     reuse_dist_env = True
+
     def test(self):
-        tp_size=4
+        tp_size = 4
         hidden_dim = 64
         set_autotp_mode(training=True)
         config_dict = {
@@ -460,8 +488,8 @@ def test(self):
                 }
             },
             "zero_optimization": {
-                "stage": 0,  
-                "autotp_size":4  
+                "stage": 0,
+                "autotp_size": 4
             }
         }
         if preferred_dtype() is torch.float16:
@@ -470,16 +498,21 @@ def test(self):
             config_dict["bf16"] = {"enabled": True}
 
         torch.manual_seed(42)
-    
+
         dummy_init_engine(config=config_dict)
-        tp_model,base_model = prepare_tp_model(hidden_dim, 8, [2,5], [3,6], groups.get_tensor_model_parallel_group(),return_global_copy=True)
-        
-        base_model, base_optimizer, _, _ = deepspeed.initialize(model=base_model, model_parameters=base_model.parameters(), config=config_dict)
+        tp_model, base_model = prepare_tp_model(hidden_dim,
+                                                8, [2, 5], [3, 6],
+                                                groups.get_tensor_model_parallel_group(),
+                                                return_global_copy=True)
+
+        base_model, base_optimizer, _, _ = deepspeed.initialize(model=base_model,
+                                                                model_parameters=base_model.parameters(),
+                                                                config=config_dict)
         data_loader = random_dataloader(model=base_model,
-                                total_samples=2,
-                                hidden_dim=hidden_dim,
-                                device=base_model.device,
-                                dtype=preferred_dtype())
+                                        total_samples=2,
+                                        hidden_dim=hidden_dim,
+                                        device=base_model.device,
+                                        dtype=preferred_dtype())
         with base_model.no_sync():
             # duplicate each rank training.
             for i, batch in enumerate(data_loader):
@@ -488,12 +521,14 @@ def test(self):
                 loss = loss
                 base_model.backward(loss)
                 base_model.step()
-            
-        base_norm =  base_optimizer._global_grad_norm
-        
+
+        base_norm = base_optimizer._global_grad_norm
+
         base_model.destroy()
-        
-        tp_model, tp_optimizer, _, _ = deepspeed.initialize(model=tp_model, model_parameters=tp_model.parameters(), config=config_dict)
+
+        tp_model, tp_optimizer, _, _ = deepspeed.initialize(model=tp_model,
+                                                            model_parameters=tp_model.parameters(),
+                                                            config=config_dict)
         for i, batch in enumerate(data_loader):
             batch[0].requires_grad = True
             loss = tp_model(batch[0], batch[1])
@@ -502,8 +537,8 @@ def test(self):
             tp_model.step()
 
         tp_norm = tp_optimizer._global_grad_norm
-        
-        assert math.isclose(base_norm,tp_norm,abs_tol=1e-3)
+
+        assert math.isclose(base_norm, tp_norm, abs_tol=1e-3)
         tp_params_numel = sum(p.numel() for p in tp_model.parameters())
-        base_params_numel =  sum(p.numel() for p in base_model.parameters())
-        assert tp_params_numel<base_params_numel
+        base_params_numel = sum(p.numel() for p in base_model.parameters())
+        assert tp_params_numel < base_params_numel
diff --git a/tests/unit/simple_model.py b/tests/unit/simple_model.py
index 5df1b88ed15e..28990a6387db 100644
--- a/tests/unit/simple_model.py
+++ b/tests/unit/simple_model.py
@@ -21,9 +21,10 @@ class SimpleModel(torch.nn.Module):
 
     def __init__(self, hidden_dim, empty_grad=False, nlayers=1):
         super(SimpleModel, self).__init__()
-        self.linears = torch.nn.ModuleList([torch.nn.Linear(hidden_dim, hidden_dim,bias=None) for i in range(nlayers)])
+        self.linears = torch.nn.ModuleList(
+            [torch.nn.Linear(hidden_dim, hidden_dim, bias=None) for i in range(nlayers)])
         if empty_grad:
-            self.linear2 = torch.nn.Linear(hidden_dim, hidden_dim,bias=None)
+            self.linear2 = torch.nn.Linear(hidden_dim, hidden_dim, bias=None)
         self.cross_entropy_loss = torch.nn.CrossEntropyLoss()
         self.empty_grad = empty_grad
 
@@ -35,7 +36,7 @@ def forward(self, x, y):
                 x = self.linears[i // 2](x) + l(x)
         return self.cross_entropy_loss(x, y)
 
-    
+
 class SimpleFrozenModel(torch.nn.Module):
 
     def __init__(self, hidden_dim, empty_grad=False):

From 93cf6f5a1f9a342cf5ac6c23aa218b5508748905 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Wed, 18 Dec 2024 10:34:39 +0800
Subject: [PATCH 33/71] refine code

---
 deepspeed/__init__.py                         | 10 ++++++++++
 deepspeed/inference/engine.py                 |  1 -
 deepspeed/module_inject/layers.py             |  3 +++
 deepspeed/runtime/bf16_optimizer.py           |  1 +
 deepspeed/runtime/engine.py                   | 20 +++++++++++++++----
 .../model_parallelism/test_autotp_training.py | 10 ----------
 tests/unit/simple_model.py                    |  5 ++---
 7 files changed, 32 insertions(+), 18 deletions(-)

diff --git a/deepspeed/__init__.py b/deepspeed/__init__.py
index ea27e88fea07..779db86a946c 100755
--- a/deepspeed/__init__.py
+++ b/deepspeed/__init__.py
@@ -367,7 +367,17 @@ def init_inference(model, config=None, **kwargs):
 
 
 def tp_model_init(model, tp_size, dtype):
+    """
+    Initialize the model for tensor parallelism.
+
+    Args:
+        model (torch.nn.Module): The model to be initialized.
+        tp_size (int): The tensor parallelism size.
+        dtype (torch.dtype): The data type to be used for the model.
 
+    Returns:
+        torch.nn.Module: The initialized model with tensor parallelism.
+    """
     # avoid re-entry
     assert not hasattr(model, 'ds_autotp_parsed'), "Model already has 'autotp_parsed' attribute, preventing re-entry"
 
diff --git a/deepspeed/inference/engine.py b/deepspeed/inference/engine.py
index 9d23e8f53c15..6574d49fb132 100755
--- a/deepspeed/inference/engine.py
+++ b/deepspeed/inference/engine.py
@@ -154,7 +154,6 @@ def __init__(self, model, config):
             if config.replace_with_kernel_inject:
                 # 2. DeepSpeed Kernel Injection
                 self._apply_injection_policy(config)
-
             elif config.tensor_parallel.tp_size > 1:
                 # 3. Automatic Tensor Parallelism
                 parser_dict = AutoTP.tp_parser(model)
diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index c038f7d43931..bd8e0d137f13 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -19,6 +19,9 @@
 
 
 def set_autotp_mode(training=False):
+    """
+    Set the DEEPSPEED_AUTOTP_MODE based on the training flag
+    """
     global DEEPSPEED_AUTOTP_MODE
     if training:
         DEEPSPEED_AUTOTP_MODE = AUTOTP_MODE.TRAINING
diff --git a/deepspeed/runtime/bf16_optimizer.py b/deepspeed/runtime/bf16_optimizer.py
index 4610d203df44..6b63efbb23f7 100644
--- a/deepspeed/runtime/bf16_optimizer.py
+++ b/deepspeed/runtime/bf16_optimizer.py
@@ -285,6 +285,7 @@ def step(self, closure=None):
                                                        norm_type=self.norm_type)
 
         self._global_grad_norm = all_groups_norm
+
         assert all_groups_norm > 0.
         if self.clip_grad > 0.:
             clip_tensors_by_global_norm(input_tensors=self.get_grads_for_norm(for_clipping=True),
diff --git a/deepspeed/runtime/engine.py b/deepspeed/runtime/engine.py
index 831d1b9d6d4c..970342b016f2 100755
--- a/deepspeed/runtime/engine.py
+++ b/deepspeed/runtime/engine.py
@@ -37,6 +37,7 @@
 from deepspeed.runtime.bf16_optimizer import BF16_Optimizer
 
 from deepspeed.linear.optimized_linear import LoRAOptimizedLinear
+from deepspeed.module_inject.layers import GatherReplacedLayerParams
 
 from deepspeed.runtime.config import DEEPSPEED_OPTIMIZERS, \
     ADAGRAD_OPTIMIZER, ADAM_OPTIMIZER, ADAMW_OPTIMIZER, LAMB_OPTIMIZER, ONEBIT_ADAM_OPTIMIZER, ONEBIT_LAMB_OPTIMIZER, \
@@ -2567,7 +2568,6 @@ def _reduce_non_expert_gradients(self, grads, elements_per_buffer):
         else:
             dp_group = groups._get_sequence_data_parallel_group()
             dp_world_size = dist.get_world_size(dp_group) / float(self.sequence_parallel_size)
-
         for _, sparse_bucket_tuple in enumerate(split_sparse_tensor_buckets):
             if sparse_bucket_tuple:
                 bucket_type, sparse_bucket = sparse_bucket_tuple
@@ -3641,7 +3641,17 @@ def _save_zero_checkpoint(self, save_path, tag):
         logger.info(f'{ckpt_type} checkpoint saved {zero_checkpoint_name}')
 
     def _replace_module_consolidated_state_dict(self):
-        from deepspeed.module_inject.layers import GatherReplacedLayerParams
+        """
+        Get a full non-partitioned state_dict with fp16 weights on cpu.
+        Important: this function must be called on all ranks and not just rank 0.
+        This is similar to nn.Module.state_dict (modelled after _save_to_state_dict)
+        This method is used for tensor parallel training.
+
+        Returns:
+        OrderedDict: The consolidated state dictionary if the current process rank is 0, otherwise None.
+        """
+        #TODO: If we use both Zero3 and tensor parallel simultaneously
+        # we need to consolidate the gather mechanisms of both.
         state_dict = OrderedDict() if dist.get_rank() == 0 else None
 
         def get_layer_state_dict(module, prefix=""):
@@ -3662,14 +3672,16 @@ def get_layer_state_dict(module, prefix=""):
         return state_dict
 
     def _consolidated_16bit_state_dict(self, exclude_frozen_parameters=False):
-
+        """
+        Consolidate the 16-bit state dictionary.
+        """
         if self.zero_optimization_stage() == ZeroStageEnum.weights:
             return self._zero3_consolidated_16bit_state_dict(exclude_frozen_parameters)
         elif self.zero_autotp_size() > 1:
             return self._replace_module_consolidated_state_dict()
 
         raise ValueError("consolidated_16bit_state_dict is only applicable to cases where weights are partitioned, "
-                         "including Zero Stage 3 and tensor parallelism (TP).")
+                         "including Zero Stage 3 and tensor parallelism.")
 
     def _zero3_consolidated_16bit_state_dict(self, exclude_frozen_parameters=False):
         """
diff --git a/tests/unit/model_parallelism/test_autotp_training.py b/tests/unit/model_parallelism/test_autotp_training.py
index e7cc637b5873..8f1b47786ccf 100644
--- a/tests/unit/model_parallelism/test_autotp_training.py
+++ b/tests/unit/model_parallelism/test_autotp_training.py
@@ -17,16 +17,6 @@
 from torch import nn
 from deepspeed.module_inject.layers import LinearAllreduce, LinearLayer, set_autotp_mode
 
-# test group         done
-# test daloader check      done
-# test fwd/ bwd   done
-# test gather/partition done
-# test save/load ckpt  done
-# test save model done
-# test grad_norm  done , need to refine.
-# test compatibility with zero.etc.?
-# todo:add more batch_size/hidden_dim  test
-
 
 class SequentialLinearModel(torch.nn.Module):
 
diff --git a/tests/unit/simple_model.py b/tests/unit/simple_model.py
index 28990a6387db..a5538a8c6e68 100644
--- a/tests/unit/simple_model.py
+++ b/tests/unit/simple_model.py
@@ -21,10 +21,9 @@ class SimpleModel(torch.nn.Module):
 
     def __init__(self, hidden_dim, empty_grad=False, nlayers=1):
         super(SimpleModel, self).__init__()
-        self.linears = torch.nn.ModuleList(
-            [torch.nn.Linear(hidden_dim, hidden_dim, bias=None) for i in range(nlayers)])
+        self.linears = torch.nn.ModuleList([torch.nn.Linear(hidden_dim, hidden_dim) for i in range(nlayers)])
         if empty_grad:
-            self.linear2 = torch.nn.Linear(hidden_dim, hidden_dim, bias=None)
+            self.linear2 = torch.nn.Linear(hidden_dim, hidden_dim)
         self.cross_entropy_loss = torch.nn.CrossEntropyLoss()
         self.empty_grad = empty_grad
 

From 87c4bc2666233c9eaeef251132c04f54dd024d4c Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Wed, 18 Dec 2024 12:00:56 +0800
Subject: [PATCH 34/71] refine code

---
 deepspeed/__init__.py             |  2 +-
 deepspeed/module_inject/layers.py | 19 ++++++++++---------
 deepspeed/runtime/engine.py       |  1 -
 3 files changed, 11 insertions(+), 11 deletions(-)

diff --git a/deepspeed/__init__.py b/deepspeed/__init__.py
index 779db86a946c..0f4413b02e84 100755
--- a/deepspeed/__init__.py
+++ b/deepspeed/__init__.py
@@ -379,7 +379,7 @@ def tp_model_init(model, tp_size, dtype):
         torch.nn.Module: The initialized model with tensor parallelism.
     """
     # avoid re-entry
-    assert not hasattr(model, 'ds_autotp_parsed'), "Model already has 'autotp_parsed' attribute, preventing re-entry"
+    assert not hasattr(model, 'ds_autotp_parsed'), "ds_autotp_parsed' attribute already exists in the model, re-entry is not allowed."
 
     set_autotp_mode(training=True)
     model = init_inference(model=model, mp_size=tp_size, dtype=dtype, replace_with_kernel_inject=False).module
diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index bd8e0d137f13..d55bced4d872 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -16,7 +16,8 @@
 from deepspeed.inference.config import AUTOTP_MODE
 
 DEEPSPEED_AUTOTP_MODE = AUTOTP_MODE.INFERENCE
-
+DS_IS_REPLACED_MODULE = 'ds_is_replaced_module'
+DS_TENSOR_MODEL_PARALLEL= 'tensor_model_parallel'
 
 def set_autotp_mode(training=False):
     """
@@ -156,7 +157,7 @@ def partition(self, params_list: List[torch.Tensor], move_to_device: bool = Fals
         It is necessary to ensure that this function only involves the logic of params partitioning.
         """
 
-    def config_tp_training(self, weight):
+    def config_tp_params(self, weight):
         """
         Configures the weight tensor for training with tensor parallelism. This includes enabling gradients
         and associating necessary methods for parameter gathering and partitioning.
@@ -174,8 +175,8 @@ def config_tp_training(self, weight):
                     weight.requires_grad = True
             else:
                 weight.requires_grad = False
-            setattr(weight, 'tensor_model_parallel', True)
-            weight.ds_is_preleace_module = True
+            setattr(weight, DS_TENSOR_MODEL_PARALLEL, True)
+            setattr(weight, DS_IS_REPLACED_MODULE, True) 
             weight.gather_params = self.gather_params
             weight.partition = self.partition
 
@@ -225,7 +226,7 @@ def _is_replaced_module_weight(self, param: torch.Tensor) -> bool:
         Returns:
             bool: True if the parameter belongs to a replaced module, False otherwise.
         """
-        return getattr(param, 'ds_is_preleace_module', False)
+        return getattr(param, DS_IS_REPLACED_MODULE, False)
 
     def __enter__(self) -> None:
         """
@@ -252,9 +253,9 @@ def __init__(self, module, mp_group, **kwargs):
 
         self.partition([self.weight, self.bias], move_to_device=True, **kwargs)
         self.support_training = True
-        self.config_tp_training(self.weight)
+        self.config_tp_params(self.weight)
         if self.bias is not None:
-            self.config_tp_training(self.bias)
+            self.config_tp_params(self.bias)
 
     def forward(self, input):
         output = torch.matmul(input, self.weight.transpose(-1, -2))
@@ -326,9 +327,9 @@ def __init__(self, module, mp_group, skip_partition=False, **kwargs):
         if not skip_partition:
             self.partition([self.weight, self.bias], move_to_device=True, **kwargs)
         self.support_training = True
-        self.config_tp_training(self.weight)
+        self.config_tp_params(self.weight)
         if self.bias is not None:
-            self.config_tp_training(self.bias)
+            self.config_tp_params(self.bias)
 
     def forward(self, input):
         input = ColumnParallel.apply(self.mp_group, input)
diff --git a/deepspeed/runtime/engine.py b/deepspeed/runtime/engine.py
index 970342b016f2..640cb5148e98 100755
--- a/deepspeed/runtime/engine.py
+++ b/deepspeed/runtime/engine.py
@@ -454,7 +454,6 @@ def broadcast_and_check(args, bcast_rank, bcast_group):
                                                    group=bcast_group,
                                                    device=get_accelerator().current_device())
 
-                        print(f"RANK[{dist.get_rank()}],bcast finished")
                         is_equal = compare_tensors_in_structures(args, _src_args[0])
 
                     equal_tensor = torch.tensor(is_equal,

From 1714bb5ea47eede9651d17618ff351e3ea491078 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Wed, 18 Dec 2024 06:49:33 +0000
Subject: [PATCH 35/71] refine

---
 deepspeed/module_inject/layers.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index d55bced4d872..fae8660c40d1 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -111,7 +111,7 @@ class Replaced_Layer(nn.Module, ABC):
     operations and parameter gather/partitioning during inference or training.
 
     Attributes:
-        mode (str): The mode of operation[INFERENCE or Training], default is "INFERENCE".
+        mode (str): The mode of operation[INFERENCE or TRAINING], default is "INFERENCE".
         mp_group (Optional[dist.ProcessGroup]): The process group used for model parallelism.
         tp_world_size (int): The world size of tensor parallelism, i.e., the number of parallel workers.
         tp_index (int): The rank (ID) of the current worker in tensor parallelism.
@@ -150,12 +150,13 @@ def gather_params(self, params_list):
         Gathers parameters across devices for distributed training. Must be implemented by subclasses in "TRAINING" mode.
         """
         pass
-
+    @abstractmethod
     def partition(self, params_list: List[torch.Tensor], move_to_device: bool = False):
         """
         Partitions the parameters for tensor parallelism.
         It is necessary to ensure that this function only involves the logic of params partitioning.
         """
+        pass
 
     def config_tp_params(self, weight):
         """

From dadf915460af6b282e94dc5cd82fd7851cae891a Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Thu, 19 Dec 2024 06:24:38 +0000
Subject: [PATCH 36/71] update yuan

---
 deepspeed/module_inject/layers.py | 16 ++++++++++------
 1 file changed, 10 insertions(+), 6 deletions(-)

diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index fae8660c40d1..3d6d026b371c 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -446,25 +446,29 @@ def partition(self, params_list, move_to_device=False):
 #override the subclasses related to weight splitting.
 class Yuan_LinearALlreduce(LinearAllreduce):
 
+    #Yuan2
     @torch.no_grad()
     def partition(self, params_list, move_to_device=False):
-        params_list[0], params_list[1] = shard_value_with_share_qk(params_list[0], params_list[1], self.tp_world_size,
-                                                                   self.tp_index, False)
+        weight, bias= shard_value_with_share_qk(params_list[0].data, params_list[1], self.tp_index, self.tp_world_size,
+                                                                    False)
+        params_list[0].data = weight
+        if bias is not None:
+            params_list[1].data = bias
 
 
 class Yuan_LinearLayer(LinearLayer):
-
+    #Yuan2
     @torch.no_grad()
     def partition(self, params_list, move_to_device=False):
-        weight, bias = shard_value_with_share_qk(params_list[0], params_list[1], self.tp_world_size, self.tp_index,
-                                                 False)
+        weight, bias = shard_value_with_share_qk(params_list[0].data, params_list[1], self.tp_index,self.tp_world_size, 
+                                                 True)
         params_list[0].data = weight
         if bias is not None:
             params_list[1].data = bias
 
 
 class GLM_LinearLayer(LinearLayer):
-
+    # chatGLM2, chatGLM2
     @torch.no_grad()
     def partition(self, params_list, move_to_device=False):
         weight, bias = shard_chunk_mlp(params_list[0].data, params_list[1], self.tp_index, self.tp_world_size)

From 86c9399f24dbc57b22266b90fb6dbd327570c5e0 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Thu, 19 Dec 2024 09:18:25 +0000
Subject: [PATCH 37/71] optimize  usage of move function

---
 deepspeed/module_inject/layers.py | 91 ++++++++++++++-----------------
 1 file changed, 41 insertions(+), 50 deletions(-)

diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index 3d6d026b371c..c5053d3bbcaf 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -33,13 +33,21 @@ def set_autotp_mode(training=False):
 def move(tensor, device):
     # TODO: consider the timing of deletion
     # to save host resources when DP > 1。
+    
     if tensor.is_meta:
         return torch.empty_like(tensor, device=device)
     else:
         # Using new tensors help in freeing memory (after split for example) was done before by calling clone().
         # Using copy=True instead of clone() will help in case of cpu --> cpu.
         # Otherwise to() will not create a new copy for the view of the full tensor, and it will not be de-referenced.
-        return tensor.to(device, copy=True)
+        cloned_tensor= tensor.to(device, copy=True)
+        
+        # free the memory of the original tensor to reduce memory peak 
+        # Equivalent to directly deleting the tensor reference outside the function.
+        # see https://github.com/microsoft/DeepSpeed/pull/4353
+        tensor.data=torch.empty(0, device=tensor.device)
+        return cloned_tensor
+
 
 
 class RowParallel(torch.autograd.Function):
@@ -151,7 +159,7 @@ def gather_params(self, params_list):
         """
         pass
     @abstractmethod
-    def partition(self, params_list: List[torch.Tensor], move_to_device: bool = False):
+    def partition(self, params_list: List[torch.Tensor]):
         """
         Partitions the parameters for tensor parallelism.
         It is necessary to ensure that this function only involves the logic of params partitioning.
@@ -252,7 +260,7 @@ def __init__(self, module, mp_group, **kwargs):
         self.weight = module.weight
         self.bias = module.bias
 
-        self.partition([self.weight, self.bias], move_to_device=True, **kwargs)
+        self.partition([self.weight, self.bias], **kwargs)
         self.support_training = True
         self.config_tp_params(self.weight)
         if self.bias is not None:
@@ -283,10 +291,10 @@ def gather_params(self, params_list):
         return
 
     @torch.no_grad()
-    def partition(self, params_list, move_to_device=False, **kwargs):
+    def partition(self, params_list, **kwargs):
 
         if not self.is_training_mode():
-            self.uneven_partition(params_list, move_to_device, **kwargs)
+            self.uneven_partition(params_list, **kwargs)
             return
 
         else:
@@ -296,14 +304,11 @@ def partition(self, params_list, move_to_device=False, **kwargs):
                     return
                 _partition = torch.chunk(param, self.tp_world_size, dim=-1)[self.tp_index]
 
-                if move_to_device:
-                    partition = move(_partition, get_accelerator().current_device()).detach()
-                    del _partition
-                    _partition = partition
+                _partition = move(_partition, get_accelerator().current_device()).detach()
 
                 params_list[idx].data = _partition
 
-    def uneven_partition(self, params_list, move_to_device, **kwargs):
+    def uneven_partition(self, params_list, **kwargs):
         for idx, param in enumerate(params_list):
             if param is None or idx > 0:
                 # don't slipt bias
@@ -312,10 +317,7 @@ def uneven_partition(self, params_list, move_to_device, **kwargs):
                                                                     kwargs.get('name')),
                                                 dim=1)[self.tp_index]
 
-            if move_to_device:
-                partition = move(_partition, get_accelerator().current_device()).detach()
-                del _partition
-                _partition = partition
+            _partition = move(_partition, get_accelerator().current_device()).detach()
             params_list[idx].data = _partition
 
 
@@ -326,7 +328,7 @@ def __init__(self, module, mp_group, skip_partition=False, **kwargs):
         self.weight = module.weight
         self.bias = module.bias
         if not skip_partition:
-            self.partition([self.weight, self.bias], move_to_device=True, **kwargs)
+            self.partition([self.weight, self.bias], **kwargs)
         self.support_training = True
         self.config_tp_params(self.weight)
         if self.bias is not None:
@@ -353,10 +355,10 @@ def gather_params(self, params_list):
             params_list[idx].data = output_param.contiguous()
 
     @torch.no_grad()
-    def partition(self, params_list, move_to_device=False, **kwargs):
+    def partition(self, params_list, **kwargs):
 
         if not self.is_training_mode():
-            self.uneven_partition(params_list, move_to_device, **kwargs)
+            self.uneven_partition(params_list, **kwargs)
             return
         for idx, param in enumerate(params_list):
             if param is None:
@@ -364,14 +366,11 @@ def partition(self, params_list, move_to_device=False, **kwargs):
             #split bias if provide
             _partition = torch.chunk(param, self.tp_world_size, dim=0)[self.tp_index]
 
-            if move_to_device:
-                partition = move(_partition, get_accelerator().current_device()).detach()
-                del _partition
-                _partition = partition
+            _partition = move(_partition, get_accelerator().current_device()).detach()
 
             params_list[idx].data = _partition
 
-    def uneven_partition(self, params_list, move_to_device=False, **kwargs):
+    def uneven_partition(self, params_list, **kwargs):
 
         for idx, param in enumerate(params_list):
             if param is None:
@@ -381,10 +380,8 @@ def uneven_partition(self, params_list, move_to_device=False, **kwargs):
                                                                     kwargs.get('name')),
                                                 dim=0)[self.tp_index]
 
-            if move_to_device:
-                partition = move(_partition, get_accelerator().current_device()).detach()
-                del _partition
-                _partition = partition
+            _partition = move(_partition, get_accelerator().current_device()).detach()
+
             params_list[idx].data = _partition
 
     # for bwc
@@ -407,22 +404,20 @@ def from_weights(cls, weight_shape=None, dtype=torch.half, weight=None, bias=Non
 class fused_LinearLayer(LinearLayer):
 
     @torch.no_grad()
-    def partition(self, params_list, move_to_device=False, **kwargs):
+    def partition(self, params_list, **kwargs):
         for idx, param in enumerate(params_list):
             if param is None:
                 return
             _partition = prepare_tp_fused_qkvw(kwargs.get('fused_module'), param, self.tp_world_size, self.tp_index)
-            if move_to_device:
-                partition = move(_partition, get_accelerator().current_device()).detach()
-                del _partition
-                _partition = partition
+            _partition = move(_partition, get_accelerator().current_device()).detach()
+
             params_list[idx].data = _partition
 
 
 class conv_LinearLayer(LinearLayer):
 
     @torch.no_grad()
-    def partition(self, params_list, move_to_device=False):
+    def partition(self, params_list,):
         weight = None
         bias = None
         if len(params_list) == 1:
@@ -431,16 +426,15 @@ def partition(self, params_list, move_to_device=False):
             weight, bias = params_list[0], params_list[1]
         _partition = weight.data.split(get_shard_size_list(weight.shape[0], self.tp_world_size, self.name),
                                        dim=1)[self.tp_index]
-        partition = move(_partition, get_accelerator().current_device()).detach()
-        del _partition
-        weight.data = partition
+        _partition = move(_partition, get_accelerator().current_device()).detach()
+        weight.data = _partition
 
         if bias is not None:
             _partition = bias.data.split(get_shard_size_list(weight.shape[1], self.tp_world_size, self.name),
                                          dim=0)[self.tp_index]
-            partition = move(_partition, get_accelerator().current_device()).detach()
-            del _partition
-            bias.data = partition
+            _partition = move(_partition, get_accelerator().current_device()).detach()
+
+            bias.data = _partition
 
 
 #override the subclasses related to weight splitting.
@@ -448,7 +442,7 @@ class Yuan_LinearALlreduce(LinearAllreduce):
 
     #Yuan2
     @torch.no_grad()
-    def partition(self, params_list, move_to_device=False):
+    def partition(self, params_list):
         weight, bias= shard_value_with_share_qk(params_list[0].data, params_list[1], self.tp_index, self.tp_world_size,
                                                                     False)
         params_list[0].data = weight
@@ -459,28 +453,28 @@ def partition(self, params_list, move_to_device=False):
 class Yuan_LinearLayer(LinearLayer):
     #Yuan2
     @torch.no_grad()
-    def partition(self, params_list, move_to_device=False):
+    def partition(self, params_list):
         weight, bias = shard_value_with_share_qk(params_list[0].data, params_list[1], self.tp_index,self.tp_world_size, 
                                                  True)
-        params_list[0].data = weight
+        params_list[0].data = move(weight)
         if bias is not None:
-            params_list[1].data = bias
+            params_list[1].data = move(bias)
 
 
 class GLM_LinearLayer(LinearLayer):
     # chatGLM2, chatGLM2
     @torch.no_grad()
-    def partition(self, params_list, move_to_device=False):
+    def partition(self, params_list):
         weight, bias = shard_chunk_mlp(params_list[0].data, params_list[1], self.tp_index, self.tp_world_size)
-        params_list[0].data = weight
+        params_list[0].data = move(weight)
         if bias is not None:
-            params_list[1].data = bias
+            params_list[1].data = move(bias)
 
 
 class Conv_LinearALlreduce(LinearAllreduce):
 
     @torch.no_grad()
-    def partition(self, params_list, move_to_device=False):
+    def partition(self, params_list):
         for idx, param in enumerate(params_list):
             if param is None:
                 return
@@ -489,10 +483,7 @@ def partition(self, params_list, move_to_device=False):
             _partition = param.split(get_shard_size_list(param.shape[0], self.tp_world_size, self.name),
                                      dim=1)[self.tp_index]
 
-            if move_to_device:
-                partition = move(_partition, get_accelerator().current_device())
-                del _partition
-                _partition = partition
+            _partition = move(_partition, get_accelerator().current_device())
 
             params_list[idx].data = _partition
 

From 2526dc644e72c30c5519ed4628d0131cf08fb65e Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Thu, 19 Dec 2024 10:33:25 +0000
Subject: [PATCH 38/71] refine args usage

---
 deepspeed/module_inject/layers.py | 62 +++++++++++++++++++------------
 1 file changed, 39 insertions(+), 23 deletions(-)

diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index c5053d3bbcaf..aee3e7c998a6 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -127,14 +127,13 @@ class Replaced_Layer(nn.Module, ABC):
         name (Optional[str]): The name of the layer, if provided.
     """
 
-    def __init__(self, mp_group: Optional[dist.ProcessGroup], name: Optional[str] = None):
+    def __init__(self, mp_group: Optional[dist.ProcessGroup], **kwargs: Any):
         """
         Initializes the Replaced_Layer with optional model parallelism group and layer name.
 
         Args:
             mp_group (Optional[dist.ProcessGroup]): The process group for model parallelism.
                                                     If None, no model parallelism is set.
-            name (Optional[str]): The optional name for the layer.
         """
         super().__init__()
         self.support_training: bool = False
@@ -142,8 +141,10 @@ def __init__(self, mp_group: Optional[dist.ProcessGroup], name: Optional[str] =
             self.mp_group = mp_group
             self.tp_world_size: int = dist.get_world_size(self.mp_group)
             self.tp_index: int = dist.get_rank(mp_group)
-        if name is not None:
-            self.name = name  # Set the layer name if provided.
+        
+        self.name=None
+        if kwargs.get('name') is not None:
+            self.name = kwargs.get('name')  # Set the layer name if provided.
 
     @abstractmethod
     def forward(self, input):
@@ -256,11 +257,11 @@ def __exit__(self, exc_type, exc_value, traceback) -> None:
 class LinearAllreduce(Replaced_Layer):
 
     def __init__(self, module, mp_group, **kwargs):
-        super(LinearAllreduce, self).__init__(mp_group)
+        super(LinearAllreduce, self).__init__(mp_group, **kwargs)
         self.weight = module.weight
         self.bias = module.bias
 
-        self.partition([self.weight, self.bias], **kwargs)
+        self.partition([self.weight, self.bias])
         self.support_training = True
         self.config_tp_params(self.weight)
         if self.bias is not None:
@@ -291,10 +292,10 @@ def gather_params(self, params_list):
         return
 
     @torch.no_grad()
-    def partition(self, params_list, **kwargs):
+    def partition(self, params_list):
 
         if not self.is_training_mode():
-            self.uneven_partition(params_list, **kwargs)
+            self.uneven_partition(params_list)
             return
 
         else:
@@ -308,27 +309,27 @@ def partition(self, params_list, **kwargs):
 
                 params_list[idx].data = _partition
 
-    def uneven_partition(self, params_list, **kwargs):
+    def uneven_partition(self, params_list):
         for idx, param in enumerate(params_list):
             if param is None or idx > 0:
                 # don't slipt bias
                 return
+            assert self.name is not None, "The module name must be provided in the initialization."
             _partition = params_list[idx].split(get_shard_size_list(params_list[idx].shape[1], self.tp_world_size,
-                                                                    kwargs.get('name')),
+                                                                    self.name),
                                                 dim=1)[self.tp_index]
 
             _partition = move(_partition, get_accelerator().current_device()).detach()
             params_list[idx].data = _partition
-
-
+#remove kwargs from partition.
 class LinearLayer(Replaced_Layer):
 
     def __init__(self, module, mp_group, skip_partition=False, **kwargs):
-        super(LinearLayer, self).__init__(mp_group)
+        super(LinearLayer, self).__init__(mp_group,**kwargs)
         self.weight = module.weight
         self.bias = module.bias
         if not skip_partition:
-            self.partition([self.weight, self.bias], **kwargs)
+            self.partition([self.weight, self.bias])
         self.support_training = True
         self.config_tp_params(self.weight)
         if self.bias is not None:
@@ -355,10 +356,10 @@ def gather_params(self, params_list):
             params_list[idx].data = output_param.contiguous()
 
     @torch.no_grad()
-    def partition(self, params_list, **kwargs):
+    def partition(self, params_list):
 
         if not self.is_training_mode():
-            self.uneven_partition(params_list, **kwargs)
+            self.uneven_partition(params_list)
             return
         for idx, param in enumerate(params_list):
             if param is None:
@@ -370,14 +371,15 @@ def partition(self, params_list, **kwargs):
 
             params_list[idx].data = _partition
 
-    def uneven_partition(self, params_list, **kwargs):
+    def uneven_partition(self, params_list):
 
         for idx, param in enumerate(params_list):
             if param is None:
                 #split bias if provide
                 return
+            assert self.name is not None, "The module name must be provided in the initialization."
             _partition = params_list[idx].split(get_shard_size_list(params_list[idx].shape[0], self.tp_world_size,
-                                                                    kwargs.get('name')),
+                                                                    self.name),
                                                 dim=0)[self.tp_index]
 
             _partition = move(_partition, get_accelerator().current_device()).detach()
@@ -401,14 +403,28 @@ def from_weights(cls, weight_shape=None, dtype=torch.half, weight=None, bias=Non
         return cls(linear, skip_partition=True)
 
 
+class FusedModuleWrapper:
+    def __init__(self, fused_module: nn.Module):
+        self.fused_module = fused_module
+
+    def __getattr__(self, module):
+        return self.fused_module
+    
 class fused_LinearLayer(LinearLayer):
+    def __init__(self, module, mp_group, skip_partition=False, **kwargs):
+        assert kwargs.get('fused_module') is not None, "'fused_module' is required but not provided"
+        # Use the warp class to avoid module circular references.
+        self.fused_module=FusedModuleWrapper(kwargs.get('fused_module'))
+        super().__init__(module, mp_group, skip_partition, **kwargs)
 
     @torch.no_grad()
-    def partition(self, params_list, **kwargs):
+    def partition(self, params_list):
         for idx, param in enumerate(params_list):
             if param is None:
                 return
-            _partition = prepare_tp_fused_qkvw(kwargs.get('fused_module'), param, self.tp_world_size, self.tp_index)
+            
+            _partition = prepare_tp_fused_qkvw(self.fused_module.module, param, self.tp_world_size, self.tp_index)
+
             _partition = move(_partition, get_accelerator().current_device()).detach()
 
             params_list[idx].data = _partition
@@ -417,7 +433,7 @@ def partition(self, params_list, **kwargs):
 class conv_LinearLayer(LinearLayer):
 
     @torch.no_grad()
-    def partition(self, params_list,):
+    def partition(self, params_list):
         weight = None
         bias = None
         if len(params_list) == 1:
@@ -456,9 +472,9 @@ class Yuan_LinearLayer(LinearLayer):
     def partition(self, params_list):
         weight, bias = shard_value_with_share_qk(params_list[0].data, params_list[1], self.tp_index,self.tp_world_size, 
                                                  True)
-        params_list[0].data = move(weight)
+        params_list[0].data = move(weight, get_accelerator().current_device())
         if bias is not None:
-            params_list[1].data = move(bias)
+            params_list[1].data = move(bias, get_accelerator().current_device())
 
 
 class GLM_LinearLayer(LinearLayer):

From c9fd699ad753ce95e0f4670d5528b79140a2479d Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Thu, 19 Dec 2024 18:35:35 +0800
Subject: [PATCH 39/71] format

---
 deepspeed/__init__.py             |  3 ++-
 deepspeed/module_inject/layers.py | 42 ++++++++++++++++++-------------
 2 files changed, 26 insertions(+), 19 deletions(-)

diff --git a/deepspeed/__init__.py b/deepspeed/__init__.py
index 0f4413b02e84..e3686ce94330 100755
--- a/deepspeed/__init__.py
+++ b/deepspeed/__init__.py
@@ -379,7 +379,8 @@ def tp_model_init(model, tp_size, dtype):
         torch.nn.Module: The initialized model with tensor parallelism.
     """
     # avoid re-entry
-    assert not hasattr(model, 'ds_autotp_parsed'), "ds_autotp_parsed' attribute already exists in the model, re-entry is not allowed."
+    assert not hasattr(
+        model, 'ds_autotp_parsed'), "ds_autotp_parsed' attribute already exists in the model, re-entry is not allowed."
 
     set_autotp_mode(training=True)
     model = init_inference(model=model, mp_size=tp_size, dtype=dtype, replace_with_kernel_inject=False).module
diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index aee3e7c998a6..3bd2a9d5518e 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -17,7 +17,8 @@
 
 DEEPSPEED_AUTOTP_MODE = AUTOTP_MODE.INFERENCE
 DS_IS_REPLACED_MODULE = 'ds_is_replaced_module'
-DS_TENSOR_MODEL_PARALLEL= 'tensor_model_parallel'
+DS_TENSOR_MODEL_PARALLEL = 'tensor_model_parallel'
+
 
 def set_autotp_mode(training=False):
     """
@@ -33,23 +34,22 @@ def set_autotp_mode(training=False):
 def move(tensor, device):
     # TODO: consider the timing of deletion
     # to save host resources when DP > 1。
-    
+
     if tensor.is_meta:
         return torch.empty_like(tensor, device=device)
     else:
         # Using new tensors help in freeing memory (after split for example) was done before by calling clone().
         # Using copy=True instead of clone() will help in case of cpu --> cpu.
         # Otherwise to() will not create a new copy for the view of the full tensor, and it will not be de-referenced.
-        cloned_tensor= tensor.to(device, copy=True)
-        
-        # free the memory of the original tensor to reduce memory peak 
+        cloned_tensor = tensor.to(device, copy=True)
+
+        # free the memory of the original tensor to reduce memory peak
         # Equivalent to directly deleting the tensor reference outside the function.
         # see https://github.com/microsoft/DeepSpeed/pull/4353
-        tensor.data=torch.empty(0, device=tensor.device)
+        tensor.data = torch.empty(0, device=tensor.device)
         return cloned_tensor
 
 
-
 class RowParallel(torch.autograd.Function):
     """
     A custom autograd function for performing row-wise parallelism.
@@ -141,8 +141,8 @@ def __init__(self, mp_group: Optional[dist.ProcessGroup], **kwargs: Any):
             self.mp_group = mp_group
             self.tp_world_size: int = dist.get_world_size(self.mp_group)
             self.tp_index: int = dist.get_rank(mp_group)
-        
-        self.name=None
+
+        self.name = None
         if kwargs.get('name') is not None:
             self.name = kwargs.get('name')  # Set the layer name if provided.
 
@@ -159,6 +159,7 @@ def gather_params(self, params_list):
         Gathers parameters across devices for distributed training. Must be implemented by subclasses in "TRAINING" mode.
         """
         pass
+
     @abstractmethod
     def partition(self, params_list: List[torch.Tensor]):
         """
@@ -186,7 +187,7 @@ def config_tp_params(self, weight):
             else:
                 weight.requires_grad = False
             setattr(weight, DS_TENSOR_MODEL_PARALLEL, True)
-            setattr(weight, DS_IS_REPLACED_MODULE, True) 
+            setattr(weight, DS_IS_REPLACED_MODULE, True)
             weight.gather_params = self.gather_params
             weight.partition = self.partition
 
@@ -321,11 +322,13 @@ def uneven_partition(self, params_list):
 
             _partition = move(_partition, get_accelerator().current_device()).detach()
             params_list[idx].data = _partition
+
+
 #remove kwargs from partition.
 class LinearLayer(Replaced_Layer):
 
     def __init__(self, module, mp_group, skip_partition=False, **kwargs):
-        super(LinearLayer, self).__init__(mp_group,**kwargs)
+        super(LinearLayer, self).__init__(mp_group, **kwargs)
         self.weight = module.weight
         self.bias = module.bias
         if not skip_partition:
@@ -404,17 +407,20 @@ def from_weights(cls, weight_shape=None, dtype=torch.half, weight=None, bias=Non
 
 
 class FusedModuleWrapper:
+
     def __init__(self, fused_module: nn.Module):
         self.fused_module = fused_module
 
     def __getattr__(self, module):
         return self.fused_module
-    
+
+
 class fused_LinearLayer(LinearLayer):
+
     def __init__(self, module, mp_group, skip_partition=False, **kwargs):
         assert kwargs.get('fused_module') is not None, "'fused_module' is required but not provided"
         # Use the warp class to avoid module circular references.
-        self.fused_module=FusedModuleWrapper(kwargs.get('fused_module'))
+        self.fused_module = FusedModuleWrapper(kwargs.get('fused_module'))
         super().__init__(module, mp_group, skip_partition, **kwargs)
 
     @torch.no_grad()
@@ -422,7 +428,7 @@ def partition(self, params_list):
         for idx, param in enumerate(params_list):
             if param is None:
                 return
-            
+
             _partition = prepare_tp_fused_qkvw(self.fused_module.module, param, self.tp_world_size, self.tp_index)
 
             _partition = move(_partition, get_accelerator().current_device()).detach()
@@ -459,8 +465,8 @@ class Yuan_LinearALlreduce(LinearAllreduce):
     #Yuan2
     @torch.no_grad()
     def partition(self, params_list):
-        weight, bias= shard_value_with_share_qk(params_list[0].data, params_list[1], self.tp_index, self.tp_world_size,
-                                                                    False)
+        weight, bias = shard_value_with_share_qk(params_list[0].data, params_list[1], self.tp_index,
+                                                 self.tp_world_size, False)
         params_list[0].data = weight
         if bias is not None:
             params_list[1].data = bias
@@ -470,8 +476,8 @@ class Yuan_LinearLayer(LinearLayer):
     #Yuan2
     @torch.no_grad()
     def partition(self, params_list):
-        weight, bias = shard_value_with_share_qk(params_list[0].data, params_list[1], self.tp_index,self.tp_world_size, 
-                                                 True)
+        weight, bias = shard_value_with_share_qk(params_list[0].data, params_list[1], self.tp_index,
+                                                 self.tp_world_size, True)
         params_list[0].data = move(weight, get_accelerator().current_device())
         if bias is not None:
             params_list[1].data = move(bias, get_accelerator().current_device())

From 797e71f89de2c46ab7e7a7b545016dce38d51d5c Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Thu, 19 Dec 2024 11:33:16 +0000
Subject: [PATCH 40/71] zero1 compatible

---
 deepspeed/inference/engine.py      |  8 +++++++-
 deepspeed/module_inject/auto_tp.py |  8 ++++++++
 deepspeed/module_inject/layers.py  |  7 +++++++
 deepspeed/runtime/engine.py        |  6 +++---
 deepspeed/utils/groups.py          | 10 +++++++---
 5 files changed, 32 insertions(+), 7 deletions(-)

diff --git a/deepspeed/inference/engine.py b/deepspeed/inference/engine.py
index 6574d49fb132..7b2fa5db49b9 100755
--- a/deepspeed/inference/engine.py
+++ b/deepspeed/inference/engine.py
@@ -15,7 +15,8 @@
 from deepspeed.runtime.checkpoint_engine.torch_checkpoint_engine import TorchCheckpointEngine
 from deepspeed.utils.timer import SynchronizedWallClockTimer
 from deepspeed.runtime.compiler import is_compile_supported
-
+from deepspeed.utils import groups
+from deepspeed.module_inject.layers import is_autotp_training_mode
 from ..runtime.state_dict_factory import SDLoaderFactory
 from ..runtime.weight_quantizer import WeightQuantization
 from ..module_inject import replace_transformer_layer, generic_injection
@@ -247,6 +248,11 @@ def _post_forward_hook(self, module, input, output):
         self._model_times.append(elapsed_time)
 
     def _create_model_parallel_group(self, config):
+           
+        if is_autotp_training_mode():
+            groups._init_tp_mesh_device(config.tensor_parallel.tp_size)
+            self.mp_group = groups.get_tensor_model_parallel_group()
+            return
         # Call the init process
         if InferenceEngine.inference_mp_group is None:
             init_distributed()
diff --git a/deepspeed/module_inject/auto_tp.py b/deepspeed/module_inject/auto_tp.py
index 32bc3aa8ac8e..6b7b01dd1bbc 100755
--- a/deepspeed/module_inject/auto_tp.py
+++ b/deepspeed/module_inject/auto_tp.py
@@ -15,6 +15,8 @@
 from deepspeed.accelerator import get_accelerator
 from .fusedqkv_utils import require_tp_fused_qkvw
 from deepspeed.module_inject.tp_shard import get_shard_size, get_shard_size_list
+from deepspeed.utils import groups
+from deepspeed.module_inject.layers import is_autotp_training_mode
 
 
 def move(tensor, device):
@@ -324,6 +326,12 @@ def tp_parser(model):
         return policy_list
 
     def set_tensor_parallel_config(self, mp_size, mp_group):
+
+        if is_autotp_training_mode():
+            self.mp_group = groups.get_tensor_model_parallel_group()
+            self.mp_size = groups.get_tensor_model_parallel_world_size()
+            return
+        
         self.mp_size = mp_size
         self.mp_group = mp_group
 
diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index 3bd2a9d5518e..d09156c56eab 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -19,6 +19,13 @@
 DS_IS_REPLACED_MODULE = 'ds_is_replaced_module'
 DS_TENSOR_MODEL_PARALLEL = 'tensor_model_parallel'
 
+def get_auto_tp_mode():
+    global DEEPSPEED_AUTOTP_MODE
+    return DEEPSPEED_AUTOTP_MODE
+    
+def is_autotp_training_mode():
+    global DEEPSPEED_AUTOTP_MODE
+    return DEEPSPEED_AUTOTP_MODE==AUTOTP_MODE.TRAINING
 
 def set_autotp_mode(training=False):
     """
diff --git a/deepspeed/runtime/engine.py b/deepspeed/runtime/engine.py
index 640cb5148e98..1130c7e55cfa 100755
--- a/deepspeed/runtime/engine.py
+++ b/deepspeed/runtime/engine.py
@@ -423,10 +423,10 @@ def _configure_tensor_parallel_states(self, model):
         # Sanity check
         self._set_client_model(model)
 
-        assert self.zero_autotp_size() == dist.get_world_size_from_launcher(
-        ), "Currently, the compatibility between 'autotp' and 'zero' has not been validated"
+        # assert self.zero_autotp_size() == dist.get_world_size_from_launcher(
+        # ), "Currently, the compatibility between 'autotp' and 'zero' has not been validated"
         assert self.zero_optimization_stage(
-        ) == 0, "Currently, the compatibility between 'autotp' and 'zero_stage > 0' has not been validated"
+        ) <= 1, "Currently, the compatibility between 'autotp' and 'zero_stage > 1' has not been validated"
 
         self.mpu = groups
         self.mpu._init_tp_mesh_device(tensor_model_parallel_size=self.zero_autotp_size())
diff --git a/deepspeed/utils/groups.py b/deepspeed/utils/groups.py
index 869bf0d6a6bc..6c61325c79f3 100755
--- a/deepspeed/utils/groups.py
+++ b/deepspeed/utils/groups.py
@@ -77,14 +77,18 @@ def _ensure_divisibility(numerator, denominator):
 _MPU_TENSOR_MODEL_PARALLEL_RANK = None
 
 
-def _init_tp_mesh_device(tensor_model_parallel_size=1, data_parallel_size=1):
+def _init_tp_mesh_device(tensor_model_parallel_size=1, data_parallel_size=None):
     """Initialize model data parallel groups."""
 
     global _DATA_PARALLEL_GROUP
     global _MODEL_PARALLEL_GROUP
     global _TENSOR_MODEL_PARALLEL_GROUP
-
-    data_parallel_size = dist.get_world_size() // tensor_model_parallel_size
+    
+    if _TENSOR_MODEL_PARALLEL_GROUP is not None:
+        return 
+    
+    if data_parallel_size is None:
+        data_parallel_size = dist.get_world_size() // tensor_model_parallel_size
 
     mesh_device = dist.initialize_mesh_device((data_parallel_size, tensor_model_parallel_size),
                                               ("data_parallel", "tensor_parallel"))

From 86ae65e743ea8cc74abc6091b349de22c5165e3b Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Sun, 22 Dec 2024 03:35:24 +0000
Subject: [PATCH 41/71] remove wa

---
 deepspeed/runtime/engine.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/deepspeed/runtime/engine.py b/deepspeed/runtime/engine.py
index 1130c7e55cfa..91e33f0d5294 100755
--- a/deepspeed/runtime/engine.py
+++ b/deepspeed/runtime/engine.py
@@ -2278,8 +2278,8 @@ def step(self, lr_kwargs=None):
         r"""Execute the weight update step after forward and backward propagation
         on effective_train_batch.
         """
-        # assert not self.inside_no_sync_ctxt, \
-        # "It is illegal to call Engine.step() inside no_sync context manager"
+        assert not self.inside_no_sync_ctxt, \
+        "It is illegal to call Engine.step() inside no_sync context manager"
 
         see_memory_usage("Engine before step", force=self.memory_breakdown())
 

From 3e40024700eab7980f67c3a87fb6b582e6667fe7 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Sun, 22 Dec 2024 03:44:04 +0000
Subject: [PATCH 42/71] fix cpu device name

---
 deepspeed/module_inject/layers.py | 24 ++++++++++++------------
 1 file changed, 12 insertions(+), 12 deletions(-)

diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index d09156c56eab..b72d5f14a873 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -313,7 +313,7 @@ def partition(self, params_list):
                     return
                 _partition = torch.chunk(param, self.tp_world_size, dim=-1)[self.tp_index]
 
-                _partition = move(_partition, get_accelerator().current_device()).detach()
+                _partition = move(_partition, get_accelerator().current_device_name()).detach()
 
                 params_list[idx].data = _partition
 
@@ -327,7 +327,7 @@ def uneven_partition(self, params_list):
                                                                     self.name),
                                                 dim=1)[self.tp_index]
 
-            _partition = move(_partition, get_accelerator().current_device()).detach()
+            _partition = move(_partition, get_accelerator().current_device_name()).detach()
             params_list[idx].data = _partition
 
 
@@ -377,7 +377,7 @@ def partition(self, params_list):
             #split bias if provide
             _partition = torch.chunk(param, self.tp_world_size, dim=0)[self.tp_index]
 
-            _partition = move(_partition, get_accelerator().current_device()).detach()
+            _partition = move(_partition, get_accelerator().current_device_name()).detach()
 
             params_list[idx].data = _partition
 
@@ -392,7 +392,7 @@ def uneven_partition(self, params_list):
                                                                     self.name),
                                                 dim=0)[self.tp_index]
 
-            _partition = move(_partition, get_accelerator().current_device()).detach()
+            _partition = move(_partition, get_accelerator().current_device_name()).detach()
 
             params_list[idx].data = _partition
 
@@ -438,7 +438,7 @@ def partition(self, params_list):
 
             _partition = prepare_tp_fused_qkvw(self.fused_module.module, param, self.tp_world_size, self.tp_index)
 
-            _partition = move(_partition, get_accelerator().current_device()).detach()
+            _partition = move(_partition, get_accelerator().current_device_name()).detach()
 
             params_list[idx].data = _partition
 
@@ -455,13 +455,13 @@ def partition(self, params_list):
             weight, bias = params_list[0], params_list[1]
         _partition = weight.data.split(get_shard_size_list(weight.shape[0], self.tp_world_size, self.name),
                                        dim=1)[self.tp_index]
-        _partition = move(_partition, get_accelerator().current_device()).detach()
+        _partition = move(_partition, get_accelerator().current_device_name()).detach()
         weight.data = _partition
 
         if bias is not None:
             _partition = bias.data.split(get_shard_size_list(weight.shape[1], self.tp_world_size, self.name),
                                          dim=0)[self.tp_index]
-            _partition = move(_partition, get_accelerator().current_device()).detach()
+            _partition = move(_partition, get_accelerator().current_device_name()).detach()
 
             bias.data = _partition
 
@@ -485,9 +485,9 @@ class Yuan_LinearLayer(LinearLayer):
     def partition(self, params_list):
         weight, bias = shard_value_with_share_qk(params_list[0].data, params_list[1], self.tp_index,
                                                  self.tp_world_size, True)
-        params_list[0].data = move(weight, get_accelerator().current_device())
+        params_list[0].data = move(weight, get_accelerator().current_device_name())
         if bias is not None:
-            params_list[1].data = move(bias, get_accelerator().current_device())
+            params_list[1].data = move(bias, get_accelerator().current_device_name())
 
 
 class GLM_LinearLayer(LinearLayer):
@@ -495,9 +495,9 @@ class GLM_LinearLayer(LinearLayer):
     @torch.no_grad()
     def partition(self, params_list):
         weight, bias = shard_chunk_mlp(params_list[0].data, params_list[1], self.tp_index, self.tp_world_size)
-        params_list[0].data = move(weight)
+        params_list[0].data = move(weight, device=get_accelerator().current_device_name())
         if bias is not None:
-            params_list[1].data = move(bias)
+            params_list[1].data = move(bias,device=get_accelerator().current_device_name())
 
 
 class Conv_LinearALlreduce(LinearAllreduce):
@@ -512,7 +512,7 @@ def partition(self, params_list):
             _partition = param.split(get_shard_size_list(param.shape[0], self.tp_world_size, self.name),
                                      dim=1)[self.tp_index]
 
-            _partition = move(_partition, get_accelerator().current_device())
+            _partition = move(_partition, get_accelerator().current_device_name())
 
             params_list[idx].data = _partition
 

From 7d94b77f46b9dfb8aef68a021e10396aa0a88c1f Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Mon, 23 Dec 2024 04:13:46 +0000
Subject: [PATCH 43/71] fix lm-head

---
 deepspeed/module_inject/auto_tp.py | 2 +-
 deepspeed/module_inject/layers.py  | 8 +++++---
 2 files changed, 6 insertions(+), 4 deletions(-)

diff --git a/deepspeed/module_inject/auto_tp.py b/deepspeed/module_inject/auto_tp.py
index 6b7b01dd1bbc..29de02c13d97 100755
--- a/deepspeed/module_inject/auto_tp.py
+++ b/deepspeed/module_inject/auto_tp.py
@@ -361,7 +361,7 @@ def _replace(self, child, name, conv_linear_layer):
 
             setattr(child, "replaced", True)
             if self.conv_linear_layer:
-                return Conv_LinearALlreduce(child, self.mp_group, name)
+                return Conv_LinearALlreduce(child, self.mp_group, name=name)
             elif name == "lm_head" or name == 'embed_out':
                 return LmHeadLinearAllreduce(child, self.mp_group)
 
diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index b72d5f14a873..d8cac2781d1f 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -149,7 +149,7 @@ def __init__(self, mp_group: Optional[dist.ProcessGroup], **kwargs: Any):
             self.tp_world_size: int = dist.get_world_size(self.mp_group)
             self.tp_index: int = dist.get_rank(mp_group)
 
-        self.name = None
+        self.name = getattr(self, 'name', None)
         if kwargs.get('name') is not None:
             self.name = kwargs.get('name')  # Set the layer name if provided.
 
@@ -519,10 +519,12 @@ def partition(self, params_list):
 
 #override the subclasses related to fwd/bwd.
 class LmHeadLinearAllreduce(LinearAllreduce):
-
+    def __init__(self, module, mp_group, **kwargs):
+        self.name="lm_head"
+        super().__init__(module, mp_group, **kwargs)
     def forward(self, input):
         input_shard_size = get_shard_size(input.shape[-1], self.tp_world_size, "lm_head")
-        input_shard_offset = sum(get_shard_size_list(input.shape[-1], self.world_size, "lm_head")[0:self.tp_index])
+        input_shard_offset = sum(get_shard_size_list(input.shape[-1], self.tp_world_size, "lm_head")[0:self.tp_index])
         output = torch.matmul(input[:, :, input_shard_offset:input_shard_offset + input_shard_size],
                               self.weight.transpose(-1, -2))
         if self.mp_group is not None:

From b297950ed0f35122922a6b991f527d3154247027 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Mon, 23 Dec 2024 04:18:59 +0000
Subject: [PATCH 44/71] add detach

---
 deepspeed/module_inject/layers.py | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index d8cac2781d1f..466de9d04ea1 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -485,9 +485,9 @@ class Yuan_LinearLayer(LinearLayer):
     def partition(self, params_list):
         weight, bias = shard_value_with_share_qk(params_list[0].data, params_list[1], self.tp_index,
                                                  self.tp_world_size, True)
-        params_list[0].data = move(weight, get_accelerator().current_device_name())
+        params_list[0].data = move(weight, get_accelerator().current_device_name()).detach()
         if bias is not None:
-            params_list[1].data = move(bias, get_accelerator().current_device_name())
+            params_list[1].data = move(bias, get_accelerator().current_device_name()).detach()
 
 
 class GLM_LinearLayer(LinearLayer):
@@ -495,9 +495,9 @@ class GLM_LinearLayer(LinearLayer):
     @torch.no_grad()
     def partition(self, params_list):
         weight, bias = shard_chunk_mlp(params_list[0].data, params_list[1], self.tp_index, self.tp_world_size)
-        params_list[0].data = move(weight, device=get_accelerator().current_device_name())
+        params_list[0].data = move(weight, device=get_accelerator().current_device_name()).detach()
         if bias is not None:
-            params_list[1].data = move(bias,device=get_accelerator().current_device_name())
+            params_list[1].data = move(bias,device=get_accelerator().current_device_name()).detach()
 
 
 class Conv_LinearALlreduce(LinearAllreduce):
@@ -512,7 +512,7 @@ def partition(self, params_list):
             _partition = param.split(get_shard_size_list(param.shape[0], self.tp_world_size, self.name),
                                      dim=1)[self.tp_index]
 
-            _partition = move(_partition, get_accelerator().current_device_name())
+            _partition = move(_partition, get_accelerator().current_device_name()).detach()
 
             params_list[idx].data = _partition
 

From 67ce220ec6024cd73e2b2fab7996d02165c5da62 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Mon, 23 Dec 2024 05:27:57 +0000
Subject: [PATCH 45/71] fix ipex intergration

---
 deepspeed/module_inject/layers.py | 20 +++++++++++++++++++-
 1 file changed, 19 insertions(+), 1 deletion(-)

diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index 466de9d04ea1..9a6d8131805e 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -14,7 +14,7 @@
 from typing import Iterable, Any, Optional, List
 from .fusedqkv_utils import shard_value_with_share_qk, shard_chunk_mlp, prepare_tp_fused_qkvw
 from deepspeed.inference.config import AUTOTP_MODE
-
+import copy
 DEEPSPEED_AUTOTP_MODE = AUTOTP_MODE.INFERENCE
 DS_IS_REPLACED_MODULE = 'ds_is_replaced_module'
 DS_TENSOR_MODEL_PARALLEL = 'tensor_model_parallel'
@@ -148,6 +148,10 @@ def __init__(self, mp_group: Optional[dist.ProcessGroup], **kwargs: Any):
             self.mp_group = mp_group
             self.tp_world_size: int = dist.get_world_size(self.mp_group)
             self.tp_index: int = dist.get_rank(mp_group)
+            
+            # backward compatibility
+            self.world_size=self.tp_world_size
+            self.rank =self.tp_index
 
         self.name = getattr(self, 'name', None)
         if kwargs.get('name') is not None:
@@ -202,6 +206,20 @@ def is_training_mode(self):
         global DEEPSPEED_AUTOTP_MODE
         return DEEPSPEED_AUTOTP_MODE == AUTOTP_MODE.TRAINING
 
+    def __deepcopy__(self, memo):
+        # This function is designed for 
+        # 'mp_group' (a 'ProcessGroup') cannot be pickled during deepcopy in some usage.
+        cls = self.__class__
+        new_obj = cls.__new__(cls)
+
+        for key, value in vars(self).items():
+            if key == 'mp_group':
+                new_obj.mp_group = self.mp_group
+            else:
+                setattr(new_obj, key, copy.deepcopy(value, memo))
+
+        memo[id(self)] = new_obj
+        return new_obj
 
 class GatherReplacedLayerParams:
     """

From f818be90fb20063f17d01d5745fa367089832ff5 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Tue, 24 Dec 2024 13:37:47 +0000
Subject: [PATCH 46/71] fix tied_embedding

---
 deepspeed/module_inject/layers.py | 10 ++++++++++
 1 file changed, 10 insertions(+)

diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index 9a6d8131805e..2dfccedb86a6 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -538,7 +538,17 @@ def partition(self, params_list):
 #override the subclasses related to fwd/bwd.
 class LmHeadLinearAllreduce(LinearAllreduce):
     def __init__(self, module, mp_group, **kwargs):
+        # set the fixed name before partition
         self.name="lm_head"
+        
+        # In some tied_embedding cases, only the lm head is sharded, while the word embedding is not. 
+        # Reinitialization is used to decouple them and prevent the word embedding from being sharded.
+        # This should also be effective for cases where both are sharded in tied_embedding scenarios.
+        
+        # TODO: Training scenario-related tests, is it necessary to re-implement the vocab parallel module?
+        module.weight = nn.Parameter(module.weight.clone().detach())
+        if hasattr(module, 'bias') and module.bias is not None:
+            module.bias = nn.Parameter(module.bias.clone().detach())
         super().__init__(module, mp_group, **kwargs)
     def forward(self, input):
         input_shard_size = get_shard_size(input.shape[-1], self.tp_world_size, "lm_head")

From e22b625840bde38ba85ca5e2f43f88b0a8df512d Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Thu, 2 Jan 2025 11:54:36 +0800
Subject: [PATCH 47/71] format

---
 deepspeed/inference/engine.py      |  2 +-
 deepspeed/module_inject/auto_tp.py |  4 ++--
 deepspeed/module_inject/layers.py  | 29 ++++++++++++++++++-----------
 deepspeed/utils/groups.py          |  6 +++---
 4 files changed, 24 insertions(+), 17 deletions(-)

diff --git a/deepspeed/inference/engine.py b/deepspeed/inference/engine.py
index a09692cf1e49..3c918b4ce8e0 100755
--- a/deepspeed/inference/engine.py
+++ b/deepspeed/inference/engine.py
@@ -248,7 +248,7 @@ def _post_forward_hook(self, module, input, output):
         self._model_times.append(elapsed_time)
 
     def _create_model_parallel_group(self, config):
-           
+
         if is_autotp_training_mode():
             groups._init_tp_mesh_device(config.tensor_parallel.tp_size)
             self.mp_group = groups.get_tensor_model_parallel_group()
diff --git a/deepspeed/module_inject/auto_tp.py b/deepspeed/module_inject/auto_tp.py
index 03d76038740e..8cdc3101cfeb 100755
--- a/deepspeed/module_inject/auto_tp.py
+++ b/deepspeed/module_inject/auto_tp.py
@@ -331,7 +331,7 @@ def set_tensor_parallel_config(self, mp_size, mp_group):
             self.mp_group = groups.get_tensor_model_parallel_group()
             self.mp_size = groups.get_tensor_model_parallel_world_size()
             return
-        
+
         self.mp_size = mp_size
         self.mp_group = mp_group
 
@@ -357,7 +357,7 @@ def _replace(self, child, name, conv_linear_layer):
         # For MLP including chunk layer.
         if 'gate_up_proj' in name or ('dense_h_to_4h' in name and 'GLM' in str(self.module)):
             return GLM_LinearLayer(child, self.mp_group)
-                # For Arctic model, bypass to all_reduce replacement for w2 weights
+            # For Arctic model, bypass to all_reduce replacement for w2 weights
         arctic_w2_all_reduce_linear = False
         if 'Arctic' in str(self.module) and 'w2' in name:
             arctic_w2_all_reduce_linear = True
diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index 2dfccedb86a6..949d4022bca1 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -15,17 +15,21 @@
 from .fusedqkv_utils import shard_value_with_share_qk, shard_chunk_mlp, prepare_tp_fused_qkvw
 from deepspeed.inference.config import AUTOTP_MODE
 import copy
+
 DEEPSPEED_AUTOTP_MODE = AUTOTP_MODE.INFERENCE
 DS_IS_REPLACED_MODULE = 'ds_is_replaced_module'
 DS_TENSOR_MODEL_PARALLEL = 'tensor_model_parallel'
 
+
 def get_auto_tp_mode():
     global DEEPSPEED_AUTOTP_MODE
     return DEEPSPEED_AUTOTP_MODE
-    
+
+
 def is_autotp_training_mode():
     global DEEPSPEED_AUTOTP_MODE
-    return DEEPSPEED_AUTOTP_MODE==AUTOTP_MODE.TRAINING
+    return DEEPSPEED_AUTOTP_MODE == AUTOTP_MODE.TRAINING
+
 
 def set_autotp_mode(training=False):
     """
@@ -148,10 +152,10 @@ def __init__(self, mp_group: Optional[dist.ProcessGroup], **kwargs: Any):
             self.mp_group = mp_group
             self.tp_world_size: int = dist.get_world_size(self.mp_group)
             self.tp_index: int = dist.get_rank(mp_group)
-            
+
             # backward compatibility
-            self.world_size=self.tp_world_size
-            self.rank =self.tp_index
+            self.world_size = self.tp_world_size
+            self.rank = self.tp_index
 
         self.name = getattr(self, 'name', None)
         if kwargs.get('name') is not None:
@@ -207,7 +211,7 @@ def is_training_mode(self):
         return DEEPSPEED_AUTOTP_MODE == AUTOTP_MODE.TRAINING
 
     def __deepcopy__(self, memo):
-        # This function is designed for 
+        # This function is designed for
         # 'mp_group' (a 'ProcessGroup') cannot be pickled during deepcopy in some usage.
         cls = self.__class__
         new_obj = cls.__new__(cls)
@@ -221,6 +225,7 @@ def __deepcopy__(self, memo):
         memo[id(self)] = new_obj
         return new_obj
 
+
 class GatherReplacedLayerParams:
     """
     A context manager for gathering parameters of a replaced layer, enabling partitioning and gathering functionality
@@ -515,7 +520,7 @@ def partition(self, params_list):
         weight, bias = shard_chunk_mlp(params_list[0].data, params_list[1], self.tp_index, self.tp_world_size)
         params_list[0].data = move(weight, device=get_accelerator().current_device_name()).detach()
         if bias is not None:
-            params_list[1].data = move(bias,device=get_accelerator().current_device_name()).detach()
+            params_list[1].data = move(bias, device=get_accelerator().current_device_name()).detach()
 
 
 class Conv_LinearALlreduce(LinearAllreduce):
@@ -537,19 +542,21 @@ def partition(self, params_list):
 
 #override the subclasses related to fwd/bwd.
 class LmHeadLinearAllreduce(LinearAllreduce):
+
     def __init__(self, module, mp_group, **kwargs):
         # set the fixed name before partition
-        self.name="lm_head"
-        
-        # In some tied_embedding cases, only the lm head is sharded, while the word embedding is not. 
+        self.name = "lm_head"
+
+        # In some tied_embedding cases, only the lm head is sharded, while the word embedding is not.
         # Reinitialization is used to decouple them and prevent the word embedding from being sharded.
         # This should also be effective for cases where both are sharded in tied_embedding scenarios.
-        
+
         # TODO: Training scenario-related tests, is it necessary to re-implement the vocab parallel module?
         module.weight = nn.Parameter(module.weight.clone().detach())
         if hasattr(module, 'bias') and module.bias is not None:
             module.bias = nn.Parameter(module.bias.clone().detach())
         super().__init__(module, mp_group, **kwargs)
+
     def forward(self, input):
         input_shard_size = get_shard_size(input.shape[-1], self.tp_world_size, "lm_head")
         input_shard_offset = sum(get_shard_size_list(input.shape[-1], self.tp_world_size, "lm_head")[0:self.tp_index])
diff --git a/deepspeed/utils/groups.py b/deepspeed/utils/groups.py
index 6c61325c79f3..6dc750035061 100755
--- a/deepspeed/utils/groups.py
+++ b/deepspeed/utils/groups.py
@@ -83,10 +83,10 @@ def _init_tp_mesh_device(tensor_model_parallel_size=1, data_parallel_size=None):
     global _DATA_PARALLEL_GROUP
     global _MODEL_PARALLEL_GROUP
     global _TENSOR_MODEL_PARALLEL_GROUP
-    
+
     if _TENSOR_MODEL_PARALLEL_GROUP is not None:
-        return 
-    
+        return
+
     if data_parallel_size is None:
         data_parallel_size = dist.get_world_size() // tensor_model_parallel_size
 

From 060d48bc783b525a9d7f9b7a88617ec6c3fa8127 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Mon, 13 Jan 2025 03:46:33 +0000
Subject: [PATCH 48/71] remove outdated comments

---
 deepspeed/runtime/engine.py | 6 ++----
 1 file changed, 2 insertions(+), 4 deletions(-)

diff --git a/deepspeed/runtime/engine.py b/deepspeed/runtime/engine.py
index 65c4e4d2db0c..85ef5c987973 100755
--- a/deepspeed/runtime/engine.py
+++ b/deepspeed/runtime/engine.py
@@ -419,12 +419,10 @@ def _configure_tensor_parallel_states(self, model):
         This includes setting up the tensor parallel groups, initializing the TP mesh,
         and registering a pre-hook to ensure that the Dataloader inputs are consistent across ranks.
         """
-        # The compatibility has only been validated for 'gpus==autotp_size' at the moment.
-        # Sanity check
         self._set_client_model(model)
 
-        # assert self.zero_autotp_size() == dist.get_world_size_from_launcher(
-        # ), "Currently, the compatibility between 'autotp' and 'zero' has not been validated"
+        # sanity check
+        # currently, the compatibility between 'autotp' and 'zero > 1' has not been validated
         assert self.zero_optimization_stage(
         ) <= 1, "Currently, the compatibility between 'autotp' and 'zero_stage > 1' has not been validated"
 

From 6667ba15f9e52a578fcbb0e925b6a4904dd42133 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Mon, 13 Jan 2025 10:41:47 +0000
Subject: [PATCH 49/71] Enhance unit test coverage

---
 .../model_parallelism/test_autotp_training.py | 81 +++++++++----------
 1 file changed, 36 insertions(+), 45 deletions(-)

diff --git a/tests/unit/model_parallelism/test_autotp_training.py b/tests/unit/model_parallelism/test_autotp_training.py
index 8f1b47786ccf..21d5b03dc783 100644
--- a/tests/unit/model_parallelism/test_autotp_training.py
+++ b/tests/unit/model_parallelism/test_autotp_training.py
@@ -7,6 +7,7 @@
 import deepspeed.comm as dist
 import torch
 import math
+from copy import deepcopy
 
 from unit.common import DistributedTest, preferred_dtype
 import deepspeed
@@ -16,6 +17,7 @@
 from contextlib import contextmanager
 from torch import nn
 from deepspeed.module_inject.layers import LinearAllreduce, LinearLayer, set_autotp_mode
+from unit.checkpoint.common import compare_lr_scheduler_states, compare_optimizer_states
 
 
 class SequentialLinearModel(torch.nn.Module):
@@ -51,15 +53,14 @@ def should_assert_with_msg(expected_message):
         else:
             raise e
 
-
+@pytest.mark.parametrize("tp_size", [2,4])
 class TestTpParallelStates(DistributedTest):
     world_size = 4
 
-    def test(self):
+    def test(self, tp_size: int):
         set_autotp_mode(training=True)
-        tp_size = 4
 
-        dp_size = 4 / dist.get_world_size()
+        dp_size = 4 / tp_size
         hidden_dim = 128
         config_dict = {"train_micro_batch_size_per_gpu": 1, "zero_optimization": {"stage": 0, "autotp_size": tp_size}}
         model = SimpleModel(hidden_dim=hidden_dim)
@@ -67,13 +68,12 @@ def test(self):
         assert groups.get_tensor_model_parallel_world_size() == tp_size
         assert groups.get_data_parallel_world_size() == dp_size
 
-
+@pytest.mark.parametrize("tp_size", [2,4])
 class TestTpDataloaderCorrectness(DistributedTest):
     world_size = 4
     reuse_dist_env = True
 
-    def test(self):
-        tp_size = 4
+    def test(self, tp_size: int):
         hidden_dim = 128
         set_autotp_mode(training=True)
         config_dict = {
@@ -129,21 +129,19 @@ def test(self):
 
 
 def process_linear_layer(hidden_dim, input):
-    torch_linear = nn.Linear(hidden_dim, hidden_dim, dtype=preferred_dtype(), device="cpu", bias=None)
+    torch.manual_seed(42)
+    torch_linear = nn.Linear(hidden_dim, hidden_dim, dtype=preferred_dtype(), device=get_accelerator().current_device(), bias=None)
     torch_out = torch_linear(input)
     torch_loss = torch_out.sum()
     torch_loss.backward()
-    torch_norm = torch.norm(torch_linear.weight.grad)
-    torch_linear.zero_grad()
-    return torch_linear, torch_out, torch_norm
-
+    return torch_linear, torch_out
 
+@pytest.mark.parametrize("tp_size", [2,4])
 class TestTpLayerFwdBwd(DistributedTest):
     world_size = 4
     reuse_dist_env = True
 
-    def testRowParallel(self):
-        tp_size = 4
+    def testRowParallel(self, tp_size: int):
         hidden_dim = 128
         batch_size_per_device = 1
         set_autotp_mode(training=True)
@@ -165,36 +163,30 @@ def testRowParallel(self):
             config_dict["fp16"] = {"enabled": True}
         elif preferred_dtype() is torch.bfloat16:
             config_dict["bf16"] = {"enabled": True}
-        torch.manual_seed(42)
-
         model = SequentialLinearModel(hidden_dim=hidden_dim)
         model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
         input = torch.randn(batch_size_per_device,
                             hidden_dim,
                             dtype=preferred_dtype(),
                             requires_grad=True,
-                            device="cpu")
+                            device=get_accelerator().current_device())
+        
+        dist.broadcast(input, groups.get_tensor_model_parallel_src_rank(), group=groups.get_tensor_model_parallel_group())
 
-        torch_linear, torch_out, torch_norm = process_linear_layer(hidden_dim, input)
-
-        linear = LinearAllreduce(torch_linear, groups.get_tensor_model_parallel_group())
-        input.to(get_accelerator().current_device())
+        torch_linear, torch_out = process_linear_layer(hidden_dim, input)
+        linear = LinearAllreduce(deepcopy(torch_linear), groups.get_tensor_model_parallel_group())
 
         input_ = torch.chunk(input, tp_size, dim=-1)[groups.get_tensor_model_parallel_rank()]
         out = linear(input_.to(get_accelerator().current_device()))
         loss = out.sum()
         loss.backward()
-        norm = torch.norm(linear.weight.grad)
-        norm_pow = norm**2
-        dist.all_reduce(norm_pow, group=groups.get_tensor_model_parallel_group())
-        norm = torch.sqrt(norm_pow)
 
-        assert torch.equal(norm, torch_norm.to(get_accelerator().current_device()))
+        torch_grad=torch.chunk(torch_linear.weight.grad,tp_size,dim=1)[groups.get_tensor_model_parallel_rank()]
+        assert torch.allclose(linear.weight.grad, torch_grad.to(get_accelerator().current_device()), atol=1e-3)
         assert torch.allclose(out, torch_out.to(get_accelerator().current_device()), atol=1e-3)
 
-    def testColumnParallel(self):
+    def testColumnParallel(self, tp_size: int):
 
-        tp_size = 4
         hidden_dim = 128
         batch_size_per_device = 1
         set_autotp_mode(training=True)
@@ -216,7 +208,6 @@ def testColumnParallel(self):
             config_dict["fp16"] = {"enabled": True}
         elif preferred_dtype() is torch.bfloat16:
             config_dict["bf16"] = {"enabled": True}
-        torch.manual_seed(42)
 
         model = SequentialLinearModel(hidden_dim=hidden_dim)
         model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
@@ -224,21 +215,21 @@ def testColumnParallel(self):
                             hidden_dim,
                             dtype=preferred_dtype(),
                             requires_grad=True,
-                            device="cpu")
+                            device=get_accelerator().current_device())
+        dist.broadcast(input, groups.get_tensor_model_parallel_src_rank(), group=groups.get_tensor_model_parallel_group())
 
-        torch_linear, torch_out, torch_norm = process_linear_layer(hidden_dim, input)
+        torch_linear, torch_out = process_linear_layer(hidden_dim, input)
 
-        linear = LinearLayer(torch_linear, groups.get_tensor_model_parallel_group())
+        linear = LinearLayer(deepcopy(torch_linear), groups.get_tensor_model_parallel_group())
 
         out = linear(input.to(get_accelerator().current_device()))
         loss = out.sum()
         loss.backward()
-        norm = torch.norm(linear.weight.grad)
-        norm_pow = norm**2
-        dist.all_reduce(norm_pow, group=groups.get_tensor_model_parallel_group())
-        norm = torch.sqrt(norm_pow)
+        
+
         cur_device_out = torch.chunk(torch_out, tp_size, dim=-1)[groups.get_tensor_model_parallel_rank()]
-        assert torch.equal(norm, torch_norm.to(get_accelerator().current_device()))
+        torch_grad=torch.chunk(torch_linear.weight.grad,tp_size,dim=0)[groups.get_tensor_model_parallel_rank()]
+        assert torch.allclose(linear.weight.grad, torch_grad.to(get_accelerator().current_device()), atol=1e-3)
         assert torch.allclose(cur_device_out.to(get_accelerator().current_device()).contiguous(),
                               out.contiguous(),
                               atol=1e-3)
@@ -318,7 +309,6 @@ def dummy_init_engine(config):
 def prepare_tp_model(hidden_dim, nlayers, linear_indices, allreduce_indices, group, return_global_copy=False):
     model = SequentialLinearModel(hidden_dim=hidden_dim, nlayers=nlayers).to(preferred_dtype())
     base_model = None
-    from copy import deepcopy
     if return_global_copy:
         base_model = deepcopy(model)
     for i in linear_indices:
@@ -454,18 +444,16 @@ def test_ckpt_save(self):
                                                      model_parameters=loaded_model.parameters(),
                                                      config=config_dict)
         loaded_model.load_checkpoint(ckpt_path, load_optimizer_states=True, load_lr_scheduler_states=True)
-        from unit.checkpoint.common import compare_lr_scheduler_states, compare_optimizer_states
         compare_optimizer_states(trained_model, loaded_model, hidden_dim, fp16=(preferred_dtype() == torch.float16))
         compare_lr_scheduler_states(trained_model, loaded_model)
 
-
+@pytest.mark.parametrize("tp_size", [2,4])
 class TestTpGradNorm(DistributedTest):
 
     world_size = 4
     reuse_dist_env = True
 
-    def test(self):
-        tp_size = 4
+    def test(self, tp_size:int):
         hidden_dim = 64
         set_autotp_mode(training=True)
         config_dict = {
@@ -479,7 +467,7 @@ def test(self):
             },
             "zero_optimization": {
                 "stage": 0,
-                "autotp_size": 4
+                "autotp_size": tp_size
             }
         }
         if preferred_dtype() is torch.float16:
@@ -503,14 +491,17 @@ def test(self):
                                         hidden_dim=hidden_dim,
                                         device=base_model.device,
                                         dtype=preferred_dtype())
+        # duplicate each rank training(no-DP)
         with base_model.no_sync():
-            # duplicate each rank training.
             for i, batch in enumerate(data_loader):
                 batch[0].requires_grad = True
                 loss = base_model(batch[0], batch[1])
                 loss = loss
                 base_model.backward(loss)
+                # to avoid assert failures for test purpose
+                base_model.inside_no_sync_ctxt=False
                 base_model.step()
+                base_model.inside_no_sync_ctxt=True
 
         base_norm = base_optimizer._global_grad_norm
 
@@ -531,4 +522,4 @@ def test(self):
         assert math.isclose(base_norm, tp_norm, abs_tol=1e-3)
         tp_params_numel = sum(p.numel() for p in tp_model.parameters())
         base_params_numel = sum(p.numel() for p in base_model.parameters())
-        assert tp_params_numel < base_params_numel
+        assert tp_params_numel < base_params_numel
\ No newline at end of file

From 84c9335ad1f5a1c1d4e81100a4432d313d609d0a Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Mon, 13 Jan 2025 11:35:01 +0000
Subject: [PATCH 50/71] update ut

---
 .../model_parallelism/test_autotp_training.py | 25 ++++++++-----------
 1 file changed, 11 insertions(+), 14 deletions(-)

diff --git a/tests/unit/model_parallelism/test_autotp_training.py b/tests/unit/model_parallelism/test_autotp_training.py
index 21d5b03dc783..a6907f73a6aa 100644
--- a/tests/unit/model_parallelism/test_autotp_training.py
+++ b/tests/unit/model_parallelism/test_autotp_training.py
@@ -447,13 +447,14 @@ def test_ckpt_save(self):
         compare_optimizer_states(trained_model, loaded_model, hidden_dim, fp16=(preferred_dtype() == torch.float16))
         compare_lr_scheduler_states(trained_model, loaded_model)
 
+@pytest.mark.parametrize("zero_stage", [0,1])
 @pytest.mark.parametrize("tp_size", [2,4])
 class TestTpGradNorm(DistributedTest):
 
     world_size = 4
     reuse_dist_env = True
 
-    def test(self, tp_size:int):
+    def test(self, tp_size:int, zero_stage:int):
         hidden_dim = 64
         set_autotp_mode(training=True)
         config_dict = {
@@ -466,7 +467,7 @@ def test(self, tp_size:int):
                 }
             },
             "zero_optimization": {
-                "stage": 0,
+                "stage": zero_stage,
                 "autotp_size": tp_size
             }
         }
@@ -487,21 +488,17 @@ def test(self, tp_size:int):
                                                                 model_parameters=base_model.parameters(),
                                                                 config=config_dict)
         data_loader = random_dataloader(model=base_model,
-                                        total_samples=2,
+                                        total_samples=20,
                                         hidden_dim=hidden_dim,
                                         device=base_model.device,
                                         dtype=preferred_dtype())
-        # duplicate each rank training(no-DP)
-        with base_model.no_sync():
-            for i, batch in enumerate(data_loader):
-                batch[0].requires_grad = True
-                loss = base_model(batch[0], batch[1])
-                loss = loss
-                base_model.backward(loss)
-                # to avoid assert failures for test purpose
-                base_model.inside_no_sync_ctxt=False
-                base_model.step()
-                base_model.inside_no_sync_ctxt=True
+
+        for i, batch in enumerate(data_loader):
+            batch[0].requires_grad = True
+            loss = base_model(batch[0], batch[1])
+            loss = loss
+            base_model.backward(loss)
+            base_model.step()
 
         base_norm = base_optimizer._global_grad_norm
 

From cb29d7cf6c887e12ad6283644663fef40fb4055b Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Mon, 13 Jan 2025 11:53:03 +0000
Subject: [PATCH 51/71] sequential some tests

---
 tests/unit/model_parallelism/test_autotp_training.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/tests/unit/model_parallelism/test_autotp_training.py b/tests/unit/model_parallelism/test_autotp_training.py
index a6907f73a6aa..f2b3985c776a 100644
--- a/tests/unit/model_parallelism/test_autotp_training.py
+++ b/tests/unit/model_parallelism/test_autotp_training.py
@@ -136,6 +136,7 @@ def process_linear_layer(hidden_dim, input):
     torch_loss.backward()
     return torch_linear, torch_out
 
+@pytest.mark.sequential
 @pytest.mark.parametrize("tp_size", [2,4])
 class TestTpLayerFwdBwd(DistributedTest):
     world_size = 4
@@ -234,7 +235,7 @@ def testColumnParallel(self, tp_size: int):
                               out.contiguous(),
                               atol=1e-3)
 
-
+@pytest.mark.sequential
 class TestParamsGather(DistributedTest):
     world_size = 4
     reuse_dist_env = True

From a49e77e227f8276edac1ca1316f234398a21821b Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Mon, 13 Jan 2025 19:56:34 +0800
Subject: [PATCH 52/71] format

---
 .../model_parallelism/test_autotp_training.py | 40 ++++++++++++-------
 1 file changed, 26 insertions(+), 14 deletions(-)

diff --git a/tests/unit/model_parallelism/test_autotp_training.py b/tests/unit/model_parallelism/test_autotp_training.py
index f2b3985c776a..06784053be05 100644
--- a/tests/unit/model_parallelism/test_autotp_training.py
+++ b/tests/unit/model_parallelism/test_autotp_training.py
@@ -53,7 +53,8 @@ def should_assert_with_msg(expected_message):
         else:
             raise e
 
-@pytest.mark.parametrize("tp_size", [2,4])
+
+@pytest.mark.parametrize("tp_size", [2, 4])
 class TestTpParallelStates(DistributedTest):
     world_size = 4
 
@@ -68,7 +69,8 @@ def test(self, tp_size: int):
         assert groups.get_tensor_model_parallel_world_size() == tp_size
         assert groups.get_data_parallel_world_size() == dp_size
 
-@pytest.mark.parametrize("tp_size", [2,4])
+
+@pytest.mark.parametrize("tp_size", [2, 4])
 class TestTpDataloaderCorrectness(DistributedTest):
     world_size = 4
     reuse_dist_env = True
@@ -130,14 +132,19 @@ def test(self, tp_size: int):
 
 def process_linear_layer(hidden_dim, input):
     torch.manual_seed(42)
-    torch_linear = nn.Linear(hidden_dim, hidden_dim, dtype=preferred_dtype(), device=get_accelerator().current_device(), bias=None)
+    torch_linear = nn.Linear(hidden_dim,
+                             hidden_dim,
+                             dtype=preferred_dtype(),
+                             device=get_accelerator().current_device(),
+                             bias=None)
     torch_out = torch_linear(input)
     torch_loss = torch_out.sum()
     torch_loss.backward()
     return torch_linear, torch_out
 
+
 @pytest.mark.sequential
-@pytest.mark.parametrize("tp_size", [2,4])
+@pytest.mark.parametrize("tp_size", [2, 4])
 class TestTpLayerFwdBwd(DistributedTest):
     world_size = 4
     reuse_dist_env = True
@@ -171,8 +178,10 @@ def testRowParallel(self, tp_size: int):
                             dtype=preferred_dtype(),
                             requires_grad=True,
                             device=get_accelerator().current_device())
-        
-        dist.broadcast(input, groups.get_tensor_model_parallel_src_rank(), group=groups.get_tensor_model_parallel_group())
+
+        dist.broadcast(input,
+                       groups.get_tensor_model_parallel_src_rank(),
+                       group=groups.get_tensor_model_parallel_group())
 
         torch_linear, torch_out = process_linear_layer(hidden_dim, input)
         linear = LinearAllreduce(deepcopy(torch_linear), groups.get_tensor_model_parallel_group())
@@ -182,7 +191,7 @@ def testRowParallel(self, tp_size: int):
         loss = out.sum()
         loss.backward()
 
-        torch_grad=torch.chunk(torch_linear.weight.grad,tp_size,dim=1)[groups.get_tensor_model_parallel_rank()]
+        torch_grad = torch.chunk(torch_linear.weight.grad, tp_size, dim=1)[groups.get_tensor_model_parallel_rank()]
         assert torch.allclose(linear.weight.grad, torch_grad.to(get_accelerator().current_device()), atol=1e-3)
         assert torch.allclose(out, torch_out.to(get_accelerator().current_device()), atol=1e-3)
 
@@ -217,7 +226,9 @@ def testColumnParallel(self, tp_size: int):
                             dtype=preferred_dtype(),
                             requires_grad=True,
                             device=get_accelerator().current_device())
-        dist.broadcast(input, groups.get_tensor_model_parallel_src_rank(), group=groups.get_tensor_model_parallel_group())
+        dist.broadcast(input,
+                       groups.get_tensor_model_parallel_src_rank(),
+                       group=groups.get_tensor_model_parallel_group())
 
         torch_linear, torch_out = process_linear_layer(hidden_dim, input)
 
@@ -226,15 +237,15 @@ def testColumnParallel(self, tp_size: int):
         out = linear(input.to(get_accelerator().current_device()))
         loss = out.sum()
         loss.backward()
-        
 
         cur_device_out = torch.chunk(torch_out, tp_size, dim=-1)[groups.get_tensor_model_parallel_rank()]
-        torch_grad=torch.chunk(torch_linear.weight.grad,tp_size,dim=0)[groups.get_tensor_model_parallel_rank()]
+        torch_grad = torch.chunk(torch_linear.weight.grad, tp_size, dim=0)[groups.get_tensor_model_parallel_rank()]
         assert torch.allclose(linear.weight.grad, torch_grad.to(get_accelerator().current_device()), atol=1e-3)
         assert torch.allclose(cur_device_out.to(get_accelerator().current_device()).contiguous(),
                               out.contiguous(),
                               atol=1e-3)
 
+
 @pytest.mark.sequential
 class TestParamsGather(DistributedTest):
     world_size = 4
@@ -448,14 +459,15 @@ def test_ckpt_save(self):
         compare_optimizer_states(trained_model, loaded_model, hidden_dim, fp16=(preferred_dtype() == torch.float16))
         compare_lr_scheduler_states(trained_model, loaded_model)
 
-@pytest.mark.parametrize("zero_stage", [0,1])
-@pytest.mark.parametrize("tp_size", [2,4])
+
+@pytest.mark.parametrize("zero_stage", [0, 1])
+@pytest.mark.parametrize("tp_size", [2, 4])
 class TestTpGradNorm(DistributedTest):
 
     world_size = 4
     reuse_dist_env = True
 
-    def test(self, tp_size:int, zero_stage:int):
+    def test(self, tp_size: int, zero_stage: int):
         hidden_dim = 64
         set_autotp_mode(training=True)
         config_dict = {
@@ -520,4 +532,4 @@ def test(self, tp_size:int, zero_stage:int):
         assert math.isclose(base_norm, tp_norm, abs_tol=1e-3)
         tp_params_numel = sum(p.numel() for p in tp_model.parameters())
         base_params_numel = sum(p.numel() for p in base_model.parameters())
-        assert tp_params_numel < base_params_numel
\ No newline at end of file
+        assert tp_params_numel < base_params_numel

From 0ef5274b468bfb597ba30545f62f50466d320581 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Mon, 13 Jan 2025 20:08:29 +0800
Subject: [PATCH 53/71] use parameterized save path

---
 tests/unit/model_parallelism/test_autotp_training.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/tests/unit/model_parallelism/test_autotp_training.py b/tests/unit/model_parallelism/test_autotp_training.py
index 06784053be05..d4488a59d5c9 100644
--- a/tests/unit/model_parallelism/test_autotp_training.py
+++ b/tests/unit/model_parallelism/test_autotp_training.py
@@ -18,6 +18,7 @@
 from torch import nn
 from deepspeed.module_inject.layers import LinearAllreduce, LinearLayer, set_autotp_mode
 from unit.checkpoint.common import compare_lr_scheduler_states, compare_optimizer_states
+import os
 
 
 class SequentialLinearModel(torch.nn.Module):
@@ -396,7 +397,7 @@ def compare_state_dicts(state_dict1, state_dict2):
         else:
             assert tp_state_dict is None, f"noly rank0 should have the state_dict"
 
-    def test_ckpt_save(self):
+    def test_ckpt_save(self, tmpdir):
         tp_size = 4
         hidden_dim = 64
         set_autotp_mode(training=True)
@@ -443,7 +444,7 @@ def test_ckpt_save(self):
                                         hidden_dim=hidden_dim,
                                         device=trained_model.device,
                                         dtype=preferred_dtype())
-        ckpt_path = "./test_ckpt/"
+        ckpt_path = os.path.join(tmpdir, 'tp_saved_checkpoint')
         for i, batch in enumerate(data_loader):
             batch[0].requires_grad = True
             loss = trained_model(batch[0], batch[1])

From f740de0dc33117a6889ac2d84c4505bd56d889ab Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Wed, 15 Jan 2025 08:39:09 +0000
Subject: [PATCH 54/71] refactor infer/training path

---
 deepspeed/__init__.py                         |  4 +-
 deepspeed/module_inject/layers.py             |  2 +-
 deepspeed/module_inject/replace_module.py     |  6 +-
 deepspeed/runtime/tensor_parallel/__init__.py |  2 +
 deepspeed/runtime/tensor_parallel/config.py   | 45 ++++++++++++++
 .../runtime/tensor_parallel/tp_manager.py     | 59 +++++++++++++++++++
 6 files changed, 113 insertions(+), 5 deletions(-)
 create mode 100644 deepspeed/runtime/tensor_parallel/__init__.py
 create mode 100644 deepspeed/runtime/tensor_parallel/config.py
 create mode 100644 deepspeed/runtime/tensor_parallel/tp_manager.py

diff --git a/deepspeed/__init__.py b/deepspeed/__init__.py
index e3686ce94330..70d815463501 100755
--- a/deepspeed/__init__.py
+++ b/deepspeed/__init__.py
@@ -383,7 +383,9 @@ def tp_model_init(model, tp_size, dtype):
         model, 'ds_autotp_parsed'), "ds_autotp_parsed' attribute already exists in the model, re-entry is not allowed."
 
     set_autotp_mode(training=True)
-    model = init_inference(model=model, mp_size=tp_size, dtype=dtype, replace_with_kernel_inject=False).module
+    from deepspeed.runtime.tensor_parallel import TpTrainingManager
+    # model = init_inference(model=model, mp_size=tp_size, dtype=dtype, replace_with_kernel_inject=False).module
+    model = TpTrainingManager(model=model, tp_size=tp_size, dtype=dtype).module    
     setattr(model, 'ds_autotp_parsed', True)
 
     return model
diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index 949d4022bca1..c6a939900637 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -13,7 +13,7 @@
 from abc import ABC, abstractmethod
 from typing import Iterable, Any, Optional, List
 from .fusedqkv_utils import shard_value_with_share_qk, shard_chunk_mlp, prepare_tp_fused_qkvw
-from deepspeed.inference.config import AUTOTP_MODE
+from deepspeed.runtime.tensor_parallel import AUTOTP_MODE
 import copy
 
 DEEPSPEED_AUTOTP_MODE = AUTOTP_MODE.INFERENCE
diff --git a/deepspeed/module_inject/replace_module.py b/deepspeed/module_inject/replace_module.py
index e59f84bc8453..ebee05c8ccf9 100644
--- a/deepspeed/module_inject/replace_module.py
+++ b/deepspeed/module_inject/replace_module.py
@@ -15,7 +15,7 @@
 from .replace_policy import replace_policies, generic_policies
 from .auto_tp import AutoTP, ReplaceWithTensorSlicing, Loading
 from .layers import TensorParallelOcShardConv2d, TensorParallelIcShardConv2d
-
+from deepspeed.module_inject.layers import is_autotp_training_mode
 from deepspeed import comm as dist
 from deepspeed.module_inject.tp_shard import set_num_kv_heads, set_n_embd, set_num_attention_heads, set_tp_grain_size
 
@@ -322,7 +322,7 @@ def replace_fn(child, _policy, layer_id=0, prefix="", state_dict=None):
 
         else:
             # copy relevant state from child -> new module
-            if config.replace_with_kernel_inject:
+            if not is_autotp_training_mode() and config.replace_with_kernel_inject:
                 new_module = replace_with_policy(child,
                                                  _policy,
                                                  config.triangular_masking,
@@ -474,7 +474,7 @@ def conv2d_parallel_shard_weights(model, rank, world_size):
         set_lm_head(replaced_module)
         print(f"checkpoint loading time at rank {rank}: {time.time()-start_time} sec")
 
-    if config.save_mp_checkpoint_path is not None:
+    if not is_autotp_training_mode() and  config.save_mp_checkpoint_path is not None:
         from collections import OrderedDict
         import json
         num_partitions = 8
diff --git a/deepspeed/runtime/tensor_parallel/__init__.py b/deepspeed/runtime/tensor_parallel/__init__.py
new file mode 100644
index 000000000000..75ce26ed511a
--- /dev/null
+++ b/deepspeed/runtime/tensor_parallel/__init__.py
@@ -0,0 +1,2 @@
+from .config import AUTOTP_MODE
+from .tp_manager import TpTrainingManager
\ No newline at end of file
diff --git a/deepspeed/runtime/tensor_parallel/config.py b/deepspeed/runtime/tensor_parallel/config.py
new file mode 100644
index 000000000000..2122fbf0aacc
--- /dev/null
+++ b/deepspeed/runtime/tensor_parallel/config.py
@@ -0,0 +1,45 @@
+from enum import Enum
+from deepspeed.runtime.config_utils import DeepSpeedConfigModel
+import torch
+from pydantic import Field, field_validator
+from typing import Dict, Union, Optional
+
+class AUTOTP_MODE(Enum):
+    TRAINING = "TRAINING"
+    INFERENCE = "INFERENCE"
+    
+class DeepSpeedTPConfig(DeepSpeedConfigModel):
+    """ Configure tensor parallelism settings """
+
+    enabled: bool = True
+    """ Turn tensor parallelism on/off. """
+
+    tp_size: int = 1
+    """ Number of devices to split the model across using tensor parallelism. """
+
+    tp_grain_size: int = 64
+    "Desired MLP/lm_head tp size granularity. DNN library favors tensor size in granularity of power of 2, we pick 64 as a default size."
+
+    mpu: object = None
+    """
+    A model parallelism unit object that implements
+    ``get_{model,data}_parallel_{rank,group,world_size}()``.
+    """
+
+    tp_group: object = None
+    
+class DeepSpeedTPTrainingConfig(DeepSpeedConfigModel):
+
+    dtype: torch.dtype = torch.float16
+    """
+    Desired model data type, will convert model to this type.
+    Supported target types: `torch.half`, `torch.int8`, `torch.float`
+    """
+
+    tensor_parallel: DeepSpeedTPConfig = Field({}, alias="tp")
+    """
+    Configuration for tensor parallelism used to split the model across several
+    GPUs. Expects a dictionary containing values for :any:`DeepSpeedTPConfig`.
+    """
+    
+    injection_policy_tuple: Optional[tuple] = None
diff --git a/deepspeed/runtime/tensor_parallel/tp_manager.py b/deepspeed/runtime/tensor_parallel/tp_manager.py
new file mode 100644
index 000000000000..4e523f6a638d
--- /dev/null
+++ b/deepspeed/runtime/tensor_parallel/tp_manager.py
@@ -0,0 +1,59 @@
+import torch
+from .config import DeepSpeedTPTrainingConfig, DeepSpeedTPConfig
+from deepspeed.utils import groups
+
+
+
+
+class TpTrainingManager():
+    def __init__(self, model, tp_size, dtype):
+        self.module = model
+        self.config = self._initialize_config(dtype)
+        
+        from deepspeed.module_inject.auto_tp import AutoTP  
+
+        # Parse model configuration
+        parser_dict = AutoTP.tp_parser(model)
+        print("AutoTP: ", parser_dict)
+        
+        # Initialize TP configuration and model
+        self._initialize_tp_config(tp_size)
+        self._get_model_config_generate()
+        
+        # Apply injection policies
+        self._apply_policies(parser_dict)
+        
+    def _initialize_config(self, dtype):
+        """Initialize and return the DeepSpeed TP training configuration."""
+        config = DeepSpeedTPTrainingConfig()
+        config.dtype = dtype
+        return config
+    
+    def _apply_policies(self, parser_dict):
+        """Apply injection policies to the parsed modules."""
+        for client_module, injection_policy in parser_dict:
+            self.config.injection_policy_tuple = injection_policy
+            self._apply_injection_policy(self.config, client_module)
+    
+    def _apply_injection_policy(self, config, client_module=None):
+        from deepspeed.module_inject import replace_transformer_layer
+
+        """Apply the given injection policy to a client module."""
+        # replace_transformer_layer(client_module, self.module, None, self.config, self.model_config)
+        if isinstance(self.module, torch.nn.Module):
+            replace_transformer_layer(client_module, self.module, None, self.config, self.model_config)
+        
+    def _initialize_tp_config(self, tp_size):
+        """Perform TP configuration initialization."""
+        self.tp_config=DeepSpeedTPConfig()
+        self.tp_config.tp_size =tp_size
+        if tp_size <= 1:
+            self.tp_config.enabled = False
+        groups._init_tp_mesh_device(tp_size)
+        self.tp_config.tp_group = groups.get_tensor_model_parallel_group()
+        self.config.tensor_parallel = self.tp_config
+        
+        
+    def _get_model_config_generate(self):
+        """Generate and apply HF model  configuration."""
+        self.model_config = getattr(self.module, 'config', None)
\ No newline at end of file

From 726004d15813359029066046a74f50edacf9e2f5 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Wed, 15 Jan 2025 16:41:24 +0800
Subject: [PATCH 55/71] format

---
 deepspeed/__init__.py                         |  2 +-
 deepspeed/module_inject/replace_module.py     |  2 +-
 deepspeed/runtime/tensor_parallel/__init__.py |  7 +++-
 deepspeed/runtime/tensor_parallel/config.py   | 18 +++++++---
 .../runtime/tensor_parallel/tp_manager.py     | 34 ++++++++++---------
 5 files changed, 39 insertions(+), 24 deletions(-)

diff --git a/deepspeed/__init__.py b/deepspeed/__init__.py
index 70d815463501..1d949c5fdbbe 100755
--- a/deepspeed/__init__.py
+++ b/deepspeed/__init__.py
@@ -385,7 +385,7 @@ def tp_model_init(model, tp_size, dtype):
     set_autotp_mode(training=True)
     from deepspeed.runtime.tensor_parallel import TpTrainingManager
     # model = init_inference(model=model, mp_size=tp_size, dtype=dtype, replace_with_kernel_inject=False).module
-    model = TpTrainingManager(model=model, tp_size=tp_size, dtype=dtype).module    
+    model = TpTrainingManager(model=model, tp_size=tp_size, dtype=dtype).module
     setattr(model, 'ds_autotp_parsed', True)
 
     return model
diff --git a/deepspeed/module_inject/replace_module.py b/deepspeed/module_inject/replace_module.py
index ebee05c8ccf9..0f3349b32256 100644
--- a/deepspeed/module_inject/replace_module.py
+++ b/deepspeed/module_inject/replace_module.py
@@ -474,7 +474,7 @@ def conv2d_parallel_shard_weights(model, rank, world_size):
         set_lm_head(replaced_module)
         print(f"checkpoint loading time at rank {rank}: {time.time()-start_time} sec")
 
-    if not is_autotp_training_mode() and  config.save_mp_checkpoint_path is not None:
+    if not is_autotp_training_mode() and config.save_mp_checkpoint_path is not None:
         from collections import OrderedDict
         import json
         num_partitions = 8
diff --git a/deepspeed/runtime/tensor_parallel/__init__.py b/deepspeed/runtime/tensor_parallel/__init__.py
index 75ce26ed511a..2145fae474d9 100644
--- a/deepspeed/runtime/tensor_parallel/__init__.py
+++ b/deepspeed/runtime/tensor_parallel/__init__.py
@@ -1,2 +1,7 @@
+# Copyright (c) Microsoft Corporation.
+# SPDX-License-Identifier: Apache-2.0
+
+# DeepSpeed Team
+
 from .config import AUTOTP_MODE
-from .tp_manager import TpTrainingManager
\ No newline at end of file
+from .tp_manager import TpTrainingManager
diff --git a/deepspeed/runtime/tensor_parallel/config.py b/deepspeed/runtime/tensor_parallel/config.py
index 2122fbf0aacc..f5e50dfb934c 100644
--- a/deepspeed/runtime/tensor_parallel/config.py
+++ b/deepspeed/runtime/tensor_parallel/config.py
@@ -1,13 +1,20 @@
+# Copyright (c) Microsoft Corporation.
+# SPDX-License-Identifier: Apache-2.0
+
+# DeepSpeed Team
+
 from enum import Enum
 from deepspeed.runtime.config_utils import DeepSpeedConfigModel
 import torch
-from pydantic import Field, field_validator
-from typing import Dict, Union, Optional
+from pydantic import Field
+from typing import Optional
+
 
 class AUTOTP_MODE(Enum):
     TRAINING = "TRAINING"
     INFERENCE = "INFERENCE"
-    
+
+
 class DeepSpeedTPConfig(DeepSpeedConfigModel):
     """ Configure tensor parallelism settings """
 
@@ -27,7 +34,8 @@ class DeepSpeedTPConfig(DeepSpeedConfigModel):
     """
 
     tp_group: object = None
-    
+
+
 class DeepSpeedTPTrainingConfig(DeepSpeedConfigModel):
 
     dtype: torch.dtype = torch.float16
@@ -41,5 +49,5 @@ class DeepSpeedTPTrainingConfig(DeepSpeedConfigModel):
     Configuration for tensor parallelism used to split the model across several
     GPUs. Expects a dictionary containing values for :any:`DeepSpeedTPConfig`.
     """
-    
+
     injection_policy_tuple: Optional[tuple] = None
diff --git a/deepspeed/runtime/tensor_parallel/tp_manager.py b/deepspeed/runtime/tensor_parallel/tp_manager.py
index 4e523f6a638d..3b3bf16f1a32 100644
--- a/deepspeed/runtime/tensor_parallel/tp_manager.py
+++ b/deepspeed/runtime/tensor_parallel/tp_manager.py
@@ -1,59 +1,61 @@
+# Copyright (c) Microsoft Corporation.
+# SPDX-License-Identifier: Apache-2.0
+
+# DeepSpeed Team
+
 import torch
 from .config import DeepSpeedTPTrainingConfig, DeepSpeedTPConfig
 from deepspeed.utils import groups
 
 
-
-
 class TpTrainingManager():
+
     def __init__(self, model, tp_size, dtype):
         self.module = model
         self.config = self._initialize_config(dtype)
-        
-        from deepspeed.module_inject.auto_tp import AutoTP  
+
+        from deepspeed.module_inject.auto_tp import AutoTP
 
         # Parse model configuration
         parser_dict = AutoTP.tp_parser(model)
         print("AutoTP: ", parser_dict)
-        
+
         # Initialize TP configuration and model
         self._initialize_tp_config(tp_size)
         self._get_model_config_generate()
-        
+
         # Apply injection policies
         self._apply_policies(parser_dict)
-        
+
     def _initialize_config(self, dtype):
         """Initialize and return the DeepSpeed TP training configuration."""
         config = DeepSpeedTPTrainingConfig()
         config.dtype = dtype
         return config
-    
+
     def _apply_policies(self, parser_dict):
         """Apply injection policies to the parsed modules."""
         for client_module, injection_policy in parser_dict:
             self.config.injection_policy_tuple = injection_policy
             self._apply_injection_policy(self.config, client_module)
-    
+
     def _apply_injection_policy(self, config, client_module=None):
         from deepspeed.module_inject import replace_transformer_layer
-
         """Apply the given injection policy to a client module."""
         # replace_transformer_layer(client_module, self.module, None, self.config, self.model_config)
         if isinstance(self.module, torch.nn.Module):
             replace_transformer_layer(client_module, self.module, None, self.config, self.model_config)
-        
+
     def _initialize_tp_config(self, tp_size):
         """Perform TP configuration initialization."""
-        self.tp_config=DeepSpeedTPConfig()
-        self.tp_config.tp_size =tp_size
+        self.tp_config = DeepSpeedTPConfig()
+        self.tp_config.tp_size = tp_size
         if tp_size <= 1:
             self.tp_config.enabled = False
         groups._init_tp_mesh_device(tp_size)
         self.tp_config.tp_group = groups.get_tensor_model_parallel_group()
         self.config.tensor_parallel = self.tp_config
-        
-        
+
     def _get_model_config_generate(self):
         """Generate and apply HF model  configuration."""
-        self.model_config = getattr(self.module, 'config', None)
\ No newline at end of file
+        self.model_config = getattr(self.module, 'config', None)

From bd8de77f27af7887590d023b6884a92996038ea5 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Wed, 15 Jan 2025 08:42:39 +0000
Subject: [PATCH 56/71] remove empty line

---
 deepspeed/__init__.py                           | 3 ++-
 deepspeed/runtime/tensor_parallel/tp_manager.py | 1 -
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/deepspeed/__init__.py b/deepspeed/__init__.py
index 1d949c5fdbbe..acf2676fabc2 100755
--- a/deepspeed/__init__.py
+++ b/deepspeed/__init__.py
@@ -383,9 +383,10 @@ def tp_model_init(model, tp_size, dtype):
         model, 'ds_autotp_parsed'), "ds_autotp_parsed' attribute already exists in the model, re-entry is not allowed."
 
     set_autotp_mode(training=True)
+    
     from deepspeed.runtime.tensor_parallel import TpTrainingManager
-    # model = init_inference(model=model, mp_size=tp_size, dtype=dtype, replace_with_kernel_inject=False).module
     model = TpTrainingManager(model=model, tp_size=tp_size, dtype=dtype).module
+    
     setattr(model, 'ds_autotp_parsed', True)
 
     return model
diff --git a/deepspeed/runtime/tensor_parallel/tp_manager.py b/deepspeed/runtime/tensor_parallel/tp_manager.py
index 3b3bf16f1a32..8cfcbfb25b5c 100644
--- a/deepspeed/runtime/tensor_parallel/tp_manager.py
+++ b/deepspeed/runtime/tensor_parallel/tp_manager.py
@@ -42,7 +42,6 @@ def _apply_policies(self, parser_dict):
     def _apply_injection_policy(self, config, client_module=None):
         from deepspeed.module_inject import replace_transformer_layer
         """Apply the given injection policy to a client module."""
-        # replace_transformer_layer(client_module, self.module, None, self.config, self.model_config)
         if isinstance(self.module, torch.nn.Module):
             replace_transformer_layer(client_module, self.module, None, self.config, self.model_config)
 

From c334da0566e941778b36d3072a033512aa48b258 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Wed, 15 Jan 2025 10:10:07 +0000
Subject: [PATCH 57/71] remove autotp_size config from zero scope

---
 deepspeed/__init__.py                         |  5 +++++
 deepspeed/inference/engine.py                 |  5 -----
 deepspeed/runtime/config.py                   |  3 +++
 deepspeed/runtime/engine.py                   | 12 +++++------
 deepspeed/runtime/tensor_parallel/__init__.py |  2 +-
 deepspeed/runtime/tensor_parallel/config.py   | 21 ++++++++++++++-----
 .../runtime/tensor_parallel/tp_manager.py     | 15 +++++++++----
 deepspeed/runtime/zero/config.py              |  5 -----
 .../model_parallelism/test_autotp_training.py | 16 +++++++-------
 9 files changed, 50 insertions(+), 34 deletions(-)

diff --git a/deepspeed/__init__.py b/deepspeed/__init__.py
index acf2676fabc2..1a1a5a25e2da 100755
--- a/deepspeed/__init__.py
+++ b/deepspeed/__init__.py
@@ -385,6 +385,11 @@ def tp_model_init(model, tp_size, dtype):
     set_autotp_mode(training=True)
     
     from deepspeed.runtime.tensor_parallel import TpTrainingManager
+    # The expected usage here is for it to be invoked by transformers package.
+    
+    #TODO: We should provide a custom TP mapping solution without using autoTP 
+    #as modifying the autoTP logic may be more difficult for users compared to configuring it
+
     model = TpTrainingManager(model=model, tp_size=tp_size, dtype=dtype).module
     
     setattr(model, 'ds_autotp_parsed', True)
diff --git a/deepspeed/inference/engine.py b/deepspeed/inference/engine.py
index 3c918b4ce8e0..cb75f7af4728 100755
--- a/deepspeed/inference/engine.py
+++ b/deepspeed/inference/engine.py
@@ -16,7 +16,6 @@
 from deepspeed.utils.timer import SynchronizedWallClockTimer
 from deepspeed.runtime.compiler import is_compile_supported
 from deepspeed.utils import groups
-from deepspeed.module_inject.layers import is_autotp_training_mode
 from ..runtime.state_dict_factory import SDLoaderFactory
 from ..runtime.weight_quantizer import WeightQuantization
 from ..module_inject import replace_transformer_layer, generic_injection
@@ -249,10 +248,6 @@ def _post_forward_hook(self, module, input, output):
 
     def _create_model_parallel_group(self, config):
 
-        if is_autotp_training_mode():
-            groups._init_tp_mesh_device(config.tensor_parallel.tp_size)
-            self.mp_group = groups.get_tensor_model_parallel_group()
-            return
         # Call the init process
         if InferenceEngine.inference_mp_group is None:
             init_distributed()
diff --git a/deepspeed/runtime/config.py b/deepspeed/runtime/config.py
index fb786f29722d..15602b0a7d81 100755
--- a/deepspeed/runtime/config.py
+++ b/deepspeed/runtime/config.py
@@ -62,6 +62,7 @@
 from ..compression.constants import *
 from .swap_tensor.aio_config import get_aio_config
 
+from .tensor_parallel import get_tensor_parallel_config
 from .data_pipeline.config import get_data_efficiency_enabled, get_data_efficiency_config, get_curriculum_enabled_legacy, get_curriculum_params_legacy
 from .data_pipeline.constants import *
 
@@ -913,6 +914,8 @@ def _initialize_params(self, param_dict):
             **param_dict['weight_quantization']) if 'weight_quantization' in param_dict else None
 
         self.timers_config = get_timers_config(param_dict)
+        self.tensor_parallel_config = get_tensor_parallel_config(param_dict)
+        
 
     def _batch_assertion(self):
 
diff --git a/deepspeed/runtime/engine.py b/deepspeed/runtime/engine.py
index 85ef5c987973..d03fa7ddf7a3 100755
--- a/deepspeed/runtime/engine.py
+++ b/deepspeed/runtime/engine.py
@@ -247,7 +247,7 @@ def __init__(self,
         self._do_args_sanity_check(args)
         self._configure_with_arguments(args, mpu)
         self._do_sanity_check()
-        if self.zero_autotp_size() > 1:
+        if self.autotp_size() > 1:
             self._configure_tensor_parallel_states(model)
         see_memory_usage(f"DeepSpeed Engine: After args sanity test", force=self.memory_breakdown())
         if mpu is not None:
@@ -427,7 +427,7 @@ def _configure_tensor_parallel_states(self, model):
         ) <= 1, "Currently, the compatibility between 'autotp' and 'zero_stage > 1' has not been validated"
 
         self.mpu = groups
-        self.mpu._init_tp_mesh_device(tensor_model_parallel_size=self.zero_autotp_size())
+        self.mpu._init_tp_mesh_device(tensor_model_parallel_size=self.autotp_size())
 
         self.first_dataloader_check = None
 
@@ -902,9 +902,9 @@ def zero_legacy_stage1(self):
     def zero_ignore_unused_parameters(self):
         return self._config.zero_config.ignore_unused_parameters
 
-    def zero_autotp_size(self):
-        return self._config.zero_config.autotp_size
-
+    def autotp_size(self):
+        return self._config.tensor_parallel_config.autotp_size
+    
     def graph_harvesting(self):
         return self._config.graph_harvesting
 
@@ -3679,7 +3679,7 @@ def _consolidated_16bit_state_dict(self, exclude_frozen_parameters=False):
         """
         if self.zero_optimization_stage() == ZeroStageEnum.weights:
             return self._zero3_consolidated_16bit_state_dict(exclude_frozen_parameters)
-        elif self.zero_autotp_size() > 1:
+        elif self.autotp_size() > 1:
             return self._replace_module_consolidated_state_dict()
 
         raise ValueError("consolidated_16bit_state_dict is only applicable to cases where weights are partitioned, "
diff --git a/deepspeed/runtime/tensor_parallel/__init__.py b/deepspeed/runtime/tensor_parallel/__init__.py
index 2145fae474d9..388239345351 100644
--- a/deepspeed/runtime/tensor_parallel/__init__.py
+++ b/deepspeed/runtime/tensor_parallel/__init__.py
@@ -3,5 +3,5 @@
 
 # DeepSpeed Team
 
-from .config import AUTOTP_MODE
+from .config import AUTOTP_MODE, get_tensor_parallel_config
 from .tp_manager import TpTrainingManager
diff --git a/deepspeed/runtime/tensor_parallel/config.py b/deepspeed/runtime/tensor_parallel/config.py
index f5e50dfb934c..661729d31804 100644
--- a/deepspeed/runtime/tensor_parallel/config.py
+++ b/deepspeed/runtime/tensor_parallel/config.py
@@ -15,7 +15,7 @@ class AUTOTP_MODE(Enum):
     INFERENCE = "INFERENCE"
 
 
-class DeepSpeedTPConfig(DeepSpeedConfigModel):
+class TPConfig(DeepSpeedConfigModel):
     """ Configure tensor parallelism settings """
 
     enabled: bool = True
@@ -36,18 +36,29 @@ class DeepSpeedTPConfig(DeepSpeedConfigModel):
     tp_group: object = None
 
 
-class DeepSpeedTPTrainingConfig(DeepSpeedConfigModel):
+class TPTrainingConfig(DeepSpeedConfigModel):
 
     dtype: torch.dtype = torch.float16
     """
     Desired model data type, will convert model to this type.
     Supported target types: `torch.half`, `torch.int8`, `torch.float`
     """
-
-    tensor_parallel: DeepSpeedTPConfig = Field({}, alias="tp")
+    
+    autotp_size: int = 0
+    """
+    In automatic tensor-parallelism training, 'tensor_parallel_size'
+    When set to 0, indicates that it is disabled.
+    """
+    tensor_parallel: TPConfig = Field({}, alias="tp")
     """
     Configuration for tensor parallelism used to split the model across several
     GPUs. Expects a dictionary containing values for :any:`DeepSpeedTPConfig`.
     """
-
+    
     injection_policy_tuple: Optional[tuple] = None
+    
+def get_tensor_parallel_config(ds_config):
+
+    if 'tensor_parallel' in ds_config:
+        return TPTrainingConfig(**ds_config['tensor_parallel'])
+    return None
diff --git a/deepspeed/runtime/tensor_parallel/tp_manager.py b/deepspeed/runtime/tensor_parallel/tp_manager.py
index 8cfcbfb25b5c..5e68e745a0cd 100644
--- a/deepspeed/runtime/tensor_parallel/tp_manager.py
+++ b/deepspeed/runtime/tensor_parallel/tp_manager.py
@@ -4,9 +4,9 @@
 # DeepSpeed Team
 
 import torch
-from .config import DeepSpeedTPTrainingConfig, DeepSpeedTPConfig
+from .config import TPTrainingConfig, TPConfig
 from deepspeed.utils import groups
-
+import deepspeed.comm as dist
 
 class TpTrainingManager():
 
@@ -15,6 +15,7 @@ def __init__(self, model, tp_size, dtype):
         self.config = self._initialize_config(dtype)
 
         from deepspeed.module_inject.auto_tp import AutoTP
+        from deepspeed import get_accelerator
 
         # Parse model configuration
         parser_dict = AutoTP.tp_parser(model)
@@ -24,12 +25,18 @@ def __init__(self, model, tp_size, dtype):
         self._initialize_tp_config(tp_size)
         self._get_model_config_generate()
 
+        # Synchronize random number generator state across devices
+        _rng_state = get_accelerator().get_rng_state().to(get_accelerator().current_device_name())
+        dist.broadcast(_rng_state, 0)
+        get_accelerator().set_rng_state(_rng_state.cpu())
+        
         # Apply injection policies
         self._apply_policies(parser_dict)
+        
 
     def _initialize_config(self, dtype):
         """Initialize and return the DeepSpeed TP training configuration."""
-        config = DeepSpeedTPTrainingConfig()
+        config = TPTrainingConfig()
         config.dtype = dtype
         return config
 
@@ -47,7 +54,7 @@ def _apply_injection_policy(self, config, client_module=None):
 
     def _initialize_tp_config(self, tp_size):
         """Perform TP configuration initialization."""
-        self.tp_config = DeepSpeedTPConfig()
+        self.tp_config = TPConfig()
         self.tp_config.tp_size = tp_size
         if tp_size <= 1:
             self.tp_config.enabled = False
diff --git a/deepspeed/runtime/zero/config.py b/deepspeed/runtime/zero/config.py
index ec14d5753d88..312ebe30c642 100644
--- a/deepspeed/runtime/zero/config.py
+++ b/deepspeed/runtime/zero/config.py
@@ -44,7 +44,6 @@
     "zero_quantized_gradients": [true|false],
     "memory_efficient_linear": [true|false],
     "override_module_apply": [true|false],
-    "autotp_size": 0,
     "zeropp_loco_param": {...},
     }
 }
@@ -340,10 +339,6 @@ class DeepSpeedZeroConfig(DeepSpeedConfigModel):
     """
     Override nn.Module apply function, for Stage 3.
     """
-    autotp_size: int = Field(0, ge=0, new_param="autotp_size")
-    """
-    In automatic tensor-parallelism training, 'tensor_parallel_size', when set to 0, indicates that it is disabled.
-    """
     # Validators
     @model_validator(mode="after")
     def overlap_comm_valid(self):
diff --git a/tests/unit/model_parallelism/test_autotp_training.py b/tests/unit/model_parallelism/test_autotp_training.py
index d4488a59d5c9..ca6bf3f2e1eb 100644
--- a/tests/unit/model_parallelism/test_autotp_training.py
+++ b/tests/unit/model_parallelism/test_autotp_training.py
@@ -64,7 +64,7 @@ def test(self, tp_size: int):
 
         dp_size = 4 / tp_size
         hidden_dim = 128
-        config_dict = {"train_micro_batch_size_per_gpu": 1, "zero_optimization": {"stage": 0, "autotp_size": tp_size}}
+        config_dict = {"train_micro_batch_size_per_gpu": 1,"tensor_parallel":{"autotp_size": tp_size} ,"zero_optimization": {"stage": 0}}
         model = SimpleModel(hidden_dim=hidden_dim)
         model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
         assert groups.get_tensor_model_parallel_world_size() == tp_size
@@ -88,9 +88,9 @@ def test(self, tp_size: int):
                     "lr": 1e-6
                 }
             },
+            "tensor_parallel":{"autotp_size": tp_size},
             "zero_optimization": {
                 "stage": 0,
-                "autotp_size": tp_size
             }
         }
         if preferred_dtype() is torch.float16:
@@ -163,9 +163,9 @@ def testRowParallel(self, tp_size: int):
                     "lr": 1e-6
                 }
             },
+            "tensor_parallel":{"autotp_size": tp_size},
             "zero_optimization": {
                 "stage": 0,
-                "autotp_size": tp_size
             }
         }
         if preferred_dtype() is torch.float16:
@@ -210,9 +210,9 @@ def testColumnParallel(self, tp_size: int):
                     "lr": 1e-6
                 }
             },
+            "tensor_parallel":{"autotp_size": tp_size},
             "zero_optimization": {
                 "stage": 0,
-                "autotp_size": tp_size
             }
         }
         if preferred_dtype() is torch.float16:
@@ -265,9 +265,9 @@ def test(self, layer_type):
                     "lr": 1e-6
                 }
             },
+            "tensor_parallel":{"autotp_size": tp_size},
             "zero_optimization": {
                 "stage": 0,
-                "autotp_size": tp_size
             }
         }
         if preferred_dtype() is torch.float16:
@@ -353,9 +353,9 @@ def test_save_original_weight(self):
                     "lr": 1e-6
                 }
             },
+            "tensor_parallel":{"autotp_size": tp_size},
             "zero_optimization": {
                 "stage": 0,
-                "autotp_size": tp_size
             }
         }
         if preferred_dtype() is torch.float16:
@@ -412,8 +412,8 @@ def test_ckpt_save(self, tmpdir):
             },
             "zero_optimization": {
                 "stage": 0,
-                "autotp_size": tp_size
             },
+            "tensor_parallel":{"autotp_size": tp_size},
             "scheduler": {
                 "type": "WarmupLR",
                 "params": {
@@ -480,9 +480,9 @@ def test(self, tp_size: int, zero_stage: int):
                     "lr": 1e-6
                 }
             },
+            "tensor_parallel":{"autotp_size": tp_size},
             "zero_optimization": {
                 "stage": zero_stage,
-                "autotp_size": tp_size
             }
         }
         if preferred_dtype() is torch.float16:

From 29eef079f9aaffd92e6eb26dcf0ab7675aff71b3 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Wed, 15 Jan 2025 18:27:40 +0800
Subject: [PATCH 58/71] update

---
 deepspeed/runtime/tensor_parallel/tp_manager.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/deepspeed/runtime/tensor_parallel/tp_manager.py b/deepspeed/runtime/tensor_parallel/tp_manager.py
index 5e68e745a0cd..5452663119da 100644
--- a/deepspeed/runtime/tensor_parallel/tp_manager.py
+++ b/deepspeed/runtime/tensor_parallel/tp_manager.py
@@ -27,7 +27,7 @@ def __init__(self, model, tp_size, dtype):
 
         # Synchronize random number generator state across devices
         _rng_state = get_accelerator().get_rng_state().to(get_accelerator().current_device_name())
-        dist.broadcast(_rng_state, 0)
+        dist.broadcast(_rng_state, 0, self.tp_config.tp_group)
         get_accelerator().set_rng_state(_rng_state.cpu())
         
         # Apply injection policies

From ba47ed19b37a63036c84bc9edbd85f21043c4a82 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Wed, 15 Jan 2025 18:31:38 +0800
Subject: [PATCH 59/71] format

---
 deepspeed/__init__.py                         |  8 ++--
 deepspeed/inference/engine.py                 |  1 -
 deepspeed/runtime/config.py                   |  1 -
 deepspeed/runtime/engine.py                   |  2 +-
 deepspeed/runtime/tensor_parallel/config.py   |  7 ++--
 .../runtime/tensor_parallel/tp_manager.py     |  4 +-
 .../model_parallelism/test_autotp_training.py | 38 +++++++++++++++----
 7 files changed, 41 insertions(+), 20 deletions(-)

diff --git a/deepspeed/__init__.py b/deepspeed/__init__.py
index 1a1a5a25e2da..00d52024dcbb 100755
--- a/deepspeed/__init__.py
+++ b/deepspeed/__init__.py
@@ -383,15 +383,15 @@ def tp_model_init(model, tp_size, dtype):
         model, 'ds_autotp_parsed'), "ds_autotp_parsed' attribute already exists in the model, re-entry is not allowed."
 
     set_autotp_mode(training=True)
-    
+
     from deepspeed.runtime.tensor_parallel import TpTrainingManager
     # The expected usage here is for it to be invoked by transformers package.
-    
-    #TODO: We should provide a custom TP mapping solution without using autoTP 
+
+    #TODO: We should provide a custom TP mapping solution without using autoTP
     #as modifying the autoTP logic may be more difficult for users compared to configuring it
 
     model = TpTrainingManager(model=model, tp_size=tp_size, dtype=dtype).module
-    
+
     setattr(model, 'ds_autotp_parsed', True)
 
     return model
diff --git a/deepspeed/inference/engine.py b/deepspeed/inference/engine.py
index cb75f7af4728..246dd51323b4 100755
--- a/deepspeed/inference/engine.py
+++ b/deepspeed/inference/engine.py
@@ -15,7 +15,6 @@
 from deepspeed.runtime.checkpoint_engine.torch_checkpoint_engine import TorchCheckpointEngine
 from deepspeed.utils.timer import SynchronizedWallClockTimer
 from deepspeed.runtime.compiler import is_compile_supported
-from deepspeed.utils import groups
 from ..runtime.state_dict_factory import SDLoaderFactory
 from ..runtime.weight_quantizer import WeightQuantization
 from ..module_inject import replace_transformer_layer, generic_injection
diff --git a/deepspeed/runtime/config.py b/deepspeed/runtime/config.py
index 15602b0a7d81..b6dabc161e8c 100755
--- a/deepspeed/runtime/config.py
+++ b/deepspeed/runtime/config.py
@@ -915,7 +915,6 @@ def _initialize_params(self, param_dict):
 
         self.timers_config = get_timers_config(param_dict)
         self.tensor_parallel_config = get_tensor_parallel_config(param_dict)
-        
 
     def _batch_assertion(self):
 
diff --git a/deepspeed/runtime/engine.py b/deepspeed/runtime/engine.py
index d03fa7ddf7a3..09cc50bcf1c3 100755
--- a/deepspeed/runtime/engine.py
+++ b/deepspeed/runtime/engine.py
@@ -904,7 +904,7 @@ def zero_ignore_unused_parameters(self):
 
     def autotp_size(self):
         return self._config.tensor_parallel_config.autotp_size
-    
+
     def graph_harvesting(self):
         return self._config.graph_harvesting
 
diff --git a/deepspeed/runtime/tensor_parallel/config.py b/deepspeed/runtime/tensor_parallel/config.py
index 661729d31804..53291bf7978e 100644
--- a/deepspeed/runtime/tensor_parallel/config.py
+++ b/deepspeed/runtime/tensor_parallel/config.py
@@ -43,7 +43,7 @@ class TPTrainingConfig(DeepSpeedConfigModel):
     Desired model data type, will convert model to this type.
     Supported target types: `torch.half`, `torch.int8`, `torch.float`
     """
-    
+
     autotp_size: int = 0
     """
     In automatic tensor-parallelism training, 'tensor_parallel_size'
@@ -54,9 +54,10 @@ class TPTrainingConfig(DeepSpeedConfigModel):
     Configuration for tensor parallelism used to split the model across several
     GPUs. Expects a dictionary containing values for :any:`DeepSpeedTPConfig`.
     """
-    
+
     injection_policy_tuple: Optional[tuple] = None
-    
+
+
 def get_tensor_parallel_config(ds_config):
 
     if 'tensor_parallel' in ds_config:
diff --git a/deepspeed/runtime/tensor_parallel/tp_manager.py b/deepspeed/runtime/tensor_parallel/tp_manager.py
index 5452663119da..7b927abc3cdd 100644
--- a/deepspeed/runtime/tensor_parallel/tp_manager.py
+++ b/deepspeed/runtime/tensor_parallel/tp_manager.py
@@ -8,6 +8,7 @@
 from deepspeed.utils import groups
 import deepspeed.comm as dist
 
+
 class TpTrainingManager():
 
     def __init__(self, model, tp_size, dtype):
@@ -29,10 +30,9 @@ def __init__(self, model, tp_size, dtype):
         _rng_state = get_accelerator().get_rng_state().to(get_accelerator().current_device_name())
         dist.broadcast(_rng_state, 0, self.tp_config.tp_group)
         get_accelerator().set_rng_state(_rng_state.cpu())
-        
+
         # Apply injection policies
         self._apply_policies(parser_dict)
-        
 
     def _initialize_config(self, dtype):
         """Initialize and return the DeepSpeed TP training configuration."""
diff --git a/tests/unit/model_parallelism/test_autotp_training.py b/tests/unit/model_parallelism/test_autotp_training.py
index ca6bf3f2e1eb..7cbf2948fc40 100644
--- a/tests/unit/model_parallelism/test_autotp_training.py
+++ b/tests/unit/model_parallelism/test_autotp_training.py
@@ -64,7 +64,15 @@ def test(self, tp_size: int):
 
         dp_size = 4 / tp_size
         hidden_dim = 128
-        config_dict = {"train_micro_batch_size_per_gpu": 1,"tensor_parallel":{"autotp_size": tp_size} ,"zero_optimization": {"stage": 0}}
+        config_dict = {
+            "train_micro_batch_size_per_gpu": 1,
+            "tensor_parallel": {
+                "autotp_size": tp_size
+            },
+            "zero_optimization": {
+                "stage": 0
+            }
+        }
         model = SimpleModel(hidden_dim=hidden_dim)
         model, _, _, _ = deepspeed.initialize(model=model, model_parameters=model.parameters(), config=config_dict)
         assert groups.get_tensor_model_parallel_world_size() == tp_size
@@ -88,7 +96,9 @@ def test(self, tp_size: int):
                     "lr": 1e-6
                 }
             },
-            "tensor_parallel":{"autotp_size": tp_size},
+            "tensor_parallel": {
+                "autotp_size": tp_size
+            },
             "zero_optimization": {
                 "stage": 0,
             }
@@ -163,7 +173,9 @@ def testRowParallel(self, tp_size: int):
                     "lr": 1e-6
                 }
             },
-            "tensor_parallel":{"autotp_size": tp_size},
+            "tensor_parallel": {
+                "autotp_size": tp_size
+            },
             "zero_optimization": {
                 "stage": 0,
             }
@@ -210,7 +222,9 @@ def testColumnParallel(self, tp_size: int):
                     "lr": 1e-6
                 }
             },
-            "tensor_parallel":{"autotp_size": tp_size},
+            "tensor_parallel": {
+                "autotp_size": tp_size
+            },
             "zero_optimization": {
                 "stage": 0,
             }
@@ -265,7 +279,9 @@ def test(self, layer_type):
                     "lr": 1e-6
                 }
             },
-            "tensor_parallel":{"autotp_size": tp_size},
+            "tensor_parallel": {
+                "autotp_size": tp_size
+            },
             "zero_optimization": {
                 "stage": 0,
             }
@@ -353,7 +369,9 @@ def test_save_original_weight(self):
                     "lr": 1e-6
                 }
             },
-            "tensor_parallel":{"autotp_size": tp_size},
+            "tensor_parallel": {
+                "autotp_size": tp_size
+            },
             "zero_optimization": {
                 "stage": 0,
             }
@@ -413,7 +431,9 @@ def test_ckpt_save(self, tmpdir):
             "zero_optimization": {
                 "stage": 0,
             },
-            "tensor_parallel":{"autotp_size": tp_size},
+            "tensor_parallel": {
+                "autotp_size": tp_size
+            },
             "scheduler": {
                 "type": "WarmupLR",
                 "params": {
@@ -480,7 +500,9 @@ def test(self, tp_size: int, zero_stage: int):
                     "lr": 1e-6
                 }
             },
-            "tensor_parallel":{"autotp_size": tp_size},
+            "tensor_parallel": {
+                "autotp_size": tp_size
+            },
             "zero_optimization": {
                 "stage": zero_stage,
             }

From bbde63fb557711459f4fc5e7c228678476299015 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Wed, 15 Jan 2025 18:45:29 +0800
Subject: [PATCH 60/71] fix layer  typo and rename

---
 deepspeed/module_inject/auto_tp.py | 6 +++---
 deepspeed/module_inject/layers.py  | 2 +-
 2 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/deepspeed/module_inject/auto_tp.py b/deepspeed/module_inject/auto_tp.py
index 8cdc3101cfeb..05b9a8555ff9 100755
--- a/deepspeed/module_inject/auto_tp.py
+++ b/deepspeed/module_inject/auto_tp.py
@@ -11,7 +11,7 @@
 from typing import Optional
 import torch
 from deepspeed import comm as dist
-from .layers import LinearAllreduce, LinearLayer, LmHeadLinearAllreduce, Yuan_LinearALlreduce, Yuan_LinearLayer, GLM_LinearLayer, Conv_LinearALlreduce, fused_LinearLayer, conv_LinearLayer
+from .layers import LinearAllreduce, LinearLayer, LmHeadLinearAllreduce, Yuan_LinearAllreduce, Yuan_LinearLayer, GateUpPack_LinearLayer, Conv_LinearALlreduce, fused_LinearLayer, conv_LinearLayer
 from deepspeed.accelerator import get_accelerator
 from .fusedqkv_utils import require_tp_fused_qkvw
 from deepspeed.module_inject.tp_shard import get_shard_size, get_shard_size_list
@@ -352,11 +352,11 @@ def _replace(self, child, name, conv_linear_layer):
                 return Yuan_LinearLayer(child, self.mp_group)
 
             elif 'o_proj' in name:
-                return Yuan_LinearALlreduce(child, self.mp_group)
+                return Yuan_LinearAllreduce(child, self.mp_group)
 
         # For MLP including chunk layer.
         if 'gate_up_proj' in name or ('dense_h_to_4h' in name and 'GLM' in str(self.module)):
-            return GLM_LinearLayer(child, self.mp_group)
+            return GateUpPack_LinearLayer(child, self.mp_group)
             # For Arctic model, bypass to all_reduce replacement for w2 weights
         arctic_w2_all_reduce_linear = False
         if 'Arctic' in str(self.module) and 'w2' in name:
diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index c6a939900637..eba53e81ec24 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -513,7 +513,7 @@ def partition(self, params_list):
             params_list[1].data = move(bias, get_accelerator().current_device_name()).detach()
 
 
-class GLM_LinearLayer(LinearLayer):
+class GateUpPack_LinearLayer(LinearLayer):
     # chatGLM2, chatGLM2
     @torch.no_grad()
     def partition(self, params_list):

From bdca62c3f354d4250bade8f43e9b4942ef6c091a Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Wed, 15 Jan 2025 10:49:48 +0000
Subject: [PATCH 61/71] fix python3.9

---
 deepspeed/module_inject/layers.py | 12 ++++++++----
 1 file changed, 8 insertions(+), 4 deletions(-)

diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index eba53e81ec24..95c9c31ca01c 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -14,7 +14,8 @@
 from typing import Iterable, Any, Optional, List
 from .fusedqkv_utils import shard_value_with_share_qk, shard_chunk_mlp, prepare_tp_fused_qkvw
 from deepspeed.runtime.tensor_parallel import AUTOTP_MODE
-import copy
+from copy import deepcopy
+from typing import Union
 
 DEEPSPEED_AUTOTP_MODE = AUTOTP_MODE.INFERENCE
 DS_IS_REPLACED_MODULE = 'ds_is_replaced_module'
@@ -220,7 +221,7 @@ def __deepcopy__(self, memo):
             if key == 'mp_group':
                 new_obj.mp_group = self.mp_group
             else:
-                setattr(new_obj, key, copy.deepcopy(value, memo))
+                setattr(new_obj, key, deepcopy(value, memo))
 
         memo[id(self)] = new_obj
         return new_obj
@@ -232,7 +233,10 @@ class GatherReplacedLayerParams:
     based on the configuration of the model.
     """
 
-    def __init__(self, params: Iterable[torch.Tensor] | torch.Tensor, module: torch.nn.Module, enabled: bool = True):
+    def __init__(self,
+                 params: Union[Iterable[torch.Tensor], torch.Tensor],
+                 module: torch.nn.Module,
+                 enabled: bool = True):
         """
         Initialize the context manager to handle parameter gathering and partitioning for a replaced layer.
 
@@ -490,7 +494,7 @@ def partition(self, params_list):
 
 
 #override the subclasses related to weight splitting.
-class Yuan_LinearALlreduce(LinearAllreduce):
+class Yuan_LinearAllreduce(LinearAllreduce):
 
     #Yuan2
     @torch.no_grad()

From 5d894223669161a4ee952331101095531eb83380 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Wed, 15 Jan 2025 18:58:23 +0800
Subject: [PATCH 62/71] refine code

---
 deepspeed/inference/config.py               | 5 -----
 deepspeed/inference/engine.py               | 1 -
 deepspeed/runtime/tensor_parallel/config.py | 1 -
 deepspeed/runtime/zero/config.py            | 1 +
 4 files changed, 1 insertion(+), 7 deletions(-)

diff --git a/deepspeed/inference/config.py b/deepspeed/inference/config.py
index aa785550f295..42ffebbc4386 100644
--- a/deepspeed/inference/config.py
+++ b/deepspeed/inference/config.py
@@ -31,11 +31,6 @@ class MoETypeEnum(str, Enum):
     standard = "standard"
 
 
-class AUTOTP_MODE(Enum):
-    TRAINING = "TRAINING"
-    INFERENCE = "INFERENCE"
-
-
 class DeepSpeedTPConfig(DeepSpeedConfigModel):
     """ Configure tensor parallelism settings """
 
diff --git a/deepspeed/inference/engine.py b/deepspeed/inference/engine.py
index 246dd51323b4..2a2e4665c310 100755
--- a/deepspeed/inference/engine.py
+++ b/deepspeed/inference/engine.py
@@ -246,7 +246,6 @@ def _post_forward_hook(self, module, input, output):
         self._model_times.append(elapsed_time)
 
     def _create_model_parallel_group(self, config):
-
         # Call the init process
         if InferenceEngine.inference_mp_group is None:
             init_distributed()
diff --git a/deepspeed/runtime/tensor_parallel/config.py b/deepspeed/runtime/tensor_parallel/config.py
index 53291bf7978e..1d33a672d6d2 100644
--- a/deepspeed/runtime/tensor_parallel/config.py
+++ b/deepspeed/runtime/tensor_parallel/config.py
@@ -41,7 +41,6 @@ class TPTrainingConfig(DeepSpeedConfigModel):
     dtype: torch.dtype = torch.float16
     """
     Desired model data type, will convert model to this type.
-    Supported target types: `torch.half`, `torch.int8`, `torch.float`
     """
 
     autotp_size: int = 0
diff --git a/deepspeed/runtime/zero/config.py b/deepspeed/runtime/zero/config.py
index 312ebe30c642..cbc6a15c2057 100644
--- a/deepspeed/runtime/zero/config.py
+++ b/deepspeed/runtime/zero/config.py
@@ -339,6 +339,7 @@ class DeepSpeedZeroConfig(DeepSpeedConfigModel):
     """
     Override nn.Module apply function, for Stage 3.
     """
+
     # Validators
     @model_validator(mode="after")
     def overlap_comm_valid(self):

From 0a9caff95bec0001c103ac1405cefd96741cea94 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Wed, 15 Jan 2025 19:23:47 +0800
Subject: [PATCH 63/71] refine

---
 deepspeed/__init__.py       | 2 +-
 deepspeed/runtime/engine.py | 3 +--
 2 files changed, 2 insertions(+), 3 deletions(-)

diff --git a/deepspeed/__init__.py b/deepspeed/__init__.py
index 00d52024dcbb..fd1f421b8954 100755
--- a/deepspeed/__init__.py
+++ b/deepspeed/__init__.py
@@ -32,7 +32,7 @@
 from .runtime.hybrid_engine import DeepSpeedHybridEngine
 from .runtime.pipe.engine import PipelineEngine
 from .inference.engine import InferenceEngine
-from .inference.config import DeepSpeedInferenceConfig, AUTOTP_MODE
+from .inference.config import DeepSpeedInferenceConfig
 from .runtime.lr_schedules import add_tuning_arguments
 from .runtime.config import DeepSpeedConfig, DeepSpeedConfigError
 from .runtime.activation_checkpointing import checkpointing
diff --git a/deepspeed/runtime/engine.py b/deepspeed/runtime/engine.py
index 09cc50bcf1c3..c21b019ed947 100755
--- a/deepspeed/runtime/engine.py
+++ b/deepspeed/runtime/engine.py
@@ -471,8 +471,7 @@ def broadcast_and_check(args, bcast_rank, bcast_group):
             broadcast_and_check(args, bcast_rank, bcast_group)
             broadcast_and_check(kwargs, bcast_rank, bcast_group)
 
-            print(f"RANK[{dist.get_rank()}]:The Dataloader has passed the TP group consistency check.")
-
+            logger.info(f":The Dataloader has passed the TP group consistency check.")
             self.first_dataloader_check.remove()
 
         self.first_dataloader_check = self.module.register_forward_pre_hook(check_dataloader_inputs_same_across_ranks,

From c923a3bc2d7382015e37acd433d3504046d08611 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Thu, 16 Jan 2025 16:59:30 +0800
Subject: [PATCH 64/71] refine config

---
 deepspeed/runtime/tensor_parallel/config.py     | 7 +++----
 deepspeed/runtime/tensor_parallel/tp_manager.py | 3 +--
 2 files changed, 4 insertions(+), 6 deletions(-)

diff --git a/deepspeed/runtime/tensor_parallel/config.py b/deepspeed/runtime/tensor_parallel/config.py
index 1d33a672d6d2..696696966384 100644
--- a/deepspeed/runtime/tensor_parallel/config.py
+++ b/deepspeed/runtime/tensor_parallel/config.py
@@ -18,13 +18,12 @@ class AUTOTP_MODE(Enum):
 class TPConfig(DeepSpeedConfigModel):
     """ Configure tensor parallelism settings """
 
-    enabled: bool = True
-    """ Turn tensor parallelism on/off. """
-
     tp_size: int = 1
     """ Number of devices to split the model across using tensor parallelism. """
 
-    tp_grain_size: int = 64
+    tp_grain_size: int = 1
+    "The variable required by the autoTP parser has not been activated in training yet"
+    "as it depends on the gather logic that supports uneven partitioning. "
     "Desired MLP/lm_head tp size granularity. DNN library favors tensor size in granularity of power of 2, we pick 64 as a default size."
 
     mpu: object = None
diff --git a/deepspeed/runtime/tensor_parallel/tp_manager.py b/deepspeed/runtime/tensor_parallel/tp_manager.py
index 7b927abc3cdd..aa00dffbb933 100644
--- a/deepspeed/runtime/tensor_parallel/tp_manager.py
+++ b/deepspeed/runtime/tensor_parallel/tp_manager.py
@@ -56,8 +56,7 @@ def _initialize_tp_config(self, tp_size):
         """Perform TP configuration initialization."""
         self.tp_config = TPConfig()
         self.tp_config.tp_size = tp_size
-        if tp_size <= 1:
-            self.tp_config.enabled = False
+
         groups._init_tp_mesh_device(tp_size)
         self.tp_config.tp_group = groups.get_tensor_model_parallel_group()
         self.config.tensor_parallel = self.tp_config

From 92be193755f629e8f32b4efefbad40fdbf09f2a2 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Fri, 17 Jan 2025 14:29:56 +0800
Subject: [PATCH 65/71] improve ut coverage for save

---
 tests/unit/model_parallelism/test_autotp_training.py | 7 +++----
 1 file changed, 3 insertions(+), 4 deletions(-)

diff --git a/tests/unit/model_parallelism/test_autotp_training.py b/tests/unit/model_parallelism/test_autotp_training.py
index 7cbf2948fc40..ba9d43edfb6d 100644
--- a/tests/unit/model_parallelism/test_autotp_training.py
+++ b/tests/unit/model_parallelism/test_autotp_training.py
@@ -351,13 +351,13 @@ def prepare_tp_model(hidden_dim, nlayers, linear_indices, allreduce_indices, gro
     return model, base_model
 
 
+@pytest.mark.parametrize("tp_size", [2, 4])
 class TestSave(DistributedTest):
 
     world_size = 4
     reuse_dist_env = True
 
-    def test_save_original_weight(self):
-        tp_size = 4
+    def test_save_original_weight(self, tp_size: int):
         hidden_dim = 64
         set_autotp_mode(training=True)
         config_dict = {
@@ -415,8 +415,7 @@ def compare_state_dicts(state_dict1, state_dict2):
         else:
             assert tp_state_dict is None, f"noly rank0 should have the state_dict"
 
-    def test_ckpt_save(self, tmpdir):
-        tp_size = 4
+    def test_ckpt_save(self, tmpdir, tp_size: int):
         hidden_dim = 64
         set_autotp_mode(training=True)
         config_dict = {

From 23bd0fc3071bef94e0d1cc088bd63ef0b098dfcb Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Fri, 17 Jan 2025 19:56:48 +0800
Subject: [PATCH 66/71] fix process exit early

---
 deepspeed/runtime/engine.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/deepspeed/runtime/engine.py b/deepspeed/runtime/engine.py
index c21b019ed947..612a5b237aee 100755
--- a/deepspeed/runtime/engine.py
+++ b/deepspeed/runtime/engine.py
@@ -3670,6 +3670,9 @@ def get_layer_state_dict(module, prefix=""):
                     get_layer_state_dict(child, prefix + name + ".")
 
         get_layer_state_dict(self.module, prefix="")
+
+        # ensure that all GPU communication tasks are completed before the process exits
+        get_accelerator().synchronize()
         return state_dict
 
     def _consolidated_16bit_state_dict(self, exclude_frozen_parameters=False):

From 358f3950895d2e47f253ee3dca83a507e0a5c8d6 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Fri, 17 Jan 2025 20:05:17 +0800
Subject: [PATCH 67/71] improve  ut coverage

---
 tests/unit/model_parallelism/test_autotp_training.py | 9 +++++----
 1 file changed, 5 insertions(+), 4 deletions(-)

diff --git a/tests/unit/model_parallelism/test_autotp_training.py b/tests/unit/model_parallelism/test_autotp_training.py
index ba9d43edfb6d..5f363e976481 100644
--- a/tests/unit/model_parallelism/test_autotp_training.py
+++ b/tests/unit/model_parallelism/test_autotp_training.py
@@ -351,13 +351,14 @@ def prepare_tp_model(hidden_dim, nlayers, linear_indices, allreduce_indices, gro
     return model, base_model
 
 
+@pytest.mark.parametrize("zero_stage", [0, 1])
 @pytest.mark.parametrize("tp_size", [2, 4])
 class TestSave(DistributedTest):
 
     world_size = 4
     reuse_dist_env = True
 
-    def test_save_original_weight(self, tp_size: int):
+    def test_save_original_weight(self, tp_size: int, zero_stage: int):
         hidden_dim = 64
         set_autotp_mode(training=True)
         config_dict = {
@@ -373,7 +374,7 @@ def test_save_original_weight(self, tp_size: int):
                 "autotp_size": tp_size
             },
             "zero_optimization": {
-                "stage": 0,
+                "stage": zero_stage,
             }
         }
         if preferred_dtype() is torch.float16:
@@ -415,7 +416,7 @@ def compare_state_dicts(state_dict1, state_dict2):
         else:
             assert tp_state_dict is None, f"noly rank0 should have the state_dict"
 
-    def test_ckpt_save(self, tmpdir, tp_size: int):
+    def test_ckpt_save(self, tmpdir, tp_size: int, zero_stage: int):
         hidden_dim = 64
         set_autotp_mode(training=True)
         config_dict = {
@@ -428,7 +429,7 @@ def test_ckpt_save(self, tmpdir, tp_size: int):
                 }
             },
             "zero_optimization": {
-                "stage": 0,
+                "stage": zero_stage,
             },
             "tensor_parallel": {
                 "autotp_size": tp_size

From 6d030c4bf046854500d121d954c297004247dc25 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Fri, 17 Jan 2025 21:42:19 +0800
Subject: [PATCH 68/71] fix zero1 regression

---
 deepspeed/runtime/tensor_parallel/config.py    | 18 ++++++++++++++++++
 .../runtime/tensor_parallel/tp_manager.py      |  2 +-
 2 files changed, 19 insertions(+), 1 deletion(-)

diff --git a/deepspeed/runtime/tensor_parallel/config.py b/deepspeed/runtime/tensor_parallel/config.py
index 696696966384..13c2b682781a 100644
--- a/deepspeed/runtime/tensor_parallel/config.py
+++ b/deepspeed/runtime/tensor_parallel/config.py
@@ -54,6 +54,24 @@ class TPTrainingConfig(DeepSpeedConfigModel):
     """
 
     injection_policy_tuple: Optional[tuple] = None
+    #The following parameters are required by autoTP parser.
+    ########################################
+    keep_module_on_host: bool = False
+    """
+    When loading checkpoints to model parameters, they are moved to the device. In very large models
+    this might fill the device and cause OOM. Setting this flag to true, will keep checkpoints on
+    host and not move them directly to the device (giving an option to quantize checkpoint data before
+    moving it to the device for example).
+    """
+
+    replace_with_kernel_inject: bool = Field(False, alias="kernel_inject")
+    """
+    Set to true to inject inference kernels for models such as, Bert, GPT2,
+    GPT-Neo and GPT-J.  Otherwise, the injection_dict provides the names of two
+    linear layers as a tuple:
+    `(attention_output projection, transformer output projection)`
+    """
+    ########################################
 
 
 def get_tensor_parallel_config(ds_config):
diff --git a/deepspeed/runtime/tensor_parallel/tp_manager.py b/deepspeed/runtime/tensor_parallel/tp_manager.py
index aa00dffbb933..cf0b5a75c92a 100644
--- a/deepspeed/runtime/tensor_parallel/tp_manager.py
+++ b/deepspeed/runtime/tensor_parallel/tp_manager.py
@@ -28,7 +28,7 @@ def __init__(self, model, tp_size, dtype):
 
         # Synchronize random number generator state across devices
         _rng_state = get_accelerator().get_rng_state().to(get_accelerator().current_device_name())
-        dist.broadcast(_rng_state, 0, self.tp_config.tp_group)
+        dist.broadcast(_rng_state, groups.get_tensor_model_parallel_src_rank(), self.tp_config.tp_group)
         get_accelerator().set_rng_state(_rng_state.cpu())
 
         # Apply injection policies

From 6e7f846979100decb5029983042a89b2a1781e02 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Mon, 20 Jan 2025 17:23:12 +0800
Subject: [PATCH 69/71] fix ci

---
 deepspeed/module_inject/layers.py           | 6 +++---
 deepspeed/runtime/tensor_parallel/config.py | 2 +-
 2 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/deepspeed/module_inject/layers.py b/deepspeed/module_inject/layers.py
index 4782c197592a..c410bf900c31 100644
--- a/deepspeed/module_inject/layers.py
+++ b/deepspeed/module_inject/layers.py
@@ -11,7 +11,7 @@
 from deepspeed.accelerator import get_accelerator
 from deepspeed.module_inject.tp_shard import get_shard_size, get_shard_size_list
 from abc import ABC, abstractmethod
-from typing import Iterable, Any, Optional, List
+from typing import Iterable, Any, Optional, List, Tuple
 from .fusedqkv_utils import shard_value_with_share_qk, shard_chunk_mlp, prepare_tp_fused_qkvw
 from deepspeed.runtime.tensor_parallel import AUTOTP_MODE
 from copy import deepcopy
@@ -87,7 +87,7 @@ def forward(ctx: Any, group: dist.ProcessGroup, input: torch.Tensor, is_inferenc
         return input
 
     @staticmethod
-    def backward(ctx: Any, grad_output: torch.Tensor) -> tuple[None, torch.Tensor, None]:
+    def backward(ctx: Any, grad_output: torch.Tensor) -> Tuple[None, torch.Tensor, None]:
         """
         Backward pass.
         """
@@ -113,7 +113,7 @@ def forward(ctx: Any, group: dist.ProcessGroup, input: torch.Tensor) -> torch.Te
         return input
 
     @staticmethod
-    def backward(ctx: Any, grad_output: torch.Tensor) -> tuple[None, torch.Tensor]:
+    def backward(ctx: Any, grad_output: torch.Tensor) -> Tuple[None, torch.Tensor]:
         """
         Backward pass.
         """
diff --git a/deepspeed/runtime/tensor_parallel/config.py b/deepspeed/runtime/tensor_parallel/config.py
index 13c2b682781a..1300bf9323cd 100644
--- a/deepspeed/runtime/tensor_parallel/config.py
+++ b/deepspeed/runtime/tensor_parallel/config.py
@@ -78,4 +78,4 @@ def get_tensor_parallel_config(ds_config):
 
     if 'tensor_parallel' in ds_config:
         return TPTrainingConfig(**ds_config['tensor_parallel'])
-    return None
+    return TPTrainingConfig()

From 05bcecdd28fc8ca47ae0de4e3d0b9d51d7fed6ab Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Tue, 21 Jan 2025 07:27:32 +0000
Subject: [PATCH 70/71] skip overflow test

---
 tests/unit/model_parallelism/test_autotp_training.py | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/tests/unit/model_parallelism/test_autotp_training.py b/tests/unit/model_parallelism/test_autotp_training.py
index 5f363e976481..348e5420cc4b 100644
--- a/tests/unit/model_parallelism/test_autotp_training.py
+++ b/tests/unit/model_parallelism/test_autotp_training.py
@@ -510,6 +510,10 @@ def test(self, tp_size: int, zero_stage: int):
         if preferred_dtype() is torch.float16:
             config_dict["fp16"] = {"enabled": True}
         elif preferred_dtype() is torch.bfloat16:
+            if zero_stage == 0:
+                pytest.skip(
+                    "This test has an overflow data and needs to implement an overflow skip mechanism in BF16_optimizer"
+                )
             config_dict["bf16"] = {"enabled": True}
 
         torch.manual_seed(42)

From 668cb1a13c286d3109f007dcc960072b1ef9140c Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Thu, 23 Jan 2025 07:45:10 +0000
Subject: [PATCH 71/71] Skip xpu tests until the ci is updated

---
 .../unit/model_parallelism/test_autotp_training.py | 14 +++++++++++++-
 1 file changed, 13 insertions(+), 1 deletion(-)

diff --git a/tests/unit/model_parallelism/test_autotp_training.py b/tests/unit/model_parallelism/test_autotp_training.py
index 348e5420cc4b..fc1f0624ec87 100644
--- a/tests/unit/model_parallelism/test_autotp_training.py
+++ b/tests/unit/model_parallelism/test_autotp_training.py
@@ -21,6 +21,11 @@
 import os
 
 
+def skip_on_device():
+    if get_accelerator().device_name() == 'xpu':
+        pytest.skip(f"XPU requires a higher version for test")
+
+
 class SequentialLinearModel(torch.nn.Module):
 
     def __init__(self, hidden_dim, empty_grad=False, nlayers=1):
@@ -60,6 +65,7 @@ class TestTpParallelStates(DistributedTest):
     world_size = 4
 
     def test(self, tp_size: int):
+        skip_on_device()
         set_autotp_mode(training=True)
 
         dp_size = 4 / tp_size
@@ -85,6 +91,7 @@ class TestTpDataloaderCorrectness(DistributedTest):
     reuse_dist_env = True
 
     def test(self, tp_size: int):
+        skip_on_device()
         hidden_dim = 128
         set_autotp_mode(training=True)
         config_dict = {
@@ -161,6 +168,7 @@ class TestTpLayerFwdBwd(DistributedTest):
     reuse_dist_env = True
 
     def testRowParallel(self, tp_size: int):
+        skip_on_device()
         hidden_dim = 128
         batch_size_per_device = 1
         set_autotp_mode(training=True)
@@ -209,7 +217,7 @@ def testRowParallel(self, tp_size: int):
         assert torch.allclose(out, torch_out.to(get_accelerator().current_device()), atol=1e-3)
 
     def testColumnParallel(self, tp_size: int):
-
+        skip_on_device()
         hidden_dim = 128
         batch_size_per_device = 1
         set_autotp_mode(training=True)
@@ -268,6 +276,7 @@ class TestParamsGather(DistributedTest):
 
     @pytest.mark.parametrize("layer_type", ["linear", "linearallreduce"])
     def test(self, layer_type):
+        skip_on_device()
         tp_size = 4
         hidden_dim = 128
         set_autotp_mode(training=True)
@@ -359,6 +368,7 @@ class TestSave(DistributedTest):
     reuse_dist_env = True
 
     def test_save_original_weight(self, tp_size: int, zero_stage: int):
+        skip_on_device()
         hidden_dim = 64
         set_autotp_mode(training=True)
         config_dict = {
@@ -417,6 +427,7 @@ def compare_state_dicts(state_dict1, state_dict2):
             assert tp_state_dict is None, f"noly rank0 should have the state_dict"
 
     def test_ckpt_save(self, tmpdir, tp_size: int, zero_stage: int):
+        skip_on_device()
         hidden_dim = 64
         set_autotp_mode(training=True)
         config_dict = {
@@ -489,6 +500,7 @@ class TestTpGradNorm(DistributedTest):
     reuse_dist_env = True
 
     def test(self, tp_size: int, zero_stage: int):
+        skip_on_device()
         hidden_dim = 64
         set_autotp_mode(training=True)
         config_dict = {