[shardformer] fix master param sync for hybrid plugin/rewrite unwrapping logic (#4758)

* fix master param sync for hybrid plugin * rewrite unwrap for ddp/fsdp * rewrite unwrap for zero/gemini * rewrite unwrap for hybrid plugin * fix geemini unwrap * fix bugs
2025-09-25 11:44:03 +00:00 · 2023-09-20 18:29:37 +08:00
parent 7b9b86441f
commit c0a033700c
14 changed files with 141 additions and 171 deletions
--- a/colossalai/zero/gemini/gemini_ddp.py
+++ b/colossalai/zero/gemini/gemini_ddp.py
@@ -186,10 +186,6 @@ class GeminiDDP(ModelWrapper):
        for p in params_to_ignore:
            p._ddp_to_ignore = True

-    def unwrap(self):
-        # as save/load state dict is overwrited, only return self
-        return self
-
    def _get_non_persistent_buffers_set(
        self, module, memo: Optional[Set[nn.Module]] = None, prefix: str = "", remove_duplicate: bool = True
    ):
--- a/colossalai/zero/low_level/low_level_optim.py
+++ b/colossalai/zero/low_level/low_level_optim.py
@@ -648,3 +648,9 @@ class LowLevelZeroOptimizer(OptimizerWrapper):
                if padding_size > 0:
                    working_param = torch.nn.functional.pad(working_param, [0, padding_size])
                master_param.copy_(working_param.chunk(self._world_size)[self._local_rank])
+
+    def get_working_to_master_map(self) -> Dict[int, torch.Tensor]:
+        return self._param_store.working_to_master_param
+
+    def get_master_to_working_map(self) -> Dict[int, torch.Tensor]:
+        return self._param_store.master_to_working_param