[zero] adapt zero for unsharded paramters (Optimizer part) (#601)

2025-10-25 10:06:27 +00:00 · 2022-04-01 20:10:47 +08:00
parent 229382c844
commit 055fbf5be6
8 changed files with 208 additions and 44 deletions
--- a/tests/test_zero_data_parallel/common.py
+++ b/tests/test_zero_data_parallel/common.py
@@ -124,16 +124,18 @@ def check_params_padding(model, zero_model, loose=False):

 def check_sharded_model_params(model, zero_model, loose=False, reuse_fp16_shard=False):
    rank = dist.get_rank()
-    for p, zero_p in zip(model.parameters(), zero_model.parameters()):
-        if reuse_fp16_shard:
-            zero_p = zero_p.data.to(p.device).float()
-        else:
-            zero_p = zero_p.colo_attr.sharded_data_tensor.payload.to(p.device).float()
-        chunks = torch.flatten(p).chunk(dist.get_world_size())
-        if rank >= len(chunks):
-            continue
-        p = chunks[rank].float()
-        if zero_p.size(0) > p.size(0):
-            zero_p = zero_p[:p.size(0)]
+    for (name, p), (zero_name, zero_p) in zip(model.named_parameters(), zero_model.named_parameters()):
+        if zero_p.colo_attr.param_is_sharded:
+            if reuse_fp16_shard:
+                zero_p = zero_p.data.to(p.device).float()
+            else:
+                zero_p = zero_p.colo_attr.sharded_data_tensor.payload.to(p.device).float()
+            chunks = torch.flatten(p).chunk(dist.get_world_size())
+            if rank >= len(chunks):
+                continue
+            p = chunks[rank].float()
+            if zero_p.size(0) > p.size(0):
+                zero_p = zero_p[:p.size(0)]
+
        assert p.dtype == zero_p.dtype
        assert allclose(p, zero_p, loose=loose), f'{p} vs {zero_p}'