[hotfix] fix grad accumulation plus clipping for gemini (#5002)

2025-09-08 20:40:34 +00:00 · 2023-11-02 17:59:10 +08:00
parent dc003c304c
commit d99b2c961a
4 changed files with 13 additions and 3 deletions
--- a/tests/test_zero/test_gemini/test_grad_clip.py
+++ b/tests/test_zero/test_gemini/test_grad_clip.py
@@ -88,7 +88,7 @@ def exam_grad_clipping(placement_config, model_name: str, master_weights: bool):
    )

    optimizer = HybridAdam(model.parameters(), lr=1e-3)
-    zero_optim = GeminiOptimizer(optimizer, model, initial_scale=32, clipping_norm=1.0)
+    zero_optim = GeminiOptimizer(optimizer, model, initial_scale=32, max_norm=1.0)

    model.train()
    torch_model.train()