[hotfix] moe hybrid parallelism benchmark & follow-up fix (#6048)

* [example] pass use_fp8_comm flag to all plugins * [example] add mixtral benchmark * [moe] refine assertion and check * [moe] fix mixtral & add more tests * [moe] consider checking dp * sp group and moe_dp_group * [mixtral] remove gate tp & add more tests * [deepseek] fix tp & sp for deepseek * [mixtral] minor fix * [deepseek] add deepseek benchmark
2025-09-05 02:51:59 +00:00 · 2024-09-10 17:30:53 +08:00
parent 8fd25d6e09
commit c54c4fcd15
21 changed files with 907 additions and 99 deletions
--- a/tests/test_moe/test_moe_checkpoint.py
+++ b/tests/test_moe/test_moe_checkpoint.py
@@ -130,7 +130,7 @@ def check_moe_checkpoint(test_config):
        dist.barrier()
        if dist.get_rank() == 0:
            saved_model = model_cls.from_pretrained(model_dir).cuda().to(dtype)
-            check_model_equal(orig_model, saved_model)
+            check_model_equal(orig_model, saved_model, dtype=dtype)
            saved_model.save_pretrained(hf_model_dir)
        dist.barrier()
        # check load model
@@ -138,7 +138,7 @@ def check_moe_checkpoint(test_config):
        new_optimizer = Adam(new_model.parameters(), lr=1e-3)
        new_model, new_optimizer, *_ = booster.boost(model=new_model, optimizer=new_optimizer)
        booster.load_model(new_model, hf_model_dir)
-        check_model_equal(model, new_model)
+        check_model_equal(model, new_model, dtype=dtype)

        # check save optimizer
        optimizer.step()