[shardformer] fix the moe (#5883)

2025-08-22 09:49:14 +00:00 · 2024-07-03 20:02:19 +08:00 · 2024-07-03 20:02:19 +08:00 · 6cd4c32be4
commit 6cd4c32be4
parent eb24fcd914
2 changed files with 22 additions and 16 deletions
--- a/colossalai/booster/plugin/init.py
+++ b/colossalai/booster/plugin/init.py
@ -1,10 +1,18 @@
 from .gemini_plugin import GeminiPlugin
 from .hybrid_parallel_plugin import HybridParallelPlugin
 from .low_level_zero_plugin import LowLevelZeroPlugin
+from .moe_hybrid_parallel_plugin import MoeHybridParallelPlugin
 from .plugin_base import Plugin
 from .torch_ddp_plugin import TorchDDPPlugin

-__all__ = ["Plugin", "TorchDDPPlugin", "GeminiPlugin", "LowLevelZeroPlugin", "HybridParallelPlugin"]
+__all__ = [
+    "Plugin",
+    "TorchDDPPlugin",
+    "GeminiPlugin",
+    "LowLevelZeroPlugin",
+    "HybridParallelPlugin",
+    "MoeHybridParallelPlugin",
+]

 import torch
 from packaging import version
--- a/colossalai/shardformer/policies/mixtral.py
+++ b/colossalai/shardformer/policies/mixtral.py
@ -40,9 +40,7 @@ class MixtralPolicy(Policy):

        if self.shard_config.enable_tensor_parallelism:
            raise NotImplementedError("Tensor parallelism is not supported for Mixtral model now.")
-        if getattr(self.shard_config, "ep_group", None) is None:
-            raise ValueError("You must pass in ep_group via shard_config for expert parallel!")
-
+        if getattr(self.shard_config, "ep_group", None) is not None:
            # expert parallel
            self.append_or_create_submodule_replacement(
                description=[