[autoparallel] add shard option (#2423)

2025-09-16 06:30:41 +00:00 · 2023-01-11 13:40:33 +08:00
parent 1b7587d958
commit 41429b9b28
4 changed files with 149 additions and 1 deletions
--- a/colossalai/auto_parallel/tensor_shard/node_handler/init.py
+++ b/colossalai/auto_parallel/tensor_shard/node_handler/init.py
@@ -11,6 +11,7 @@ from .layer_norm_handler import LayerNormModuleHandler
 from .linear_handler import LinearFunctionHandler, LinearModuleHandler
 from .matmul_handler import MatMulHandler
 from .normal_pooling_handler import NormPoolingHandler
+from .option import ShardOption
 from .output_handler import OutputHandler
 from .placeholder_handler import PlaceholderHandler
 from .registry import operator_registry
@@ -27,5 +28,5 @@ __all__ = [
    'UnaryElementwiseHandler', 'ReshapeHandler', 'PlaceholderHandler', 'OutputHandler', 'WhereHandler',
    'NormPoolingHandler', 'BinaryElementwiseHandler', 'MatMulHandler', 'operator_registry', 'ADDMMFunctionHandler',
    'GetItemHandler', 'GetattrHandler', 'ViewHandler', 'PermuteHandler', 'TensorConstructorHandler',
-    'EmbeddingModuleHandler', 'EmbeddingFunctionHandler', 'SumHandler', 'SoftmaxHandler'
+    'EmbeddingModuleHandler', 'EmbeddingFunctionHandler', 'SumHandler', 'SoftmaxHandler', 'ShardOption'
 ]
--- a/colossalai/auto_parallel/tensor_shard/node_handler/node_handler.py
+++ b/colossalai/auto_parallel/tensor_shard/node_handler/node_handler.py
@@ -5,6 +5,7 @@ import torch
 from torch.fx.node import Node

 from colossalai.auto_parallel.meta_profiler.metainfo import MetaInfo, meta_register
+from colossalai.auto_parallel.tensor_shard.node_handler.option import ShardOption
 from colossalai.auto_parallel.tensor_shard.sharding_strategy import (
    OperationData,
    OperationDataType,
@@ -35,12 +36,14 @@ class NodeHandler(ABC):
        node: Node,
        device_mesh: DeviceMesh,
        strategies_vector: StrategiesVector,
+        shard_option: ShardOption = ShardOption.STANDARD,
    ) -> None:
        self.node = node
        self.predecessor_node = list(node._input_nodes.keys())
        self.successor_node = list(node.users.keys())
        self.device_mesh = device_mesh
        self.strategies_vector = strategies_vector
+        self.shard_option = shard_option

    def update_resharding_cost(self, strategy: ShardingStrategy) -> None:
        """
@@ -181,6 +184,21 @@ class NodeHandler(ABC):
                if op_data.data is not None and isinstance(op_data.data, torch.Tensor):
                    check_sharding_spec_validity(sharding_spec, op_data.data)

+        remove_strategy_list = []
+        for strategy in self.strategies_vector:
+            shard_level = 0
+            for op_data, sharding_spec in strategy.sharding_specs.items():
+                if op_data.data is not None and isinstance(op_data.data, torch.Tensor):
+                    for dim, shard_axis in sharding_spec.dim_partition_dict.items():
+                        shard_level += len(shard_axis)
+            if self.shard_option == ShardOption.SHARD and shard_level == 0:
+                remove_strategy_list.append(strategy)
+            if self.shard_option == ShardOption.FULL_SHARD and shard_level <= 1:
+                remove_strategy_list.append(strategy)
+
+        for strategy in remove_strategy_list:
+            self.strategies_vector.remove(strategy)
+
        return self.strategies_vector

    def post_process(self, strategy: ShardingStrategy) -> Union[ShardingStrategy, List[ShardingStrategy]]:
--- a/colossalai/auto_parallel/tensor_shard/node_handler/option.py
+++ b/colossalai/auto_parallel/tensor_shard/node_handler/option.py
@@ -0,0 +1,17 @@
+from enum import Enum
+
+__all__ = ['ShardOption']
+
+
+class ShardOption(Enum):
+    """
+    This enum class is to define the shard level required in node strategies.
+
+    Notes:
+        STANDARD: We do not add any extra shard requirements.
+        SHARD: We require the node to be shard using at least one device mesh axis.
+        FULL_SHARD: We require the node to be shard using all device mesh axes.
+    """
+    STANDARD = 0
+    SHARD = 1
+    FULL_SHARD = 2