[misc] update pre-commit and run all files (#4752)

* [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format
2025-09-06 11:32:10 +00:00 · 2023-09-19 14:20:26 +08:00
parent 3c6b831c26
commit 079bf3cb26
1268 changed files with 50037 additions and 38444 deletions
--- a/examples/language/gpt/experiments/pipeline_parallel/model_zoo.py
+++ b/examples/language/gpt/experiments/pipeline_parallel/model_zoo.py
@@ -4,22 +4,25 @@ from transformers import GPT2Config, GPT2LMHeadModel

 ## Define the Model and Loss Based on Huggingface transformers GPT2LMHeadModel
 class GPTLMModel(nn.Module):
-
-    def __init__(self,
-                 hidden_size=768,
-                 num_layers=12,
-                 num_attention_heads=12,
-                 max_seq_len=1024,
-                 vocab_size=50257,
-                 checkpoint=False):
+    def __init__(
+        self,
+        hidden_size=768,
+        num_layers=12,
+        num_attention_heads=12,
+        max_seq_len=1024,
+        vocab_size=50257,
+        checkpoint=False,
+    ):
        super().__init__()
        self.checkpoint = checkpoint
-        self.config = GPT2Config(n_embd=hidden_size,
-                                 n_layer=num_layers,
-                                 n_head=num_attention_heads,
-                                 n_positions=max_seq_len,
-                                 n_ctx=max_seq_len,
-                                 vocab_size=vocab_size)
+        self.config = GPT2Config(
+            n_embd=hidden_size,
+            n_layer=num_layers,
+            n_head=num_attention_heads,
+            n_positions=max_seq_len,
+            n_ctx=max_seq_len,
+            vocab_size=vocab_size,
+        )
        self.model = GPT2LMHeadModel(self.config)
        if checkpoint:
            self.model.gradient_checkpointing_enable()
@@ -70,4 +73,4 @@ def model_builder(model_size: str) -> callable:
        raise TypeError(f"model_builder {model_size}")


-__all__ = ['model_builder']
+__all__ = ["model_builder"]
--- a/examples/language/gpt/experiments/pipeline_parallel/train_gpt_pp.py
+++ b/examples/language/gpt/experiments/pipeline_parallel/train_gpt_pp.py
@@ -3,41 +3,34 @@ import time
 from functools import partial

 import torch
-from model_zoo import model_builder
 from torch import nn
-from tqdm import tqdm

 from colossalai.fx import ColoTracer
-from colossalai.fx.passes.adding_split_node_pass import (
-    avgnode_split_pass,
-    gpipe_dp_split_pass,
-    split_with_split_nodes_pass,
-)
+from colossalai.fx.passes.adding_split_node_pass import gpipe_dp_split_pass, split_with_split_nodes_pass
 from colossalai.fx.passes.meta_info_prop import MetaInfoProp
 from colossalai.legacy.pipeline.middleware.adaptor import get_fx_topology
-from colossalai.legacy.pipeline.rpc._pipeline_schedule import FillDrainPipelineEngine, OneFOneBPipelineEngine
+from colossalai.legacy.pipeline.rpc._pipeline_schedule import FillDrainPipelineEngine
 from colossalai.legacy.pipeline.rpc.utils import rpc_run
 from colossalai.logging import disable_existing_loggers, get_dist_logger
-from colossalai.nn.optimizer import HybridAdam
+from model_zoo import model_builder


 def parse_args():
    parser = argparse.ArgumentParser()
-    parser.add_argument('--model_type', type=str, default="gpt2_medium")
-    parser.add_argument('--world_size', type=int, default=2)
-    parser.add_argument('--batch_size', type=int, default=16)
-    parser.add_argument('--dp_degree', type=int, default=1)
-    parser.add_argument('--tp_degree', type=int, default=1)
-    parser.add_argument('--num_microbatches', type=int, default=2)
-    parser.add_argument('--device', type=str, choices=['cpu', 'cuda'], default='cuda')
-    parser.add_argument('--master_addr', type=str, default='localhost')
-    parser.add_argument('--master_port', type=str, default='29011')
-    parser.add_argument('--num_worker_threads', type=int, default=128)
+    parser.add_argument("--model_type", type=str, default="gpt2_medium")
+    parser.add_argument("--world_size", type=int, default=2)
+    parser.add_argument("--batch_size", type=int, default=16)
+    parser.add_argument("--dp_degree", type=int, default=1)
+    parser.add_argument("--tp_degree", type=int, default=1)
+    parser.add_argument("--num_microbatches", type=int, default=2)
+    parser.add_argument("--device", type=str, choices=["cpu", "cuda"], default="cuda")
+    parser.add_argument("--master_addr", type=str, default="localhost")
+    parser.add_argument("--master_port", type=str, default="29011")
+    parser.add_argument("--num_worker_threads", type=int, default=128)
    return parser.parse_args()


 class GPTLMLoss(nn.Module):
-
    def __init__(self):
        super().__init__()
        self.loss_fn = nn.CrossEntropyLoss()
@@ -63,16 +56,16 @@ def get_tflops(model_numel, batch_size, seq_len, step_time):
 # Create annotated model which is noted where to be splitted.
 def get_annotated_model(model, data_kwargs, num_stages, num_microbatches):
    tracer = ColoTracer()
-    meta_args = {k: v.to('meta') for k, v in data_kwargs.items()}
+    meta_args = {k: v.to("meta") for k, v in data_kwargs.items()}
    graph = tracer.trace(root=model, meta_args=meta_args)
    gm = torch.fx.GraphModule(model, graph, model.__class__.__name__)

-    interp_meta_args = tuple([v.to('meta') for k, v in data_kwargs.items()])
+    interp_meta_args = tuple([v.to("meta") for k, v in data_kwargs.items()])
    interp = MetaInfoProp(gm)
    interp.run(*interp_meta_args)

-    #annotated_model = avgnode_split_pass(gm, num_stages)
-    annotated_model = gpipe_dp_split_pass(gm, num_stages, num_microbatches, mode='block', block_limit=0.01)
+    # annotated_model = avgnode_split_pass(gm, num_stages)
+    annotated_model = gpipe_dp_split_pass(gm, num_stages, num_microbatches, mode="block", block_limit=0.01)

    return annotated_model

@@ -83,7 +76,7 @@ def create_partition_module(pp_rank: int, num_stages: int, model, data_kwargs, n
    topo = get_fx_topology(top_module)
    for submodule in split_submodules:
        if isinstance(submodule, torch.fx.GraphModule):
-            setattr(submodule, '_topo', topo)
+            setattr(submodule, "_topo", topo)
    return split_submodules[pp_rank + 1]


@@ -107,8 +100,10 @@ def run_master(args):

    disable_existing_loggers()
    logger = get_dist_logger()
-    logger.info(f"{args.model_type}, batch size {batch_size}, num stage {stage_num}, num microbatch {num_microbatches}",
-                ranks=[0])
+    logger.info(
+        f"{args.model_type}, batch size {batch_size}, num stage {stage_num}, num microbatch {num_microbatches}",
+        ranks=[0],
+    )

    torch.manual_seed(123)

@@ -117,26 +112,28 @@ def run_master(args):

    # warm up pipeline fx partition
    input_ids, attn_mask = get_data(batch_size, SEQ_LEN, VOCAB_SIZE)
-    warmup_data_kwargs = {'input_ids': input_ids, 'attention_mask': attn_mask}
+    warmup_data_kwargs = {"input_ids": input_ids, "attention_mask": attn_mask}

    # create model
-    logger.info(f'start model_builder')
+    logger.info(f"start model_builder")
    model = model_builder(model_type)(checkpoint=False)
-    logger.info(f'end model_builder')
+    logger.info(f"end model_builder")

    # set 1f1b pipeline engine
-    pp_engine = FillDrainPipelineEngine(partition_fn=partial(partition, model, warmup_data_kwargs, num_microbatches),
-                                        stage_num=stage_num,
-                                        num_microbatches=num_microbatches,
-                                        device=device,
-                                        chunk=1,
-                                        criterion=criterion,
-                                        metric=None,
-                                        checkpoint=False)
+    pp_engine = FillDrainPipelineEngine(
+        partition_fn=partial(partition, model, warmup_data_kwargs, num_microbatches),
+        stage_num=stage_num,
+        num_microbatches=num_microbatches,
+        device=device,
+        chunk=1,
+        criterion=criterion,
+        metric=None,
+        checkpoint=False,
+    )

    partition_numels = pp_engine.remote_numels()
    for rank, numel in partition_numels.items():
-        logger.info(f'{rank=} numel in the partition:{numel}')
+        logger.info(f"{rank=} numel in the partition:{numel}")

    # build optim
    pp_engine.initialize_optimizer(torch.optim.Adam, lr=1e-3)
@@ -145,7 +142,7 @@ def run_master(args):
    for n in range(NUM_STEPS):
        # we just use randomly generated data here
        input_ids, attn_mask = get_data(batch_size, SEQ_LEN, VOCAB_SIZE)
-        batch = {'input_ids': input_ids, 'attention_mask': attn_mask}
+        batch = {"input_ids": input_ids, "attention_mask": attn_mask}

        start = time.time()
        outputs = pp_engine.forward_backward(batch=batch, labels=input_ids, forward_only=False)
@@ -175,6 +172,6 @@ def run_master(args):
    logger.info(f"Avg TFLOPS per GPU is {sum(gpu_tflops) / world_size:.3f}")


-if __name__ == '__main__':
+if __name__ == "__main__":
    args = parse_args()
    rpc_run(args, run_master)