[hotfix] set return_outputs=False in examples and polish code (#5404)

* fix: simplify merge_batch * fix: use return_outputs=False to eliminate extra memory consumption * feat: add return_outputs warning * style: remove `return_outputs=False` as it is the default value
2025-09-02 17:46:42 +00:00 · 2024-03-25 12:31:09 +08:00
parent 5fcd7795cd
commit bb0a668fee
24 changed files with 28 additions and 36 deletions
--- a/examples/images/vit/vit_benchmark.py
+++ b/examples/images/vit/vit_benchmark.py
@@ -120,7 +120,7 @@ def main():
                # run pipeline forward backward
                batch = iter([batch])
                outputs = booster.execute_pipeline(
-                    batch, model, criterion, optimizer, return_loss=True, return_outputs=True
+                    batch, model, criterion, optimizer, return_loss=True
                )
            else:
                outputs = model(**batch)
--- a/examples/language/bert/finetune.py
+++ b/examples/language/bert/finetune.py
@@ -148,7 +148,7 @@ def train_epoch(
        for _ in pbar:
            if use_pipeline:
                outputs = booster.execute_pipeline(
-                    train_dataloader_iter, model, _criterion, optimizer, return_loss=True, return_outputs=True
+                    train_dataloader_iter, model, _criterion, optimizer, return_loss=True
                )
                # Backward and optimize
                if is_pp_last_device:
--- a/examples/language/gpt/hybridparallelism/finetune.py
+++ b/examples/language/gpt/hybridparallelism/finetune.py
@@ -145,7 +145,7 @@ def train_epoch(
        for _ in pbar:
            if use_pipeline:
                outputs = booster.execute_pipeline(
-                    train_dataloader_iter, model, _criterion, optimizer, return_loss=True, return_outputs=True
+                    train_dataloader_iter, model, _criterion, optimizer, return_loss=True
                )
                # Backward and optimize
                if is_pp_last_stage:
--- a/examples/language/llama2/finetune.py
+++ b/examples/language/llama2/finetune.py
@@ -271,7 +271,7 @@ def main():
            for step in pbar:
                if use_pipeline:
                    outputs = booster.execute_pipeline(
-                        dataloader_iter, model, _criterion, optimizer, return_loss=True, return_outputs=True
+                        dataloader_iter, model, _criterion, optimizer, return_loss=True
                    )
                    loss = outputs["loss"]
                else:
--- a/examples/language/llama2/pretrain.py
+++ b/examples/language/llama2/pretrain.py
@@ -185,7 +185,7 @@ def main():
            microbatch_size=1,
            enable_jit_fused=False,
            zero_stage=0,
-            precision="fp32",
+            precision=args.mixed_precision,
            initial_scale=1,
        )
    else:
@@ -286,7 +286,7 @@ def main():
            for step in pbar:
                if use_pipeline:
                    outputs = booster.execute_pipeline(
-                        dataloader_iter, model, _criterion, optimizer, return_loss=True, return_outputs=True
+                        dataloader_iter, model, _criterion, optimizer, return_loss=True
                    )
                    loss = outputs["loss"]
                else:
--- a/examples/language/openmoe/benchmark/benchmark_cai.py
+++ b/examples/language/openmoe/benchmark/benchmark_cai.py
@@ -270,7 +270,6 @@ def main():
                    lambda x, y: x.loss,
                    optimizer,
                    return_loss=True,
-                    return_outputs=True,
                )
                # Backward and optimize
                if is_pp_last_stage:
--- a/examples/language/openmoe/train.py
+++ b/examples/language/openmoe/train.py
@@ -340,7 +340,6 @@ def main():
                        lambda x, y: x.loss,
                        optimizer,
                        return_loss=True,
-                        return_outputs=True,
                    )
                    # Backward and optimize
                    if is_pp_last_stage:
--- a/examples/language/opt/opt_train_demo.py
+++ b/examples/language/opt/opt_train_demo.py
@@ -42,7 +42,7 @@ def train_epoch(epoch, model, optimizer, _criterion, lr_scheduler, dataloader, b
        for _ in pbar:
            if use_pipeline:
                outputs = booster.execute_pipeline(
-                    dataloader, model, _criterion, optimizer, return_loss=True, return_outputs=True
+                    dataloader, model, _criterion, optimizer, return_loss=True
                )
                # Backward and optimize
                if is_pp_last_stage: