[example] update gpt example for larger model scale (#2211)

2025-09-01 17:17:05 +00:00 · 2022-12-28 13:54:08 +08:00
parent 24246f7aa5
commit d5e3e3ec01
5 changed files with 122 additions and 57 deletions
--- a/examples/language/gpt/README.md
+++ b/examples/language/gpt/README.md
@@ -62,7 +62,7 @@ ColossalAI version 0.1.13.

 How dose Batch Size affect the efficency.

-| model | #GPU | policy | TP |batch | Tflops |
+| model | #GPU | policy | TP | batch per DP | Tflops |
 | ---------- | --------- |--------- |--------- |--------- |--------- |
 | gpt2_10b |  2  | cpu | 1 | 32 | 122.046 |
 | gpt2_10b |  2  | cpu | 1 | 16 | 82.649 |
@@ -71,7 +71,7 @@ How dose Batch Size affect the efficency.

 How dose the Placement Policy affect the efficency.

-| model | #GPU | policy | TP |batch | Tflops |
+| model | #GPU | policy | TP | batch per DP | Tflops |
 | ---------- | --------- |--------- |--------- |--------- |--------- |
 | gpt2_10b |  4  | auto | 1 | 8 | 88.657 |
 | gpt2_10b |  4  | cuda | 1 | 8 | OOM |
@@ -80,9 +80,23 @@ How dose the Placement Policy affect the efficency.

 How dose the Tensor Parallel Degree affect the efficency.

-| model | #GPU | policy | TP |batch | Tflops |
+| model | #GPU | policy | TP | batch per DP | Tflops |
 | ---------- | --------- |--------- |--------- |--------- |--------- |
 | gpt2_10b |  4  | auto | 1 | 8 | 88.657 |
 | gpt2_10b |  4  | auto | 2 | 8 | 56.687 |
 | gpt2_10b |  4  | auto | 4 | 8 | 29.019 |
 | gpt2_10b |  4  | auto | 4 | 64 | 50.411 |
+| gpt2_20b |  1  | cpu | 1 | 8 | 43.102 |
+| gpt2_20b |  4  | cpu | 4 | 8 | 28.491 |
+
+
+Touch the bar of model scale and batch size.
+
+| model | #GPU | policy | TP | batch per DP | Tflops |
+| ---------- | --------- |--------- |--------- |--------- |--------- |
+
+| gpt2_20b |  4  | cpu | 1 | 64 | CUDA OOM |
+| gpt2_20b |  4  | auto | 1/2 | 64 | CUDA OOM |
+| gpt2_20b |  4  | cpu | 2 | 64 | 121.394 |
+| gpt2_20b |  4  | cpu | 2 | 8 | 43.102 |
+| gpt2_20b |  8  | cpu | 2 | 64 | 125.170 |