[gemini] support amp o3 for gemini (#4872)

* [gemini] support no reuse fp16 chunk * [gemini] support no master weight for optim * [gemini] support no master weight for gemini ddp * [test] update gemini tests * [test] update gemini tests * [plugin] update gemini plugin * [test] fix gemini checkpointio test * [test] fix gemini checkpoint io
2025-09-07 12:01:39 +00:00 · 2023-10-12 10:39:08 +08:00
parent c1fab951e7
commit df63564184
15 changed files with 222 additions and 114 deletions
--- a/colossalai/zero/gemini/utils.py
+++ b/colossalai/zero/gemini/utils.py
@@ -11,7 +11,7 @@ from colossalai.utils import get_current_device
 from .chunk import Chunk


-def get_temp_total_chunk_on_cuda(chunk: Chunk):
+def get_temp_total_chunk_on_cuda(chunk: Chunk, dtype: torch.dtype):
    if chunk.is_gathered:
        return chunk.cuda_global_chunk

@@ -20,7 +20,9 @@ def get_temp_total_chunk_on_cuda(chunk: Chunk):
    else:
        shard_temp = chunk.cpu_shard.to(get_current_device())

-    total_temp = torch.zeros(chunk.chunk_size, dtype=chunk.dtype, device=get_current_device())
+    shard_temp = shard_temp.to(dtype)
+
+    total_temp = torch.zeros(chunk.chunk_size, dtype=dtype, device=get_current_device())
    gather_list = list(torch.chunk(input=total_temp, chunks=chunk.pg_size, dim=0))
    dist.all_gather(tensor_list=gather_list, tensor=shard_temp, group=chunk.torch_pg)