[hotfix] fix zero's incompatibility with checkpoint in torch-1.12 (#1786)

* [hotfix] fix zero's incompatibility with checkpoint in torch-1.12 * [zero] add cpu shard init * [zero] add tiny example test * [colo_tensor] fix bugs for torch-1.11
2025-09-09 21:09:18 +00:00 · 2022-11-02 16:11:34 +08:00
parent 32c1b843a9
commit c6a1a62636
9 changed files with 1041 additions and 951 deletions
--- a/tests/test_gemini/update/test_chunkv2.py
+++ b/tests/test_gemini/update/test_chunkv2.py
@@ -1,121 +1,124 @@
-import torch
-import colossalai
-import pytest
-import torch.multiprocessing as mp
-import torch.distributed as dist
-from functools import partial
-from colossalai.testing import rerun_if_address_is_in_use, parameterize
-from colossalai.utils import free_port, get_current_device
-from colossalai.tensor import ProcessGroup as ColoProcessGroup
-from colossalai.tensor import ColoParameter
-from colossalai.gemini import TensorState
-from colossalai.gemini.chunk import Chunk
-
-
-def dist_sum(x):
-    temp = torch.tensor([x], device=get_current_device())
-    dist.all_reduce(temp)
-    return temp.item()
-
-
-def add_param(param_list, param_cp_list, *args, **kwargs):
-    param = ColoParameter(torch.randn(*args, **kwargs))
-    param_list.append(param)
-    param_cp_list.append(param.clone())
-
-
-def check_euqal(param, param_cp):
-    if param.device != param_cp.device:
-        temp = param.data.to(param_cp.device)
-    else:
-        temp = param.data
-    return torch.equal(temp, param_cp.data)
-
-
-@parameterize('init_device', [None, torch.device('cpu')])
-@parameterize('keep_gathered', [True, False])
-@parameterize('pin_memory', [True, False])
-def exam_chunk_basic(init_device, keep_gathered, pin_memory):
-    world_size = torch.distributed.get_world_size()
-    pg = ColoProcessGroup()
-    my_chunk = Chunk(chunk_size=1024,
-                     process_group=pg,
-                     dtype=torch.float32,
-                     init_device=init_device,
-                     keep_gathered=keep_gathered,
-                     pin_memory=pin_memory)
-
-    param_list = []
-    param_cp_list = []
-
-    add_param(param_list, param_cp_list, 8, 8, 8, device='cuda')
-    add_param(param_list, param_cp_list, 4, 4)
-    add_param(param_list, param_cp_list, 4, 8, 2, device='cuda')
-    add_param(param_list, param_cp_list, 1, 1, 5)
-
-    for param in param_list:
-        my_chunk.append_tensor(param)
-    assert my_chunk.utilized_size == 597
-    for param, param_cp in zip(param_list, param_cp_list):
-        check_euqal(param, param_cp)
-    my_chunk.close_chunk()
-
-    if keep_gathered is False:
-        assert my_chunk.cpu_shard.size(0) == 1024 // world_size
-        assert my_chunk.device_type == 'cpu'
-        assert my_chunk.can_move
-        my_chunk.shard_move(get_current_device())
-    else:
-        assert my_chunk.chunk_total.size(0) == 1024
-        assert my_chunk.device_type == 'cuda'
-        assert not my_chunk.can_move
-
-    assert dist_sum(my_chunk.valid_end) == my_chunk.utilized_size
-    flag = my_chunk.has_inf_or_nan
-    assert not flag, "has_inf_or_nan is {}".format(flag)
-
-    my_chunk.access_chunk()
-    assert my_chunk.device_type == 'cuda'
-    for param, param_cp in zip(param_list, param_cp_list):
-        check_euqal(param, param_cp)
-
-    assert my_chunk.tensors_state_monitor[TensorState.HOLD] == 4
-    my_chunk.tensor_trans_state(param_list[0], TensorState.COMPUTE)
-    assert my_chunk.tensors_state_monitor[TensorState.HOLD] == 3
-    assert my_chunk.tensors_state_monitor[TensorState.COMPUTE] == 1
-    assert not my_chunk.can_release
-
-    for param in param_list:
-        my_chunk.tensor_trans_state(param, TensorState.COMPUTE)
-        my_chunk.tensor_trans_state(param, TensorState.READY_FOR_REDUCE)
-
-    assert my_chunk.tensors_state_monitor[TensorState.READY_FOR_REDUCE] == 4
-    assert my_chunk.can_reduce
-    my_chunk.reduce()
-    assert my_chunk.tensors_state_monitor[TensorState.HOLD] == 4
-
-    if keep_gathered is False:
-        assert my_chunk.cuda_shard.size(0) == 1024 // world_size
-        assert my_chunk.device_type == 'cuda'
-        assert my_chunk.can_move
-    else:
-        assert my_chunk.chunk_total.size(0) == 1024
-        assert my_chunk.device_type == 'cuda'
-        assert not my_chunk.can_move
-
-
-def run_dist(rank, world_size, port):
-    colossalai.launch(config={}, rank=rank, world_size=world_size, host='localhost', port=port, backend='nccl')
-    exam_chunk_basic()
-
-
-@pytest.mark.dist
-@pytest.mark.parametrize('world_size', [1, 2, 4])
-@rerun_if_address_is_in_use()
-def test_chunk_function(world_size):
-    run_func = partial(run_dist, world_size=world_size, port=free_port())
-    mp.spawn(run_func, nprocs=world_size)
-
-
-if __name__ == '__main__':
-    test_chunk_function(4)
+from functools import partial
+
+import pytest
+import torch
+import torch.distributed as dist
+import torch.multiprocessing as mp
+
+import colossalai
+from colossalai.gemini import TensorState
+from colossalai.gemini.chunk import Chunk
+from colossalai.tensor import ColoParameter
+from colossalai.tensor import ProcessGroup as ColoProcessGroup
+from colossalai.testing import parameterize, rerun_if_address_is_in_use
+from colossalai.utils import free_port, get_current_device
+
+
+def dist_sum(x):
+    temp = torch.tensor([x], device=get_current_device())
+    dist.all_reduce(temp)
+    return temp.item()
+
+
+def add_param(param_list, param_cp_list, *args, **kwargs):
+    param = ColoParameter(torch.randn(*args, **kwargs))
+    param_list.append(param)
+    param_cp_list.append(param.clone())
+
+
+def check_euqal(param, param_cp):
+    if param.device != param_cp.device:
+        temp = param.data.to(param_cp.device)
+    else:
+        temp = param.data
+    return torch.equal(temp, param_cp.data)
+
+
+@parameterize('init_device', [None, torch.device('cpu')])
+@parameterize('keep_gathered', [True, False])
+@parameterize('pin_memory', [True, False])
+def exam_chunk_basic(init_device, keep_gathered, pin_memory):
+    world_size = torch.distributed.get_world_size()
+    pg = ColoProcessGroup()
+    my_chunk = Chunk(chunk_size=1024,
+                     process_group=pg,
+                     dtype=torch.float32,
+                     init_device=init_device,
+                     cpu_shard_init=True,
+                     keep_gathered=keep_gathered,
+                     pin_memory=pin_memory)
+
+    param_list = []
+    param_cp_list = []
+
+    add_param(param_list, param_cp_list, 8, 8, 8, device='cuda')
+    add_param(param_list, param_cp_list, 4, 4)
+    add_param(param_list, param_cp_list, 4, 8, 2, device='cuda')
+    add_param(param_list, param_cp_list, 1, 1, 5)
+
+    for param in param_list:
+        my_chunk.append_tensor(param)
+    assert my_chunk.utilized_size == 597
+    for param, param_cp in zip(param_list, param_cp_list):
+        check_euqal(param, param_cp)
+    my_chunk.close_chunk()
+
+    if keep_gathered is False:
+        assert my_chunk.cpu_shard.size(0) == 1024 // world_size
+        assert my_chunk.device_type == 'cpu'
+        assert my_chunk.can_move
+        my_chunk.shard_move(get_current_device())
+    else:
+        assert my_chunk.chunk_total.size(0) == 1024
+        assert my_chunk.device_type == 'cuda'
+        assert not my_chunk.can_move
+
+    assert dist_sum(my_chunk.valid_end) == my_chunk.utilized_size
+    flag = my_chunk.has_inf_or_nan
+    assert not flag, "has_inf_or_nan is {}".format(flag)
+
+    my_chunk.access_chunk()
+    assert my_chunk.device_type == 'cuda'
+    for param, param_cp in zip(param_list, param_cp_list):
+        check_euqal(param, param_cp)
+
+    assert my_chunk.tensors_state_monitor[TensorState.HOLD] == 4
+    my_chunk.tensor_trans_state(param_list[0], TensorState.COMPUTE)
+    assert my_chunk.tensors_state_monitor[TensorState.HOLD] == 3
+    assert my_chunk.tensors_state_monitor[TensorState.COMPUTE] == 1
+    assert not my_chunk.can_release
+
+    for param in param_list:
+        my_chunk.tensor_trans_state(param, TensorState.COMPUTE)
+        my_chunk.tensor_trans_state(param, TensorState.READY_FOR_REDUCE)
+
+    assert my_chunk.tensors_state_monitor[TensorState.READY_FOR_REDUCE] == 4
+    assert my_chunk.can_reduce
+    my_chunk.reduce()
+    assert my_chunk.tensors_state_monitor[TensorState.HOLD] == 4
+
+    if keep_gathered is False:
+        assert my_chunk.cuda_shard.size(0) == 1024 // world_size
+        assert my_chunk.device_type == 'cuda'
+        assert my_chunk.can_move
+    else:
+        assert my_chunk.chunk_total.size(0) == 1024
+        assert my_chunk.device_type == 'cuda'
+        assert not my_chunk.can_move
+
+
+def run_dist(rank, world_size, port):
+    colossalai.launch(config={}, rank=rank, world_size=world_size, host='localhost', port=port, backend='nccl')
+    exam_chunk_basic()
+
+
+@pytest.mark.dist
+@pytest.mark.parametrize('world_size', [1, 2, 4])
+@rerun_if_address_is_in_use()
+def test_chunk_function(world_size):
+    run_func = partial(run_dist, world_size=world_size, port=free_port())
+    mp.spawn(run_func, nprocs=world_size)
+
+
+if __name__ == '__main__':
+    test_chunk_function(4)
--- a/tests/test_gemini/update/test_fwd_bwd.py
+++ b/tests/test_gemini/update/test_fwd_bwd.py
@@ -40,7 +40,8 @@ def run_fwd_bwd(model, criterion, optimizer, input_ids, attn_mask):


@parameterize('placement_policy', ['cuda', 'cpu', 'auto', 'const'])
-def exam_gpt_fwd_bwd(placement_policy):
+@parameterize('keep_gather', [False, True])
+def exam_gpt_fwd_bwd(placement_policy, keep_gather):
    set_seed(42)
    get_components_func = non_distributed_component_funcs.get_callable('gpt2')
    model_builder, train_dataloader, test_dataloader, optimizer_class, criterion = get_components_func()
@@ -55,7 +56,7 @@ def exam_gpt_fwd_bwd(placement_policy):
    world_size = torch.distributed.get_world_size()
    config_dict, _ = search_chunk_configuration(model, search_range_mb=1, search_interval_byte=100)
    config_dict[world_size]['chunk_size'] = 5000
-    config_dict[world_size]['keep_gathered'] = False
+    config_dict[world_size]['keep_gathered'] = keep_gather
    chunk_manager = ChunkManager(config_dict)
    gemini_manager = GeminiManager(placement_policy, chunk_manager)
    model = ZeroDDP(model, gemini_manager, pin_memory=True)
@@ -101,4 +102,4 @@ def test_gpt(world_size):


 if __name__ == '__main__':
-    test_gpt(1)
+    test_gpt(4)
--- a/tests/test_gemini/update/test_optim.py
+++ b/tests/test_gemini/update/test_optim.py
@@ -9,7 +9,7 @@ from torch.nn.parallel import DistributedDataParallel as DDP

 import colossalai
 from colossalai.amp import convert_to_apex_amp
-from colossalai.gemini.chunk import ChunkManager, search_chunk_configuration
+from colossalai.gemini.chunk import ChunkManager, init_chunk_manager, search_chunk_configuration
 from colossalai.gemini.gemini_mgr import GeminiManager
 from colossalai.nn.optimizer import HybridAdam
 from colossalai.nn.parallel import ZeroDDP
@@ -98,10 +98,55 @@ def exam_gpt_fwd_bwd(placement_policy):
        check_param(model, torch_model)


+@parameterize('placement_policy', ['cuda', 'cpu'])
+def exam_tiny_example(placement_policy):
+    set_seed(42)
+    get_components_func = non_distributed_component_funcs.get_callable('gpt2')
+    model_builder, train_dataloader, test_dataloader, optimizer_class, criterion = get_components_func()
+
+    with ColoInitContext(device=get_current_device()):
+        model = model_builder()
+
+    torch_model = model_builder().cuda()
+    for torch_p, p in zip(torch_model.parameters(), model.parameters()):
+        torch_p.data.copy_(p.data)
+
+    chunk_manager = init_chunk_manager(model=model, init_device=get_current_device(), search_range_mb=1)
+    gemini_manager = GeminiManager(placement_policy, chunk_manager)
+    model = ZeroDDP(model, gemini_manager, pin_memory=True)
+
+    optimizer = HybridAdam(model.parameters(), lr=1e-3)
+    zero_optim = ZeroOptimizer(optimizer, model, initial_scale=2)
+
+    amp_config = dict(opt_level='O2', keep_batchnorm_fp32=False, loss_scale=1)
+    torch_optim = torch.optim.Adam(torch_model.parameters(), lr=1e-3)
+    torch_model, torch_optim = convert_to_apex_amp(torch_model, torch_optim, amp_config)
+    torch_model = DDP(torch_model, device_ids=[dist.get_rank()])
+
+    model.eval()
+    torch_model.eval()
+
+    set_seed(dist.get_rank() * 3 + 128)
+    for i, (input_ids, attn_mask) in enumerate(train_dataloader):
+        if i > 2:
+            break
+
+        zero_logits = run_fwd_bwd(model, criterion, zero_optim, input_ids, attn_mask)
+        torch_logits = run_fwd_bwd(torch_model, criterion, torch_optim, input_ids, attn_mask)
+        assert torch.allclose(zero_logits, torch_logits, rtol=1e-3, atol=1e-2)
+        # debug_print([0], zero_logits, torch_logits)
+
+        zero_optim.step()
+        torch_optim.step()
+
+        check_param(model, torch_model)
+
+
 def run_dist(rank, world_size, port):
    config = {}
    colossalai.launch(config=config, rank=rank, world_size=world_size, host='localhost', port=port, backend='nccl')
    exam_gpt_fwd_bwd()
+    exam_tiny_example()


@pytest.mark.dist
@@ -113,4 +158,4 @@ def test_gpt(world_size):


 if __name__ == '__main__':
-    test_gpt(1)
+    test_gpt(2)