[shardformer] update bert finetune example with HybridParallelPlugin (#4584)

mirror of https://github.com/hpcaitech/ColossalAI.git synced 2025-09-07 03:52:01 +00:00

* [shardformer] fix opt test hanging

* fix

* test

* test

* test

* fix test

* fix test

* remove print

* add fix

* [shardformer] add bert finetune example

* [shardformer] add bert finetune example

* [shardformer] add bert finetune example

* [shardformer] add bert finetune example

* [shardformer] add bert finetune example

* [shardformer] add bert finetune example

* [shardformer] fix epoch change

* [shardformer] broadcast add pp group

* [shardformer] fix opt test hanging

* fix

* test

* test

* [shardformer] zero1+pp and the corresponding tests (#4517)

* pause

* finish pp+zero1

* Update test_shard_vit.py

* [shardformer/fix overlap bug] fix overlap bug, add overlap as an option in shardco… (#4516)

* fix overlap bug and support bert, add overlap as an option in shardconfig

* support overlap for chatglm and bloom

* [shardformer] fix emerged bugs after updating transformers (#4526)

* test

* fix test

* fix test

* remove print

* add fix

* [shardformer] add bert finetune example

* [shardformer] add bert finetune example

* [shardformer] Add overlap support for gpt2 (#4535)

* add overlap support for gpt2

* remove unused code

* remove unused code

* [shardformer] support pp+tp+zero1 tests (#4531)

* [shardformer] fix opt test hanging

* fix

* test

* test

* test

* fix test

* fix test

* remove print

* add fix

* [shardformer] pp+tp+zero1

[shardformer] pp+tp+zero1

[shardformer] pp+tp+zero1

[shardformer] pp+tp+zero1

[shardformer] pp+tp+zero1

[shardformer] pp+tp+zero1

* [shardformer] pp+tp+zero1

* [shardformer] pp+tp+zero1

* [shardformer] pp+tp+zero1

* [shardformer] pp+tp+zero1

* [shardformer] fix submodule replacement bug when enabling pp (#4544)

* [shardformer] support sharded optimizer checkpointIO of HybridParallelPlugin (#4540)

* implement sharded optimizer saving

* add more param info

* finish implementation of sharded optimizer saving

* fix bugs in optimizer sharded saving

* add pp+zero test

* param group loading

* greedy loading of optimizer

* fix bug when loading

* implement optimizer sharded saving

* add optimizer test & arrange checkpointIO utils

* fix gemini sharding state_dict

* add verbose option

* add loading of master params

* fix typehint

* fix master/working mapping in fp16 amp

* [shardformer] add bert finetune example

* [shardformer] add bert finetune example

* [shardformer] add bert finetune example

* [shardformer] add bert finetune example

* [shardformer] fix epoch change

* [shardformer] broadcast add pp group

* rebase feature/shardformer

* update pipeline

* [shardformer] fix

* [shardformer] fix

* [shardformer] bert finetune fix

* [shardformer] add all_reduce operation to loss

add all_reduce operation to loss

* [shardformer] make compatible with pytree.

make compatible with pytree.

* [shardformer] disable tp

disable tp

* [shardformer] add 3d plugin to ci test

* [shardformer] update num_microbatches to None

* [shardformer] update microbatchsize

* [shardformer] update assert

* update scheduler

* update scheduler

---------

Co-authored-by: Jianghai <72591262+CjhHa1@users.noreply.github.com>
Co-authored-by: Bin Jia <45593998+FoolPlayer@users.noreply.github.com>
Co-authored-by: Baizhou Zhang <eddiezhang@pku.edu.cn>

This commit is contained in:

flybird11111

2023-09-04 21:46:29 +08:00

committed by

GitHub

parent 24c0768795

commit 0a94fcd351

4 changed files with 133 additions and 35 deletions

									
										3

colossalai/pipeline/schedule/one_f_one_b.py
									
												View File
												
				@@ -46,6 +46,7 @@ class OneForwardOneBackwardSchedule(PipelineSchedule):

				        self.batch: Optional[Any] = None

				        self.batch_size: Optional[int] = None

				        self.microbatch_offset: Optional[int] = None

				        self._use_microbatch_size = num_microbatches is None

				    def load_batch(self, data_iter: Iterable, device: Optional[torch.device] = None) -> None:

				        """Load a batch from data iterator.

				@@ -60,7 +61,7 @@ class OneForwardOneBackwardSchedule(PipelineSchedule):

				        self.batch = batch

				        self.batch_size = get_batch_size(batch)

				        self.microbatch_offset = 0

				        if self.num_microbatches is not None:

				        if not self._use_microbatch_size:

				            assert self.batch_size % self.num_microbatches == 0, \

				                "Batch size should divided by the number of microbatches"

				            self.microbatch_size = self.batch_size // self.num_microbatches

[shardformer] update bert finetune example with HybridParallelPlugin (#4584)

3 colossalai/pipeline/schedule/one_f_one_b.py Unescape Escape View File

3

colossalai/pipeline/schedule/one_f_one_b.py

View File