[shardformer] support ep for deepseek v3 (#6185)

* [feature] support ep for deepseek v3 * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci * fix test * [shardformer] fix deepseek v3 init * [lazy] fit lora for lazy init * [example] support npu for deepseek v3 --------- Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>
2025-09-07 20:10:17 +00:00 · 2025-02-11 16:10:25 +08:00
parent 17062c83b9
commit 2b415e5999
13 changed files with 612 additions and 22 deletions
--- a/tests/test_shardformer/test_model/_utils.py
+++ b/tests/test_shardformer/test_model/_utils.py
@@ -223,7 +223,6 @@ def run_forward_backward_with_hybrid_plugin(
    for k, v in data.items():
        unshard_test_data[k] = data[k].clone()

-    sharded_model.train()
    if booster.plugin.stage_manager is not None:
        for k, v in shard_test_data.items():
            if torch.is_tensor(v) or "Tensor" in v.__class__.__name__:
@@ -248,7 +247,6 @@ def run_forward_backward_with_hybrid_plugin(
        sharded_loss = criterion(sharded_output)
        sharded_optimizer.backward(sharded_loss)

-    org_model.train()
    if booster.plugin.stage_manager is not None:
        for k, v in unshard_test_data.items():
            if torch.is_tensor(v) or "Tensor" in v.__class__.__name__: