fix

2025-08-14 14:13:22 +00:00 · 2024-09-25 19:02:21 +08:00 · 2024-09-25 19:02:21 +08:00 · 6705dad41b
commit 6705dad41b
parent 91ed32c256
3 changed files with 3 additions and 3 deletions
--- a/colossalai/shardformer/layer/attn.py
+++ b/colossalai/shardformer/layer/attn.py
@ -501,7 +501,6 @@ class RingAttention(torch.autograd.Function):
        v,
        sp_group,
        attention_mask_type,
        tp_group=None,
        cu_seqlens=None,
        max_seqlen=None,
        valid_indices=None,
@ -510,6 +509,7 @@ class RingAttention(torch.autograd.Function):
        deterministic=False,
        return_softmax=False,
        inner_ring_size=None,
        tp_group=None,
        **kwargs,
    ):
        """
--- a/colossalai/shardformer/modeling/gpt2.py
+++ b/colossalai/shardformer/modeling/gpt2.py
@ -866,11 +866,11 @@ def get_gpt2_flash_attention_forward(shard_config: Optional[ShardConfig] = None)
                key,
                value,
                sp_group,
                tp_group=tp_group,
                **attention_mask,
                dropout_p=dropout_p,
                scale=scale,
                inner_ring_size=shard_config.inner_ring_size,
                tp_group=tp_group,
            )
        else:
            attn_output = ColoAttention.attention(query, key, value, **attention_mask, dropout_p=dropout_p, scale=scale)
--- a/colossalai/shardformer/modeling/llama.py
+++ b/colossalai/shardformer/modeling/llama.py
@ -571,9 +571,9 @@ def get_llama_flash_attention_forward(shard_config: ShardConfig, sp_mode=None, s
                key_states,
                value_states,
                sp_group,
                tp_group=tp_group,
                **attention_mask,
                inner_ring_size=shard_config.inner_ring_size,
                tp_group=tp_group,
            )
        elif shard_config.enable_flash_attention: