[shardformer]fix flash attention, when mask is casual, just don't unpad it (#5084)

* fix flash attn * fix fix
2025-09-08 12:30:42 +00:00 · 2023-11-22 16:00:07 +08:00
parent 75af66cd81
commit aae496631c
6 changed files with 16 additions and 8 deletions
--- a/colossalai/shardformer/modeling/llama.py
+++ b/colossalai/shardformer/modeling/llama.py
@@ -465,7 +465,8 @@ def get_llama_flash_attention_forward():
                    f"Attention mask should be of size {(bsz, 1, q_len, kv_seq_len)}, but is {attention_mask.size()}"
                )
            flash_attention_mask = ~(attention_mask[:, :, -1].squeeze(1).to(torch.bool)).contiguous()
-            attn_mask_type = AttnMaskType.paddedcausal
+            if not torch.all(flash_attention_mask):
+                attn_mask_type = AttnMaskType.paddedcausal

        attention = ColoAttention(embed_dim=self.hidden_size, num_heads=self.num_heads)
        attn_output = attention(