Revert "[Inference] Adapt to Fused rotary (#5348)" (#5373)

This reverts commit 9f4ab2eb92.
2025-09-09 21:09:18 +00:00 · 2024-02-07 14:27:04 +08:00
parent 9f4ab2eb92
commit 8106ede07f
5 changed files with 22 additions and 161 deletions
--- a/colossalai/inference/modeling/models/nopadding_llama.py
+++ b/colossalai/inference/modeling/models/nopadding_llama.py
@@ -282,10 +282,11 @@ class NopadLlamaAttention(LlamaAttention):
                torch.bmm(hidden_states, self.qkv_weight).view(3, token_nums, self.num_heads, self.head_dim).unbind(0)
            )

+        rotary_embedding(query_states, key_states, cos_sin[0], cos_sin[1])
+
        block_size = k_cache.size(-2)

        if is_prompts:
-            rotary_embedding(query_states, key_states, cos_sin[0], cos_sin[1])
            attn_output = context_attention_unpadded(
                q=query_states,
                k=key_states,
@@ -300,7 +301,7 @@ class NopadLlamaAttention(LlamaAttention):
                sm_scale=sm_scale,
            )
        else:
-            rotary_embedding(query_states, key_states, cos_sin[0], cos_sin[1], k_cache, block_tables, sequence_lengths)
+            copy_kv_to_blocked_cache(key_states, k_cache, kv_lengths=sequence_lengths, block_tables=block_tables)
            copy_kv_to_blocked_cache(value_states, v_cache, kv_lengths=sequence_lengths, block_tables=block_tables)
            attn_output = flash_decoding_attention(
                q=query_states,