[Inference] Adapt to Fused rotary (#5348)

* revise rotary embedding * remove useless print * adapt * fix * add * fix * modeling * fix * fix * fix
2025-09-01 17:17:05 +00:00 · 2024-02-07 11:36:04 +08:00
parent 35382a7fbf
commit 9f4ab2eb92
5 changed files with 161 additions and 22 deletions
--- a/examples/inference/run_benchmark.sh
+++ b/examples/inference/run_benchmark.sh
@@ -1,4 +1,5 @@
 ROOT=$(realpath $(dirname $0))
+echo $ROOT
 PY_SCRIPT=${ROOT}/benchmark_llama.py
 GPU=$(nvidia-smi -L | head -1 | cut -d' ' -f4 | cut -d'-' -f1)
 mode=$1