[FEATURE] Add Safety Eval Datasets to ColossalEval (#5095)

* add safetybench and cvalues(responsibility) eval dataset * Modify code according to review suggestions --------- Co-authored-by: Orion-Zheng <zhengzian@u.nus.edu>
2025-09-07 03:52:01 +00:00 · 2023-11-27 18:15:13 +08:00
parent d5661f0f25
commit 7b789f4dd2
5 changed files with 377 additions and 0 deletions
--- a/applications/ColossalEval/colossal_eval/evaluate/dataset_evaluator/metrics.py
+++ b/applications/ColossalEval/colossal_eval/evaluate/dataset_evaluator/metrics.py
@@ -186,6 +186,9 @@ metrics4subcategory = {
        "ppl_score": ["ALL"],
    },
    "mtbench": {"mtbench_single_judge": ["ALL"]},
+    "cvalues": {"first_token_accuracy": ["ALL"]},
+    "safetybench_zh": {"first_token_accuracy": ["ALL"]},
+    "safetybench_en": {"first_token_accuracy": ["ALL"]},
 }