[feat] Dist Loader for Eval (#5950)

* support auto distributed data loader * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci * support auto distributed data loader * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci * fix tp error * remove unused parameters * remove unused * update inference * update docs * update inference --------- Co-authored-by: Michelle <qianranma8@gmail.com> Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>
2025-09-04 10:34:41 +00:00 · 2024-08-02 10:06:25 +08:00
parent 62cdac6b7b
commit 19d1510ea2
15 changed files with 93 additions and 77 deletions
--- a/applications/ColossalEval/colossal_eval/utils/conversation.py
+++ b/applications/ColossalEval/colossal_eval/utils/conversation.py
@@ -123,15 +123,13 @@ class Conversation:
        }


-def get_few_shot_prefix(
-    conv: Conversation, few_shot_data: List[str], tokenizer: Optional[AutoTokenizer], language: str, max_tokens: int
-) -> str:
+def get_few_shot_prefix(few_shot_data: List[str], tokenizer: Optional[AutoTokenizer], max_tokens: int) -> str:
    """
    Get few shot prefix.

    Args:
-        conv: Conversation template.
-        few_shot_examples: Few shot examples to generate few shot prompt prefix.
+        few_shot_data: Few shot examples to generate few shot prompt prefix.
+        tokenizer: tokenizer used to tokenize data.

    Returns:
        Few shot prompt prefix.
@@ -157,7 +155,6 @@ def get_batch_prompt(
    batch: List[Dict],
    few_shot_data: List[str],
    tokenizer: Optional[AutoTokenizer],
-    language: Optional[str],
    model_max_length: Optional[int],
 ) -> Tuple[List[Dict], List[Dict]]:
    """
@@ -167,6 +164,7 @@ def get_batch_prompt(
        conv: Conversation template.
        batch: Batch data to generate prompt from.
        few_shot_data: Few shot data to generate few shot prompt prefix.
+        tokenizer: tokenizer used to tokenize data.

    Returns:
        Tuple containg batch prompt and target.
@@ -192,7 +190,7 @@ def get_batch_prompt(
                else:
                    raise Exception("When using few-shot, target answer should be a string.")

-                few_shot_prefix = get_few_shot_prefix(conv, few_shot_data, tokenizer, language, max_tokens)
+                few_shot_prefix = get_few_shot_prefix(few_shot_data, tokenizer, max_tokens)

                conv.append_message(conv.roles[0], few_shot_prefix + query_text)
                conv.append_message(conv.roles[1], None)