fix dataloader

2025-09-24 19:17:30 +00:00 · 2024-06-24 05:10:44 +00:00
parent 4b59d874df
commit 0b2d6275c4
5 changed files with 85 additions and 63 deletions
--- a/applications/ColossalChat/coati/dataset/loader.py
+++ b/applications/ColossalChat/coati/dataset/loader.py
@@ -187,6 +187,14 @@ class DataCollatorForPreferenceDataset(object):
            f"but now `{self.tokenizer.pad_token_id}`"
        )

+        torch.set_printoptions(profile="full")
+
+        for ins in instances:
+            if sum(ins["chosen_loss_mask"][1:]) == 0:
+                print("Before truncated", ins["chosen_loss_mask"], len(ins["chosen_loss_mask"]))
+            if sum(ins["rejected_loss_mask"][1:]) == 0:
+                print("Before truncated", ins["rejected_loss_mask"], len(ins["rejected_loss_mask"]))
+
        (
            chosen_input_ids,
            chosen_loss_mask,  # [batch_size * seq_len]
@@ -199,6 +207,23 @@ class DataCollatorForPreferenceDataset(object):
            chuncate_sequence([ins["rejected_loss_mask"] for ins in instances], self.max_length, torch.bool),
        )

+        for i in range(len(chosen_loss_mask)):
+            if sum(chosen_loss_mask[i][1:]) == 0:
+                print(
+                    "After truncated",
+                    chosen_loss_mask[i],
+                    len(chosen_loss_mask[i]),
+                    len(instances[i]["chosen_input_ids"]),
+                )
+        for i in range(len(reject_loss_mask)):
+            if sum(reject_loss_mask[i][1:]) == 0:
+                print(
+                    "After truncated",
+                    reject_loss_mask[i],
+                    len(reject_loss_mask[i]),
+                    len(instances[i]["rejected_input_ids"]),
+                )
+
        padding_side = self.tokenizer.padding_side
        chosen_attention_mask = [torch.ones_like(seq).bool() for seq in chosen_input_ids]
        reject_attention_mask = [torch.ones_like(seq).bool() for seq in reject_input_ids]
--- a/applications/ColossalChat/coati/dataset/tokenization_utils.py
+++ b/applications/ColossalChat/coati/dataset/tokenization_utils.py
@@ -73,9 +73,12 @@ def supervised_tokenize_sft(
    lo, hi = 0, len(turns)
    while lo < hi:
        mid = (lo + hi) // 2
-        if max_length - 1 < len(
-            tokenizer([template.get_prompt(2 * turns[mid] - 1)], add_special_tokens=False)["input_ids"][0]
-        ):
+        prompt = template.get_prompt(2 * turns[mid] - 1)
+        chunks, require_loss = split_templated_prompt_into_chunks(
+            template.messages[: 2 * turns[mid] - 1], prompt, conversation_template.end_of_assistant
+        )
+        tokenized, starts, ends = tokenize_and_concatenate(tokenizer, chunks, require_loss)
+        if max_length - 1 < len(tokenized):
            hi = mid
        else:
            lo = mid + 1
@@ -114,6 +117,7 @@ def supervised_tokenize_sft(
            to_truncate_len += 1
        else:
            break
+    to_truncate_len = max(len(tokenized) - max_length, to_truncate_len)
    tokenized = tokenized[: len(tokenized) - to_truncate_len]
    labels = labels[: len(labels) - to_truncate_len]

@@ -356,48 +360,24 @@ def tokenize_rlhf(
        rejected_loss_mask,
        rejected_label_decode,
    ) = (None, None, None, None, None, None)
-    if (
-        len(tokenizer([chosen.get_prompt(len(chosen.messages))], add_special_tokens=False)["input_ids"][0])
-        <= max_length - 1
-        and len(tokenizer([rejected.get_prompt(len(rejected.messages))], add_special_tokens=False)["input_ids"][0])
-        <= max_length - 1
-    ):
-        chosen_data_packed = apply_rlhf_data_format(chosen, tokenizer, round_of_context)
-        (chosen_input_ids, chosen_loss_mask, chosen_label_decode) = (
-            chosen_data_packed["input_ids"],
-            chosen_data_packed["loss_mask"],
-            chosen_data_packed["label_decode"],
-        )

-        rejected_data_packed = apply_rlhf_data_format(
-            rejected, tokenizer, round_of_context, mask_out_target_assistant_line_end=True
-        )
-        (rejected_input_ids, rejected_loss_mask, rejected_label_decode) = (
-            rejected_data_packed["input_ids"],
-            rejected_data_packed["loss_mask"],
-            rejected_data_packed["label_decode"],
-        )
+    chosen_data_packed = apply_rlhf_data_format(chosen, tokenizer, round_of_context)
+    (chosen_input_ids, chosen_loss_mask, chosen_label_decode) = (
+        chosen_data_packed["input_ids"],
+        chosen_data_packed["loss_mask"],
+        chosen_data_packed["label_decode"],
+    )

-        # Check if loss mask is all 0s (no loss), this may happen when the tokenized length is too long
-        if chosen_loss_mask.count(0) == len(chosen_loss_mask) or rejected_loss_mask.count(0) == len(rejected_loss_mask):
-            return dict(
-                chosen_input_ids=None,
-                chosen_loss_mask=None,
-                chosen_label_decode=None,
-                rejected_input_ids=None,
-                rejected_loss_mask=None,
-                rejected_label_decode=None,
-            )
+    rejected_data_packed = apply_rlhf_data_format(
+        rejected, tokenizer, round_of_context, mask_out_target_assistant_line_end=True
+    )
+    (rejected_input_ids, rejected_loss_mask, rejected_label_decode) = (
+        rejected_data_packed["input_ids"],
+        rejected_data_packed["loss_mask"],
+        rejected_data_packed["label_decode"],
+    )

-        return {
-            "chosen_input_ids": chosen_input_ids,
-            "chosen_loss_mask": chosen_loss_mask,
-            "chosen_label_decode": chosen_label_decode,
-            "rejected_input_ids": rejected_input_ids,
-            "rejected_loss_mask": rejected_loss_mask,
-            "rejected_label_decode": rejected_label_decode,
-        }
-    else:
+    if len(chosen_input_ids) > max_length or len(rejected_input_ids) > max_length:
        return dict(
            chosen_input_ids=None,
            chosen_loss_mask=None,
@@ -406,3 +386,22 @@ def tokenize_rlhf(
            rejected_loss_mask=None,
            rejected_label_decode=None,
        )
+    # Check if loss mask is all 0s (no loss), this may happen when the tokenized length is too long
+    if chosen_loss_mask[1:].count(1) == 0 or rejected_loss_mask[1:].count(1) == 0:
+        return dict(
+            chosen_input_ids=None,
+            chosen_loss_mask=None,
+            chosen_label_decode=None,
+            rejected_input_ids=None,
+            rejected_loss_mask=None,
+            rejected_label_decode=None,
+        )
+
+    return {
+        "chosen_input_ids": chosen_input_ids,
+        "chosen_loss_mask": chosen_loss_mask,
+        "chosen_label_decode": chosen_label_decode,
+        "rejected_input_ids": rejected_input_ids,
+        "rejected_loss_mask": rejected_loss_mask,
+        "rejected_label_decode": rejected_label_decode,
+    }
--- a/applications/ColossalChat/coati/models/utils.py
+++ b/applications/ColossalChat/coati/models/utils.py
@@ -109,8 +109,6 @@ def calc_masked_log_probs(
    if not length_normalization:
        return log_probs * mask
    else:
-        if torch.any(mask.sum(dim=-1) == 0):
-            print("Mask should not be all zeros.")
        return log_probs * mask / (mask.sum(dim=-1, keepdim=True) + 0.01)