fix bug, tested

2025-09-09 04:50:17 +00:00 · 2025-06-09 09:37:28 +08:00
parent dc3033e68a
commit 3bed6ae9ee
3 changed files with 7 additions and 5 deletions
--- a/applications/ColossalChat/coati/distributed/consumer.py
+++ b/applications/ColossalChat/coati/distributed/consumer.py
@@ -132,9 +132,7 @@ class BaseConsumer:
                            format_acc = raw_batch["format_acc"][:, :, 0]
                            ans_acc = raw_batch["ans_acc"][:, :, 0]
                            response_len = (
-                                raw_batch["response_idx"][:, :, 1]
-                                - raw_batch["response_idx"][:, :, 0]
-                                + 1
+                                raw_batch["response_idx"][:, :, 1] - raw_batch["response_idx"][:, :, 0] + 1
                            ).type(torch.float32)
                            effective_group_mask = None
                            if self.filter_range is not None and self.grpo_config.get("dynamic_batching", True):
@@ -160,7 +158,7 @@ class BaseConsumer:
                                )
                            if effective_group_mask is not None:
                                print(
-                                    f"[T{dist.get_rank()}] Filter recv data: {len(raw_batch_with_reward)} -> {torch.sum(effective_group_mask).cpu().item()} effective groups"
+                                    f"[T{dist.get_rank()}] Filter recv data: {len(raw_batch)} -> {torch.sum(effective_group_mask).cpu().item()} effective groups"
                                )
                        # mapping the effective group to the raw group for indexing
                        effective_group_to_raw_group_mapping = {}
--- a/applications/ColossalChat/coati/distributed/producer.py
+++ b/applications/ColossalChat/coati/distributed/producer.py
@@ -291,7 +291,7 @@ class BaseProducer:
                    reward_model_output = self.reward_model(
                        outputs["input_ids"].view((-1, outputs["input_ids"].size(-1))),
                        gt_answer=gt_answer,
-                        response_idx=outputs["response_idx"],
+                        response_idx=outputs["response_idx"].view((-1, 2)),
                    )
                outputs["reward"] = (
                    torch.tensor([value[0] for value in reward_model_output])