fix bug, tested

2025-08-24 10:41:07 +00:00 · 2025-06-09 09:37:28 +08:00 · 2025-06-09 09:37:28 +08:00 · de40c736d0
commit de40c736d0
parent 177144794b
3 changed files with 6 additions and 4 deletions
--- a/.gitignore
+++ b/.gitignore
@ -167,3 +167,7 @@ applications/ColossalChat/wandb
 applications/ColossalChat/model
 applications/ColossalChat/eval
 applications/ColossalChat/rollouts
+applications/ColossalChat/*.txt
+applications/ColossalChat/*.db
+applications/ColossalChat/stdin
+applications/ColossalChat/*.zip
--- a/applications/ColossalChat/coati/distributed/consumer.py
+++ b/applications/ColossalChat/coati/distributed/consumer.py
@ -132,9 +132,7 @@ class BaseConsumer:
                            format_acc = raw_batch["format_acc"][:, :, 0]
                            ans_acc = raw_batch["ans_acc"][:, :, 0]
                            response_len = (
-                                raw_batch["response_idx"][:, :, 1]
-                                - raw_batch["response_idx"][:, :, 0]
-                                + 1
+                                raw_batch["response_idx"][:, :, 1] - raw_batch["response_idx"][:, :, 0] + 1
                            ).type(torch.float32)
                            effective_group_mask = None
                            if self.filter_range is not None and self.grpo_config.get("dynamic_batching", True):
--- a/applications/ColossalChat/coati/distributed/producer.py
+++ b/applications/ColossalChat/coati/distributed/producer.py
@ -291,7 +291,7 @@ class BaseProducer:
                    reward_model_output = self.reward_model(
                        outputs["input_ids"].view((-1, outputs["input_ids"].size(-1))),
                        gt_answer=gt_answer,
-                        response_idx=outputs["response_idx"],
+                        response_idx=outputs["response_idx"].view((-1, 2)),
                    )
                outputs["reward"] = (
                    torch.tensor([value[0] for value in reward_model_output])