volcengine · none0663 · Dec 4, 2025 · gemini-code-assist · Dec 4, 2025 · gemini-code-assist
@@ -532,6 +532,11 @@ def _validate(self):
         data_source_lst = []
         reward_extra_infos_dict: dict[str, list] = defaultdict(list)
 
+        # Check if we need to decode texts (only needed for logging/dumping)
+        val_data_dir = self.config.trainer.get("validation_data_dir", None)
+        generations_to_log = self.config.trainer.get("log_val_generations", 0)
+        need_decode = val_data_dir is not None or generations_to_log > 0
+
         # Lists to collect samples for the table
         sample_inputs = []
         sample_outputs = []
@@ -560,8 +565,9 @@ def _validate(self):
             # Store original inputs
             input_ids = test_batch.batch["input_ids"]
             # TODO: Can we keep special tokens except for padding tokens?
-            input_texts = [self.tokenizer.decode(ids, skip_special_tokens=True) for ids in input_ids]
-            sample_inputs.extend(input_texts)
+            if need_decode:
+                input_texts = [self.tokenizer.decode(ids, skip_special_tokens=True) for ids in input_ids]
+                sample_inputs.extend(input_texts)
-                input_texts = [self.tokenizer.decode(ids, skip_special_tokens=True) for ids in input_ids]
-                sample_inputs.extend(input_texts)
+                sample_inputs.extend(self.tokenizer.batch_decode(input_ids, skip_special_tokens=True))
-                input_texts = [self.tokenizer.decode(ids, skip_special_tokens=True) for ids in input_ids]
-                sample_inputs.extend(input_texts)
+                sample_inputs.extend(self.tokenizer.batch_decode(input_ids, skip_special_tokens=True))
             sample_uids.extend(test_batch.non_tensor_batch["uid"])
 
             ground_truths = [
@@ -599,8 +605,9 @@ def _validate(self):
 
             # Store generated outputs
             output_ids = test_output_gen_batch.batch["responses"]
-            output_texts = [self.tokenizer.decode(ids, skip_special_tokens=True) for ids in output_ids]
-            sample_outputs.extend(output_texts)
+            if need_decode:
+                output_texts = [self.tokenizer.decode(ids, skip_special_tokens=True) for ids in output_ids]
+                sample_outputs.extend(output_texts)
-                output_texts = [self.tokenizer.decode(ids, skip_special_tokens=True) for ids in output_ids]
-                sample_outputs.extend(output_texts)
+                sample_outputs.extend(self.tokenizer.batch_decode(output_ids, skip_special_tokens=True))
-                output_texts = [self.tokenizer.decode(ids, skip_special_tokens=True) for ids in output_ids]
-                sample_outputs.extend(output_texts)
+                sample_outputs.extend(self.tokenizer.batch_decode(output_ids, skip_special_tokens=True))
 
             test_batch = test_batch.union(test_output_gen_batch)
             test_batch.meta_info["validate"] = True
@@ -627,7 +634,6 @@ def _validate(self):
         self._maybe_log_val_generations(inputs=sample_inputs, outputs=sample_outputs, scores=sample_scores)
 
         # dump generations
-        val_data_dir = self.config.trainer.get("validation_data_dir", None)
         if val_data_dir:
             self._dump_generations(
                 inputs=sample_inputs,