EleutherAI · anthonyduong9 · Jun 4, 2025
diff --git a/delphi/scorers/embedding/embedding.py b/delphi/scorers/embedding/embedding.py
@@ -51,38 +51,39 @@ async def __call__(  # type: ignore
         random.shuffle(samples)
         results = self._query(
             record.explanation,
-            samples,  # type: ignore
+            samples,
         )
 
         return ScorerResult(record=record, score=results)
 
     def call_sync(self, record: LatentRecord) -> list[EmbeddingOutput]:
         return asyncio.run(self.__call__(record))  # type: ignore
 
-    def _prepare(self, record: LatentRecord) -> list[list[Sample]]:
+    def _prepare(self, record: LatentRecord) -> list[Sample]:
         """
         Prepare and shuffle a list of samples for classification.
         """
+        samples = []
 
-        defaults = {
-            "tokenizer": self.tokenizer,
-        }
-        samples = examples_to_samples(
-            record.extra_examples,  # type: ignore
-            distance=-1,
-            **defaults,  # type: ignore
-        )
+        if record.extra_examples is not None:
+            samples.extend(
+                examples_to_samples(
+                    record.extra_examples,
+                    tokenizer=self.tokenizer,
+                    distance=-1,
+                )
+            )
 
-        for i, examples in enumerate(record.test):
+        for i, example in enumerate(record.test):
             samples.extend(
                 examples_to_samples(
-                    examples,  # type: ignore
+                    [example],
+                    tokenizer=self.tokenizer,
                     distance=i + 1,
-                    **defaults,  # type: ignore
                 )
             )
 
-        return samples  # type: ignore
+        return samples
 
     def _query(self, explanation: str, samples: list[Sample]) -> list[EmbeddingOutput]:
         explanation_string = (
@@ -110,15 +111,15 @@ def _query(self, explanation: str, samples: list[Sample]) -> list[EmbeddingOutpu
 
 def examples_to_samples(
     examples: list[Example],
-    tokenizer: PreTrainedTokenizer,
+    tokenizer: PreTrainedTokenizer | None,
     **sample_kwargs,
 ) -> list[Sample]:
     samples = []
     for example in examples:
         if tokenizer is not None:
             text = "".join(tokenizer.batch_decode(example.tokens))
         else:
-            text = "".join(example.tokens)
+            text = "".join(str(token) for token in example.tokens)
         activations = example.activations.tolist()
         samples.append(
             Sample(