Assigning min new tokens to a compiled whisper graph on a thread breaks it

653b7ca5 · Andres Marafioti · fc9f9602 · 653b7ca5 · 653b7ca5
Commit 653b7ca5 authored 7 months ago by Andres Marafioti
--- a/STT/whisper_stt_handler.py
+++ b/STT/whisper_stt_handler.py
@@ -67,7 +67,7 @@ class WhisperSTTHandler(BaseHandler):
            # generating more tokens than previously will trigger CUDA graphs capture
            # one should warmup with a number of generated tokens above max tokens targeted for subsequent generation
            warmup_gen_kwargs = {
-                "min_new_tokens": self.gen_kwargs["min_new_tokens"],
+                "min_new_tokens": self.gen_kwargs["max_new_tokens"],  # Yes, assign max_new_tokens to min_new_tokens
                "max_new_tokens": self.gen_kwargs["max_new_tokens"],
                **self.gen_kwargs,
            }

--- a/arguments_classes/whisper_stt_arguments.py
+++ b/arguments_classes/whisper_stt_arguments.py
@@ -33,12 +33,6 @@ class WhisperSTTHandlerArguments:
            "help": "The maximum number of new tokens to generate. Default is 128."
        },
    )
-    stt_gen_min_new_tokens: int = field(
-        default=0,
-        metadata={
-            "help": "The minimum number of new tokens to generate. Default is 0."
-        },
-    )
    stt_gen_num_beams: int = field(
        default=1,
        metadata={