https://github.com/meizhong986/WhisperJAV
WhisperJAV 指出 Whisper 在 JAV 场景中表现不佳的核心原因,包括大量非语言声音让模型误判为人声。长达 1–2 小时的音频与大量安静片段会导致模型失去上下文并开始“编故事”。激进降噪和微调模型往往适得其反,因此该项目选择少处理、分场景并尽量避免幻觉输出。