MisoTTS : un modèle de synthèse vocale open-weights ultra-rapide

La start-up Miso Labs vient de publier MisoTTS, un modèle de synthèse vocale (text-to-speech) de 8 milliards de paramètres disponible en « open weights » (poids ouverts). Conçu pour générer des voix particulièrement expressives et réalistes, ce modèle se distingue par sa capacité à s'adapter non seulement au texte écrit, mais aussi au ton d'un interlocuteur grâce à l'intégration d'un contexte audio.

Une architecture contre « l'effet de vallée dérangeante »

Pour surmonter les limites des modèles traditionnels qui manquent souvent de naturel, MisoTTS s'appuie sur une architecture de type Transformer RVQ (Residual Vector Quantization), inspirée de Sesame CSM. Il associe un réseau principal de style Llama 3.2 à un décodeur audio plus léger utilisant le tokenizer Mimi.

Contrairement aux systèmes classiques qui se basent uniquement sur le texte, MisoTTS peut analyser un contexte audio préalable. Cette double entrée lui permet d'ajuster l'intonation, le rythme et l'émotion de la réponse en fonction de la voix de l'utilisateur, évitant ainsi le ton robotique et impersonnel souvent associé aux voix synthétiques.

La quantification vectorielle résiduelle pour optimiser la latence

La grande force de MisoTTS réside dans l'utilisation de la quantification vectorielle résiduelle (RVQ). Habituellement, enrichir le vocabulaire audio d'un modèle pour capturer toutes les nuances de la voix humaine nécessite d'augmenter massivement le nombre de paramètres. MisoTTS résout ce problème en émettant un vecteur de plusieurs indices (32 dictionnaires de codes) plutôt qu'un jeton unique. Cela lui permet d'atteindre un vocabulaire virtuel immense sans alourdir la structure.

Côté performances, Miso Labs annonce une latence record de seulement 110 ms en inférence (exécutée par défaut en torch.bfloat16). À titre de comparaison, la start-up positionne son modèle loin devant ElevenLabs (700 ms) et Sesame (300 ms).

Source : MarkTechPost. Synthèse éditoriale assistée par IA — TechnoExpress.

MisoTTS : un modèle de synthèse vocale open-weights ultra-rapide

Une architecture contre « l'effet de vallée dérangeante »

La quantification vectorielle résiduelle pour optimiser la latence

La tech essentielle, chaque matin