Diffusion ASR révolutionne la reconnaissance vocale multilingue

Une startup soutenue par Y Combinator a discrètement publié ce qui pourrait devenir une référence pour la prochaine génération de reconnaissance vocale. Interfaze vient de rendre open source diffusion-gemma-asr-small, le premier modèle ASR multilingue basé sur la diffusion audio, capable de transcrire six langues grâce à un simple adapteur de 42 millions de paramètres greffé sur une base figée de 26 milliards de paramètres.
Pourquoi la diffusion change la donne
La plupart des systèmes de transcription vocale reposent sur des décodeurs autorégressifs, générant les jetons un par un. Les modèles de diffusion, eux, bouleversent cette approche : ils optimisent l’intégralité de la transcription en parallèle, en traitant la génération de texte comme un problème de débruitage. Le nouveau modèle utilise le décodeur DiffusionGemma à débruitage parallèle, qui remplace la méthode séquentielle classique par une diffusion aléatoire uniforme des jetons. Au lieu de masquer ou de prédire un à un, il remplit une toile de taille fixe avec des jetons de vocabulaire aléatoires et élimine progressivement le bruit pour obtenir un texte cohérent.
Un adapteur léger sur une base massive
L’entraînement de seulement 42 millions de paramètres sur une base figée de 26 milliards de paramètres (issue du modèle DiffusionGemma à experts) permet de maîtriser les coûts computationnels tout en conservant les vastes connaissances de la base. L’adapteur est distribué sous licence Apache 2.0, tandis que la base et l’encodeur whisper-small restent disponibles dans leurs dépôts respectifs sous leurs licences d’origine. L’équipe annonce des taux d’erreur par mot compétitifs sur LibriSpeech (6,6 % contre 8,3 % pour Whisfusion), bien que le modèle reste en retrait face à Whisper autorégressif.
Du son brut au texte débruité
Le pipeline évite d’alimenter directement les formes d’onde brutes dans le grand modèle de langage. À la place, un encodeur figé whisper-small convertit 30 secondes de parole en 1 500 trames acoustiques. Un petit module projecteur entraînable compresse ces trames en 188 « jetons audio », qui s’insèrent dans des emplacements réservés de l’invite de DiffusionGemma. Les adapteurs LoRA permettent à la base d’intégrer cette nouvelle modalité, et le décodeur débruite une toile de 192 jetons de transcription de manière bidirectionnelle en environ 16 étapes. Le résultat est une architecture compacte et modulaire, qui sépare l’extraction des caractéristiques, la projection et le décodage en phases entraînables distinctes.
Source : MarkTechPost. Synthèse éditoriale assistée par IA — TechnoExpress.

