DiffusionGemma de Google : une génération de texte plus rapide, au prix de la qualité

Google a récemment publié en open source le modèle de diffusion DiffusionGemma, un grand modèle à 26 milliards de paramètres qui change la donne par rapport à la génération traditionnelle de texte. Plutôt que de construire des phrases mot par mot comme les modèles de langage actuels, il aborde la création de texte à la manière d'un peintre qui affine le bruit pour créer une image cohérente. Sur un seul GPU Nvidia H100, il génère environ 1 000 jetons par seconde, soit environ quatre fois plus vite que les concurrents autorégressifs.
Pourquoi la diffusion est au cœur de l'approche
L'innovation réside dans la façon dont DiffusionGemma gère la génération de texte. Les modèles traditionnels prédisent le mot suivant de manière incrémentale, un processus qui ralentit à mesure que la complexité augmente. À l'inverse, DiffusionGemma part d'un état bruité et l'affine progressivement vers un texte lisible, comme un modèle de diffusion crée une image à partir du bruit.
Un compromis sur la qualité
Google ne présente pas DiffusionGemma comme un remplaçant des modèles établis. Sa qualité de sortie, bien qu'exploitable, reste inférieure à celle des systèmes autorégressifs les plus performants. L'entreprise le décrit clairement comme un outil expérimental destiné à explorer de nouvelles méthodes de génération de texte. Pour l'instant, il convient surtout comme moteur de prototypage rapide, là où la vitesse prime sur la perfection.
Source : The Decoder. Synthèse éditoriale assistée par IA — TechnoExpress.

