Google DiffusionGemma : Une Nouvelle Approche pour la Génération de Texte

Google a récemment publié en open source un modèle expérimental qui pourrait transformer la façon dont les IA génèrent du texte en local. DiffusionGemma, un modèle à mélange d'experts de 26 milliards de paramètres sous licence permissive Apache 2.0, remplace la génération habituelle des jetons un par un par un processus de diffusion parallèle. Le résultat ? Sur les GPU haut de gamme, il peut atteindre jusqu'à quatre fois la vitesse d'un modèle autorégressif standard — idéal pour l'édition en temps réel ou le prototypage rapide.
Une Nouvelle Approche pour la Génération de Texte
La plupart des modèles de langage actuels construisent le texte un jeton à la fois, chacun dépendant du précédent. DiffusionGemma renverse cette logique. Il part d'une « toile » de jetons aléatoires et la nettoie par lots, conservant les parties à forte confiance tout en affinant le reste. Ce processus de diffusion bidirectionnel permet au modèle de se corriger lui-même en cours de route, ce que les systèmes autorégressifs ne peuvent pas faire une fois un jeton fixé. Sur une seule NVIDIA H100, le modèle dépasse le millier de jetons par seconde ; même sur une GeForce RTX 5090, il maintient plus de 700 jetons par seconde.
Pour la vitesse, pas pour la qualité maximale
DiffusionGemma repose sur le noyau de Gemma 4 mais n'active qu'environ 3,8 milliards de paramètres à l'exécution, maintenant ainsi sa consommation de mémoire vive sous les 18 Go. Il gère des entrées texte, image et vidéo entremêlées avec une fenêtre de contexte de 256K jetons et plus de 140 langues. Google assume le compromis : ce modèle privilégie la vitesse et la souplesse de mise en page au détriment de la qualité brute de la sortie. Pour les usages de production exigeant une grande fiabilité, l'entreprise recommande toujours les modèles Gemma 4 autorégressifs standard.
Source : MarkTechPost. Synthèse éditoriale assistée par IA — TechnoExpress.

