Le modèle de diffusion TwoTower de NVIDIA accélère la génération de texte sans perte de qu
NVIDIA vient de publier Nemotron-Labs-TwoTower, un modèle de diffusion pour le langage qui promet une génération de texte plus rapide sans sacrifier la qualité. Construit sur une architecture autoregressive figée (Nemotron-3-Nano-30B-A3B), ce modèle à poids ouverts introduit une structure à deux tours qui sépare le traitement du contexte de l’affinage itératif.
Une architecture à deux tours pour un décodage parallèle
Les modèles autoregressifs classiques génèrent le texte token par token, ce qui crée une goulotte de débit. Les modèles de diffusion pour le langage visent à résoudre ce problème en générant et en affinant les tokens en parallèle, mais la plupart des approches s’appuient sur un seul réseau pour ces deux tâches. TwoTower innove en répartissant le travail entre deux tours spécialisées : une tour de contexte figée et une tour de débruitage entraînée. La tour de contexte conserve les capacités du modèle autoregressif d’origine, produisant des caches clé-valeur et des états finaux pour l’invite et les tokens validés. Pendant ce temps, la tour de débruitage affine les blocs de tokens bruités à l’aide d’une attention bidirectionnelle intra-bloc, guidée par les représentations de la tour de contexte via une attention croisée alignée en couches. Cette conception préserve la majeure partie de la qualité initiale du modèle — maintenant 98,7 % sur les bancs d’essai agrégés — tout en offrant une accélération de 2,42 × en temps réel de génération.
Un entraînement sur une fraction des données de la base
La tour de débruitage a été entraînée sur environ 2,1 billions de tokens, soit une infime partie des 25 billions de tokens utilisés pour le préentraînement de la base. Malgré ce fine-tuning limité, TwoTower obtient des résultats compétitifs sur des bancs d’essai standard comme MMLU, MMLU-Pro et ARC-Challenge. Le modèle prend en charge plusieurs modes de décodage, dont la diffusion, le mock-AR et le décodage AR standard, offrant ainsi une flexibilité adaptée à divers cas d’usage.
Avantages pratiques pour les applications à haut débit
Les évaluations menées sur deux GPU H100 en précision BF16 montrent l’efficacité de TwoTower à son point de fonctionnement par défaut (seuil de masquage par confiance γ=0,8, taille de bloc S=16). Cette approche est particulièrement prometteuse pour les applications exigeant un débit élevé sans perte significative de qualité de sortie. En séparant le traitement du contexte de l’affinage itératif, le nouveau modèle de NVIDIA pourrait aider les développeurs à concilier performance et précision dans les tâches de génération de texte à grande échelle.
Source : MarkTechPost. Synthèse éditoriale assistée par IA — TechnoExpress.

