Prime RL 0.6.0 permet d’entraîner des modèles MoE à un trillion de paramètres

Prime Intellect a publié la version 0.6.0 de Prime RL, un cadre open source permettant d’entraîner des modèles Mixture-of-Experts (MoE) à un trillion de paramètres pour des charges de travail d’apprentissage par renforcement agentique. Cette mise à jour maintient des temps de traitement inférieurs à cinq minutes tout en traitant 256 simulations, avec seulement 28 nœuds H200 et des longueurs de séquence allant jusqu’à 131 000 tokens.

Franchir la barrière du trillion de paramètres pour l’IA agentique

Cette nouvelle version étend le pipeline asynchrone de Prime RL à des échelles MoE auparavant irréalisables. En séparant les processus d’entraînement et d’inférence, le cadre évite les temps d’inactivité des GPU pendant les simulations longues, ne synchronisant les données qu’aux points de mise à jour des politiques. L’exécution d’un modèle zai-org/GLM-5.1 ne nécessite qu’une seule commande sur un cluster Slurm, prouvant que l’entraînement à grande échelle en IA agentique peut débuter en quelques minutes plutôt qu’en plusieurs jours.

Inférence optimisée : allier rapidité et stabilité

L’inférence devient le goulot d’étranglement dans l’IA agentique à longue horizon, c’est pourquoi Prime RL introduit plusieurs optimisations ciblées. L’inférence en FP8 avec des noyaux personnalisés réduit la latence de préremplissage et de décodage sans compromettre la stabilité. Le parallélisme large des experts répartit ces derniers sur au moins 32 GPU tout en conservant des rangs de parallélisme de données importants, facilitant un service efficace des experts. La dissociation préremplissage/décodage maintient la réactivité des travailleurs de décodage même lorsque les sorties d’outils augmentent le nombre de tokens de préremplissage. La mise en cache hiérarchique des clés et valeurs (KV-cache) répartit la mémoire vive et le disque entre les nœuds pour gérer une forte concurrence. Une version modifiée du vLLM-router achemine les requêtes en fonction de la réutilisation du KV-cache, de la profondeur de la file d’attente et de la charge active, garantissant une utilisation équilibrée des ressources.

Source : MarkTechPost. Synthèse éditoriale assistée par IA — TechnoExpress.

Prime RL 0.6.0 permet d’entraîner des modèles MoE à un trillion de paramètres

Franchir la barrière du trillion de paramètres pour l’IA agentique

Inférence optimisée : allier rapidité et stabilité

La tech essentielle, chaque matin