Qwen lance RobotSuite : trois modèles d'IA pour la robotique nouvelle génération

L'équipe Qwen d'Alibaba a présenté Qwen-RobotSuite, une suite de trois modèles d'IA incarnée conçus pour relever des défis robotiques distincts : la manipulation, la modélisation du monde et la navigation. Chaque modèle repose sur une base visuo-linguistique Qwen, mais est optimisé pour des tâches spécifiques, offrant une approche modulaire au développement robotique.

Une suite, pas un modèle unique

Qwen-RobotSuite se compose de trois modèles de base indépendants : Qwen-RobotManip, Qwen-RobotWorld et Qwen-RobotNav. Contrairement à un système monolithique, cette suite traite la fragmentation des données robotiques, où des formats d'observation et d'action incompatibles limitent l'évolutivité. Qwen-RobotManip se concentre sur la manipulation robotique, Qwen-RobotWorld se spécialise dans la modélisation du monde vidéo conditionnée par le langage, et Qwen-RobotNav est conçu pour la navigation mobile. Deux de ces modèles — RobotManip et RobotNav — s'accompagnent de dépôts publics sur GitHub, favorisant un accès et une collaboration élargis.

Manipulation évolutive avec alignement unifié

Qwen-RobotManip se distingue comme un modèle Vision-Langage-Action (VLA) basé sur Qwen3.5-4B. Il prédit des actions robotiques continues à partir d'entrées caméra et d'instructions linguistiques, mais son innovation majeure réside dans la résolution de l'hétérogénéité des données. Différents robots enregistrent des actions dans des formats incompatibles, ce qui peut entraver l'évolutivité. Pour y remédier, l'équipe a développé un cadre d'alignement unifié intégrant une représentation canonique état-action : un vecteur de 80 dimensions avec masquage binaire pour s'adapter à diverses configurations robotiques. De plus, une paramétrisation de la pose delta du cadre caméra garantit que des mouvements visuellement similaires restent numériquement proches malgré différentes incarnations. Un mécanisme d'adaptation des politiques en contexte affine davantage le comportement au déploiement sans nécessiter de mises à jour des paramètres.

Données et outils ouverts

L'équipe Qwen a compilé environ 38 100 heures de données de manipulation en utilisant uniquement des ensembles de données open source et des vidéos humaines. Un pipeline de synthèse humain-robot convertit des démonstrations de mains égocentriques en trajectoires robotiques, les rendant compatibles avec 15 plateformes robotiques pour générer des données synthétiques. Cette approche évite la collecte de données propriétaires tout en assurant l'évolutivité. Parallèlement, Qwen-RobotWorld utilise une architecture MMDiT à 60 couches avec un encodeur Qwen2.5-VL gelé pour la prédiction vidéo conditionnée par le langage, tandis que Qwen-RobotNav propose des modèles de navigation en tailles 2B, 4B et 8B, tous basés sur Qwen3-VL pour la génération de trajectoires de points de cheminement.

Source : MarkTechPost. Synthèse éditoriale assistée par IA — TechnoExpress.

Qwen lance RobotSuite : trois modèles d'IA pour la robotique nouvelle génération

Une suite, pas un modèle unique

Manipulation évolutive avec alignement unifié

Données et outils ouverts

La tech essentielle, chaque matin