Intelligence artificielle5 juillet 2026· via MarkTechPost

De Qwen3 aux agents : l’évolution des modèles d’IA vers la spécialisation

De Qwen3 aux agents : l’évolution des modèles d’IA vers la spécialisation

Image : MarkTechPost

Dans un virage discret mais important, Junyang Lin, ancien responsable technique du projet Qwen d’Alibaba, a quitté son poste pour se consacrer à une nouvelle voie : les agents. Lors d’une récente conférence et d’un article de suivi, il présente cette évolution comme un passage de « former des modèles → former des agents », marquant un changement plus large dans la conception des systèmes d’IA, notamment en matière de raisonnement, d’action et d’adaptation.

L’ère Qwen3 : la pensée hybride sous la loupe

La présentation de Lin retrace l’histoire de la famille Qwen, des modèles compacts comme QwQ-32B aux géants comme Qwen2.5-Omni, avec Qwen3 comme figure de proue. Ce modèle a introduit la « pensée hybride » : un mode de réflexion par étapes et un mode sans réflexion pour des réponses rapides. Il permettait aussi aux utilisateurs de limiter l’effort de raisonnement via des budgets dynamiques. Qwen3 a étendu sa couverture multilingue à 119 langues et proposé des modèles allant de 0,6 milliard à 235 milliards de paramètres, incluant des formats quantifiés sous licence Apache 2.0. Deux démonstrations en direct – un assistant de développement web et un agent de recherche approfondie – ont illustré sa polyvalence.

Pourquoi l’hybridation n’a pas tenu – et où elle mène

Lin estime que fusionner les modes de réflexion et d’instruction a affaibli les deux approches. Les modèles d’instruction performants misent sur la concision et la rapidité, tandis que les modèles de réflexion exigent de la profondeur et une consommation accrue de jetons. Les contraindre dans un même cadre a dilué leurs forces. Après qu’un pipeline de post-formation en quatre étapes a échoué à équilibrer ces modes, Qwen a finalement scindé ses variantes en versions Instruct et Thinking distinctes. Lin qualifie ce problème de « problème de données » plutôt que de modèle, soulignant qu’Anthropic a opté pour une autre stratégie avec les modèles Claude 3.7 Sonnet et 4, en utilisant des budgets définis par l’utilisateur et un raisonnement entrelacé.

Des modèles aux agents : la prochaine frontière

La conférence s’achève sur une orientation claire : les travaux futurs se concentreront sur la formation d’agents. Lin met en avant des pistes comme le pré-entraînement avec des retours plus riches, l’apprentissage par renforcement issu des interactions avec l’environnement, des fenêtres contextuelles plus longues et l’intégration de modalités étendues. Les schémas d’architecture révèlent une évolution stratégique : les petits modèles denses lient les plongements et utilisent une fenêtre de 32 K, tandis que les plus grands abandonnent ce lien et étendent leur portée à 128 K, avec des modèles de type Mixture-of-Experts n’activant que 8 experts sur 128 par jeton. Il ne s’agit plus seulement de raisonner – mais d’agir.


Source : MarkTechPost. Synthèse éditoriale assistée par IA — TechnoExpress.

Lire la source originale sur MarkTechPost →

← Retour à l'accueil