Mistral déploie Leanstral 1.5 pour résoudre des preuves mathématiques avec 87 % de précisi
Mistral AI vient de publier Leanstral 1.5, un modèle open-weight d’agent de code spécialisé dans Lean 4, dédié à la preuve automatique de théorèmes. Cette nouvelle version, disponible sous licence Apache 2.0 et accessible via une API gratuite, met à jour le modèle précédent Leanstral-2603 et appartient à la famille Mistral Small 4. Elle repousse les limites avec une architecture mixture-of-experts qui optimise les ressources tout en offrant une grande capacité.
Une nouvelle approche pour l’ingénierie des preuves
Leanstral 1.5 est conçu comme un agent de code pour Lean 4, un assistant de preuve formelle capable de modéliser des objets mathématiques avancés, comme les perfectoid spaces ou les propriétés de fragments de Rust. Son architecture repose sur un modèle mixture-of-experts intégrant 128 experts, mais n’en active que quatre par jeton, pour un total de 119 milliards de paramètres, dont seulement 6,5 milliards actifs simultanément. Le modèle gère une fenêtre de contexte de 256 000 jetons et accepte des entrées textuelles et visuelles, bien qu’il ne produise que du texte.
Un entraînement en trois phases et deux environnements de renforcement
L’entraînement se déroule en trois étapes : pré-entraînement avancé, affinage supervisé et apprentissage par renforcement avec CISPO. Le comportement agentique du modèle est façonné par deux environnements d’apprentissage par renforcement. Dans l’environnement multi-tours, Leanstral reçoit un théorème, soumet une preuve, analyse les retours du compilateur et affine sa tentative jusqu’à réussite ou épuisement du budget. Dans l’environnement d’agent de code, il opère directement dans un système de fichiers brut, modifie des fichiers, exécute des commandes bash et utilise le serveur de langage Lean pour accéder en temps réel aux objectifs, erreurs et informations de typage – lui permettant de compléter des preuves partielles et de persister malgré la compression du contexte.
Des performances en forte progression
Mistral indique que Leanstral 1.5 atteint une saturation de miniF2F avec des scores de validation et de test à 100 %, résout 587 des 672 problèmes de PutnamBench et établit de nouveaux records sur FATE-H (87 %) et FATE-X (34 %). Sur FLTEval, le score pass@1 passe de 21,9 à 28,9, tandis que pass@8 progresse de 31,9 à 43,2, dépassant ainsi Opus 4.6 (39,6) pour un coût environ sept fois inférieur. Mistral estime que des concurrents comme Seed-Prover 1.5 peuvent coûter jusqu’à 300 $ par problème en paramètres élevés, contre environ 4 $ pour Leanstral 1.5. Le modèle bénéficie d’un scaling en temps de test : en augmentant le budget de jetons par tentative, les résultats s’améliorent régulièrement, avec 493 problèmes résolus à 1 million de jetons et 587 à 4 millions.
Source : MarkTechPost. Synthèse éditoriale assistée par IA — TechnoExpress.

