Ornith-1.0 permet aux modèles de codage de concevoir leurs propres échafaudages

DeepReinforce a lancé Ornith-1.0, une famille open source de modèles de raisonnement conçus pour permettre aux agents de codage de concevoir leurs propres structures d'apprentissage par renforcement, plutôt que de dépendre de conceptions humaines fixes. La gamme comprend quatre tailles — d'un modèle dense de 9 milliards de paramètres à un modèle phare « mixture-of-experts » de 397 milliards de paramètres — tous publiés sous licence MIT permissive sur Hugging Face. Construits à partir des versions pré-entraînées de Gemma 4 et Qwen 3.5, les modèles sont réentraînés pour optimiser conjointement à la fois l'encadrement de l'agent et la solution, une approche que l'équipe affirme offrir des performances de pointe parmi les modèles open source de taille comparable.

Apprentissage de ses propres échafaudages par le modèle

La plupart des agents de codage associent un modèle de langage à un cadre rigide et conçu manuellement qui guide les étapes de résolution de problèmes. Ornith-1.0 inverse ce paradigme : au lieu de suivre un script prédéfini, le modèle génère et affine son propre échafaudage pendant l'apprentissage par renforcement. Cela inclut la gestion de la mémoire, la logique de gestion des erreurs et l'orchestration des appels d'outils, le tout optimisé pour maximiser les performances sur les tâches de codage. Cette approche permet à l'agent d'adapter dynamiquement ses flux de travail internes plutôt que d'être limité par des conceptions humaines statiques.

Déploiement et support des outils

La publication comprend des versions FP8 et GGUF pour une inférence locale plus rapide, ainsi que des recettes de déploiement pour vLLM, SGLang et Transformers. Chaque modèle expose un point de terminaison compatible avec OpenAI, permettant aux frameworks d'agents standard de s'intégrer sans modification de code. Par exemple, la variante de 9 milliards de paramètres s'exécute sur une seule carte GPU de 80 Go en format bf16, ce qui la rend accessible pour des déploiements à plus petite échelle. Les sorties de traçage sont renvoyées dans un champ structuré reasoning_content, et les appels d'outils sont émis au format JSON bien formé, simplifiant l'intégration dans les boucles d'agents.

Sécurité et performances de référence

Pour limiter les manipulations de récompenses, DeepReinforce intègre trois mécanismes de défense : une frontière de confiance fixe qui maintient l'environnement et la surface d'outils immuables, un moniteur déterministe qui audite les actions de l'agent, et un juge LLM figé qui évalue les sorties. Selon les scores rapportés par l'équipe de recherche, le modèle Ornith-1.0 de 397 milliards de paramètres domine parmi les modèles open source de taille comparable, mais reste en retrait par rapport aux dernières versions propriétaires.

Source : MarkTechPost. Synthèse éditoriale assistée par IA — TechnoExpress.

Ornith-1.0 permet aux modèles de codage de concevoir leurs propres échafaudages

Apprentissage de ses propres échafaudages par le modèle

Déploiement et support des outils

Sécurité et performances de référence

La tech essentielle, chaque matin