Le modèle Claude Sonnet 5 se rapproche des versions Opus premium

Anthropic vient de lancer Claude Sonnet 5, un nouveau modèle d'IA qui dépasse son prédécesseur sur tous les critères — allant jusqu'à surpasser l'Opus 4.8, plus grand, lors d'un test clé dédié au travail intellectuel. Cette mise à jour apporte des gains mesurables tout en adoptant une approche prudente face aux capacités sensibles.
Une avancée en raisonnement et efficacité
Claude Sonnet 5 s'appuie sur le Sonnet 4.6 avec des améliorations qui se traduisent par des scores plus élevés dans les tests d'évaluation standards. Plus remarquable encore, il devance son propre Opus 4.8 sur le benchmark GDPval-AA v2 dédié au travail intellectuel, atteignant 1 618 contre un score inférieur pour l'Opus. Ces résultats indiquent qu'Anthropic réduit progressivement l'écart de performance entre ses modèles intermédiaires et premium, sans exiger une augmentation proportionnelle des ressources de calcul.
Allier performance et responsabilité
Bien que ce nouveau modèle affiche une forte performance, Anthropic insiste sur le fait que ses scores liés à la cybersécurité restent bien en dessous des seuils actuellement restreints par le gouvernement américain. Cette approche semble délibérée, s'alignant sur les examens publics et réglementaires en cours concernant la sécurité de l'IA. En maintenant des sorties potentiellement sensibles sous contrôle, l'entreprise montre sa prise en compte des préoccupations générales, sans renoncer aux progrès mesurables en raisonnement général et en efficacité.
Source : The Decoder. Synthèse éditoriale assistée par IA — TechnoExpress.

