L'effort dans l'IA : quand moins de travail rapporte plus

Les cinq réglages d'effort — faible, moyen, élevé, xélevé, maximal — ne se contentent pas d'ajuster le ton ; ils orientent la manière dont une IA consacre son temps et ses tokens. Les benchmarks sur des tâches réelles montrent que les points optimaux ne correspondent pas à ce qu'on imagine, et une surprise inverse même la courbe de coût habituelle.

Le contexte derrière la surprise

Pour trois charges de travail typiques — classification, génération de code et un audit contractuel en plusieurs étapes —, le même modèle a été exécuté à chaque niveau d'effort à trois reprises. La qualité a été évaluée par rapport à une réponse connue ou une revue manuelle, tandis que les tokens et la latence ont été mesurés. Les résultats révèlent que l'effort ne suit pas une progression linéaire du bon marché au coûteux une fois les boucles de rétroaction en jeu.

Classification : un effort élevé n'apporte rien

La qualité est restée stable à tous les niveaux pour la tâche d'étiquetage contractuel. La bonne étiquette était trouvée aussi bien en faible qu'en maximal, mais l'usage des tokens a été multiplié par huit environ. La latence a suivi l'évolution des tokens. La conclusion est simple : lorsque la tâche est bien définie et sans ambiguïté, réduire l'effort au niveau faible maintient les coûts bas sans compromettre la qualité.

Génération de code : l'effort élevé atteint un plateau

Les cas limites en code TypeScript étaient ignorés en faible, capturés en élevé, mais ne s'amélioraient pas davantage avec des niveaux supérieurs. Les tokens et la latence ont augmenté progressivement de faible à élevé, puis se sont stabilisés à xélevé et maximal. Le plafond pratique se situe à élevé : il capture les cas limites sans l'inflation de tokens de xélevé ou maximal.

Audits en plusieurs étapes : xélevé réduit le coût total

C'est ici que les données ont contredit les attentes. En moyen, le modèle explorait moins à chaque étape, multipliait les tours, s'engageait dans des impasses et recalculait, augmentant le nombre total de tokens. En xélevé, une meilleure planification initiale a conduit à un chemin plus court vers la solution, réduisant les tokens totaux et améliorant la qualité. Pour les boucles agentiques, xélevé n'est pas seulement mieux — c'est souvent moins cher.

Source : DEV Community. Synthèse éditoriale assistée par IA — TechnoExpress.