OpenAI lance LifeSciBench : un benchmark IA rigoureux pour la science réelle

OpenAI a dévoilé LifeSciBench, un benchmark révolutionnaire conçu pour évaluer les modèles d’IA face aux défis complexes et réels de la recherche en sciences de la vie. Contrairement aux benchmarks traditionnels qui reposent sur des questions factuelles simples, LifeSciBench simule le processus itératif et chaotique que les scientifiques suivent pour analyser des données, prendre des décisions et communiquer leurs résultats. Les 750 tâches de ce benchmark, élaborées par des experts, couvrent sept domaines biologiques — de la génomique à la science clinique — et exigent un raisonnement en plusieurs étapes, une pensée critique et une compréhension contextuelle. Même les modèles les plus performants, comme GPT-Rosalind, n’ont atteint qu’un taux de réussite de 36,1 %, révélant l’écart entre les capacités actuelles de l’IA et les exigences de la rigueur scientifique.

Qu’est-ce que LifeSciBench ?

LifeSciBench s’articule autour de sept flux de travail, incluant l’analyse de preuves, la conception expérimentale et la communication scientifique, associés à sept domaines comme la chimie médicinale ou la recherche translationnelle. Chaque tâche comprend une consigne, des éléments de support (figures, séquences, structures chimiques) et une grille d’évaluation détaillée. Plus de 79 % des tâches nécessitent plusieurs étapes de raisonnement, avec une moyenne de quatre par tâche. Le système de grille, composé de 19 020 critères, récompense des compétences spécifiques comme la précision factuelle, le raisonnement logique et la précision numérique. Contrairement aux systèmes de notation basés sur une seule référence, LifeSciBench évalue les réponses selon une grille dynamique, permettant de créditer partiellement les réponses nuancées.

Performances des modèles

OpenAI a testé cinq modèles, dont GPT-Rosalind, sa variante spécialisée dans le domaine, qui a obtenu le meilleur taux de réussite avec 36,1 %. Cependant, tous les modèles ont peiné à progresser, le taux maximal restant à 36,1 %. GPT-Rosalind s’est distingué dans les tâches de traduction, tandis que Gemini 3.1 Pro a surpassé les autres dans certaines catégories. Le seuil strict de 70 % de réussite fixé par le benchmark souligne la complexité du jugement scientifique, révélant que l’IA reste en retrait pour les tâches exigeant une adaptabilité contextuelle et un raisonnement interdisciplinaire.

LifeSciBench marque une étape cruciale pour aligner le développement de l’IA sur les exigences de la science réelle. En privilégiant la prise de décision plutôt que la mémorisation, il établit un nouveau standard pour évaluer les modèles dans des domaines complexes et basés sur des preuves.

Source : MarkTechPost. Synthèse éditoriale assistée par IA — TechnoExpress.

OpenAI lance LifeSciBench : un benchmark IA rigoureux pour la science réelle

Qu’est-ce que LifeSciBench ?

Performances des modèles

La tech essentielle, chaque matin