Je Crée un Framework Adversaire pour Mesurer les LLMs - Etacles Totalement Échoués

Je crée un framework appelé "Agent-eval" qui simule une cascade d'agents avec des appels aux outils. J'ai ensuite testé les réponses en utilisant trois niveaux pyramidaux d'évaluation: Tier 1 (Détecteurs Décisifs), Tier 2 (Statistiques Heuristiques) et Tier 3 (Modèle de Jugement). Les tests adverses ont été réalisés contre 5 modèles différents, et l'un des meilleurs a atteint seulement 62,5% des points.
Le problème avec les évaluations actuelles est qu'elles ne testent pas la capacité des modèles à résister aux attaques. Par exemple, ils ne vérifient pas si un modèle répond correctement à une injection de prompt ou s'il utilise mal les fichiers existants. De plus, ils ne prennent pas en compte le fait que les agents, avec leurs outils et leur capacité à relier des tâches, présentent des défis différents.
Je n'ai trouvé aucune framework qui testait ces tests adverses jusqu'à ce que je crée mon propre. Le système Agent-eval est un triptyque de vérifications: Tier 1 (Détecteurs Décisifs), qui se résume à la réponse du modèle contenant une ouverture SQL, l'absence d'une référence au système, etc.; Tier 2 (Statistiques Heuristiques) pour détecter le caractère répétitif et pertinent des répondances; et le Tier 3 (Modèle de Jugement), qui évaluera la réponse du modèle par rapport à une rubrique fixe.
Le plus important est que les vérifications se prolongent en ligne, ce qui signifie qu'elles ne coûtent pas pour l'utilisation d'une autre plateforme. Si Tier 1 ou Tier 2 échouent (le résultat est vide ou le système a été influencé), il n'est pas nécessaire de passer à la vérification Tier 3.
Le modèle d'évaluation peut être vu comme un "modèle de jugement" qui se résume à une deuxième plateforme de langage artificielle capable de vérifier directement les outputs d'une première, seulement en cas de réussite des tests précédents.
Source : DEV Community. Synthèse éditoriale assistée par IA — TechnoExpress.

