Développement3 juillet 2026· via DEV Community

Spanlens : Observabilité des LLM open source en une ligne

Spanlens : Observabilité des LLM open source en une ligne

Image : DEV Community

Spanlens révolutionne le suivi et l'optimisation de l'utilisation des grands modèles de langage avec une configuration minimale. Cette plateforme open source (licence MIT) enregistre chaque appel que votre application effectue vers OpenAI, Anthropic, Gemini, Mistral, OpenRouter, Azure OpenAI ou un modèle local Ollama. L'intégration ne nécessite qu'une seule ligne de code : remplacez l'URL de base de votre client par le proxy de Spanlens, ou exécutez le paramétrage via l'interface en ligne de commande pour que l'outil réécrive automatiquement votre code.

Analyses intégrées au-delà des logs bruts

Une fois connecté, Spanlens enregistre les détails du modèle, le nombre de tokens, la latence, les coûts ainsi que les prompts et réponses complets — y compris les réponses en streaming reconstruites en temps réel. Le tableau de bord transforme ces données en informations exploitables, comme des ventilations des coûts par requête, par modèle et par utilisateur, avec analyse des tokens en cache pour des économies précises. Le traçage des agents cartographie les workflows multi-étapes sous forme de diagrammes de Gantt et de graphes de dépendances, permettant d'identifier les goulots d'étranglement dans les chaînes complexes. La détection d'anomalies signale les écarts en termes de latence, de coûts ou de taux d'erreur grâce à une référence glissante sur 7 jours, tandis que les alertes pour seuils budgétaires, pics d'erreurs ou délais de latence au 95e percentile peuvent être dirigées vers un email, Slack ou Discord.

Sécurité et optimisation via le proxy

Spanlens ne se limite pas à la surveillance — il protège aussi. Un scanner basé sur des expressions régulières inspecte les requêtes et réponses pour détecter les fuites de données sensibles ou les injections de prompts, avec la possibilité de bloquer les charges utiles malveillantes directement au niveau du proxy. Un moteur d'économies intégré identifie les appels pouvant être exécutés sur des modèles moins coûteux (par exemple, une tâche de classification avec gpt-4o) et estime les économies mensuelles potentielles en cas de changement. Pour le raffinement des prompts, le versionnage avec des tests A/B compare la latence, les coûts et la précision à l'aide de tests statistiques, tandis qu'une évaluation par LLM-juré note les résultats en fonction d'ancres de rubrique. Les jeux de données permettent des évaluations hors ligne et des vérifications de régression, garantissant une amélioration continue sans surcharge manuelle.


Source : DEV Community. Synthèse éditoriale assistée par IA — TechnoExpress.

Lire la source originale sur DEV Community →

← Retour à l'accueil