Gradium dévoile des modèles de traduction vocale en temps réel plus performants que GPT et

Gradium a présenté deux modèles révolutionnaires de traduction vocale en temps réel : stt-translate et s2s-translate. Conçus pour dépasser les solutions actuelles comme GPT et Gemini en précision et en rapidité, ils prennent en charge cinq langues (anglais, français, allemand, espagnol et portugais) ainsi que 20 combinaisons linguistiques. Leur objectif ? Simplifier la communication multilingue en supprimant les étapes distinctes de transcription et de traduction.
Fonctionnalités clés et performances
Le modèle stt-translate convertit la parole en texte pour différentes combinaisons linguistiques, tandis que s2s-translate transforme directement un enregistrement audio en une sortie audio dans une autre langue. Les deux s’appuient sur le framework Hibiki-Zero de Gradium, qui combine l’apprentissage par renforcement pour optimiser la faible latence et la haute précision. Résultat : une latence moyenne de 3,0 secondes, plus rapide que celle de GPT (3,6 secondes) mais légèrement supérieure à celle de Gemini (2,9 secondes). Gradium affirme que ses modèles obtiennent des scores BLEU plus élevés que Gemini et surpassent GPT en précision lexicale, bien que les deux modèles affichent des résultats comparables selon MetricX.
Évaluation de la qualité par Gradium
La qualité de traduction est mesurée à l’aide de deux indicateurs : BLEU, qui évalue le chevauchement des n-grammes entre les traductions machine et humaine, et MetricX, un modèle neuronal prédisant le jugement humain. Le jeu de données conversationnel propriétaire de Gradium, axé sur des sujets réels comme les voyages ou la météo, souligne son accent sur les cas d’usage pratiques. La capacité des modèles à traiter des discours dynamiques et non scriptés les distingue de leurs concurrents.
Une nouvelle norme pour une communication fluide
Source : MarkTechPost. Synthèse éditoriale assistée par IA — TechnoExpress.

