NVIDIA Canary-1B-v2 : créer un pipeline vocal multilingue en Python

Le modèle NVIDIA Canary-1B-v2 propose désormais une approche simplifiée pour la reconnaissance vocale automatique, la traduction et la génération de sous-titres, le tout dans un flux de travail Python unique. En combinant l’outil ASR de NeMo avec des bibliothèques audio standard, les développeurs peuvent rapidement assembler un pipeline multilingue qui traite l’audio brut, transcrit la parole, la traduit dans plusieurs langues cibles et exporte les résultats sous forme de fichiers SRT standard.

Passer de l’audio brut aux sous-titres SRT en un seul script

Le flux de travail commence par la configuration de l’environnement. Un script court installe les paquets système comme libsndfile1 et ffmpeg, puis importe NeMo, NumPy, SciPy et des bibliothèques spécifiques à l’audio comme librosa et soundfile. Un fichier de point de contrôle unique garantit un chargement propre des dépendances après un redémarrage du runtime, évitant les conflits de versions pendant l’inférence.

Accélération GPU et couverture linguistique

Une fois l’environnement prêt, le modèle est chargé sur l’appareil disponible, de préférence un GPU compatible CUDA pour une inférence rapide. Le système affiche les détails du matériel et confirme la disponibilité du GPU, revenant au CPU uniquement si nécessaire. Canary-1B-v2 prend en charge 24 langues, de le bulgare à l’ukrainien, permettant la reconnaissance vocale et la traduction multilingues sans modèles supplémentaires. Après le chargement du modèle à 1 milliard de paramètres, le pipeline est prêt à traiter des fichiers audio, générer des horodatages au niveau des mots et produire des sous-titres traduits.

Prêt pour la production et l’expérimentation

Le tutoriel explique le traitement par lots, la transcription de longs formats et les bases du benchmarking de performance. Les développeurs peuvent adapter le même code pour des fichiers audio réels, la génération de sous-titres ou des expériences de transcription à grande échelle. Avec un seul modèle gérant la reconnaissance et la traduction tout en exportant des fichiers SRT standard, Canary-1B-v2 simplifie la création de flux de travail médiatiques multilingues et accessibles.

Source : MarkTechPost. Synthèse éditoriale assistée par IA — TechnoExpress.

NVIDIA Canary-1B-v2 : créer un pipeline vocal multilingue en Python

Passer de l’audio brut aux sous-titres SRT en un seul script

Accélération GPU et couverture linguistique

Prêt pour la production et l’expérimentation

La tech essentielle, chaque matin