Traduction audio Windows sans câbles virtuels ni pilotes

Un nouvel outil Windows open source, Voxis, traduit en temps réel tout ce que diffuse votre ordinateur — vidéos, jeux, appels — sans nécessiter de câbles audio virtuels ni de pilotes. L’application capture la sortie audio du système après mixage en temps réel, l’envoie à un modèle de traduction, puis restitue le résultat sans interrompre l’audio d’origine.
Fonctionnement sans câbles ni pilotes
La plupart des outils audio Windows reposent sur des câbles virtuels comme VB-CABLE ou VoiceMeeter, ou ajoutent des bots aux appels. Voxis évite ces solutions en exploitant l’API ApplicationLoopback introduite dans Windows 10 version 2004. Cette API permet une capture en boucle spécifique à un processus, excluant la sortie propre à l’application. Ce mode « exclusion de l’arbre du processus cible » garantit que l’audio capturé contient tout ce que l’utilisateur entend — sauf la voix traduite par Voxis — et empêche les larsens sans recourir à des correctifs supplémentaires.
Pour activer le client en boucle, l’application construit une structure AUDIOCLIENT_ACTIVATION_PARAMS incluant son propre identifiant de processus, puis demande la chaîne de périphérique spéciale « VAD\Process_Loopback ». L’activation est asynchrone et gérée via ActivateAudioInterfaceAsync avec un gestionnaire de complétion COM personnalisé. Un détail subtil a cependant bloqué le développement : le gestionnaire doit implémenter à la fois IActivateAudioInterfaceCompletionHandler et l’interface marqueur IAgileObject, faute de quoi l’appel échoue silencieusement.
Diffusion à 16 kHz en mono, sans latence
La capture cible un flux WAVEFORMATEX en 16 kHz mono, un choix visant à concilier qualité de traduction et sécurité en temps réel. WASAPI permet à l’application d’initialiser le client en boucle avec ce format exact, évitant ainsi le rééchantillonnage et les pics de latence. Pour éviter le débordement du tampon circulaire si les composants en aval ralentissent, Voxis exécute la boucle de capture dans un fil d’exécution à haute priorité et maintient des tailles de tampon prudentes.
Voxis est open source : son moteur de capture est écrit en Python à l’aide de comtypes. La documentation du projet met en garde contre les « bords tranchants » — comme l’exigence de IAgileObject — et reconnaît les limites hors de son contrôle. Pour les utilisateurs lassés des câbles virtuels et des installations de pilotes, cette solution représente une avancée vers un traitement audio Windows sans configuration.
Source : DEV Community. Synthèse éditoriale assistée par IA — TechnoExpress.

