La synthèse vocale grâce à noScribe

Ceci est un tutoriel pour noScribe. NoScribe est un outil open source gratuit développé par Kai Dröge, qui permet de transcrire ou de sous-titrer du matériel audio et vidéo. L'outil combine plusieurs technologies open source dans une interface utilisateur graphique, afin de créer des transcriptions de qualité. Il utilise notamment Whisper (développé par OpenAI).

Les possibilités offertes par noScribe :

  • Il est possible d'identifier différents locuteurs avec S00, S01, S02, etc.
  • Les codes temporels sont ajoutés à la transcription.
  • Les mots vides, les rires et les "euh" sont ignorés, et les pauses sont marquées par "(..)".

Certains éléments d'un enregistrement peuvent donc être perdus. Cependant, ces éléments peuvent être importants pour les chercheurs. Il est donc important de vérifier les transcriptions et de corriger les éventuelles erreurs. Aucun outil de transcription automatique n'est exempt d'erreurs. La vérification et la correction du texte peuvent se faire grâce à un traitement de texte intégré, avec la possibilité d'écouter l'audio en arrière-plan. De cette manière, vous pouvez facilement comparer la transcription avec l'enregistrement.

La transcription automatique se fait hors ligne. Aucune connexion internet n'est donc requise après l'installation. L'inconvénient potentiel est que la transcription peut être lente sur des ordinateurs anciens ou peu performants. Plus l'ordinateur est puissant, plus la transcription est rapide. Sur un ordinateur portable relativement puissant, il a été possible de transcrire un enregistrement audio de 10 minutes en néerlandais avec plusieurs locuteurs en 6 minutes.

Autres inconvénients potentiels :

  • NoScribe est, en ce moment, encore en développement ; des bugs peuvent donc persister. Sur Windows, par exemple, le bouton Démarrer peut ne pas être visible lors de l'ouverture du programme. Heureusement, il suffit d'agrandir la fenêtre vers le bas pour rendre le bouton visible/utilisable.
  • Whisper, le système de transcription automatique en arrière-plan, peut avoir tendance à halluciner pendant les silences, parce qu'il interprète ces derniers comme du texte. Nous n'avons cependant pas encore réussi à résoudre ce problème.
  • La fonction d'identification du locuteur n'est pas précise à 100 % et peut parfois noter plus de locuteurs qu'il n'y en a réellement.

Inhoud

Partager cet article:            

TRACKS est une collaboration entre ces partenaires :