La synthèse vocale grâce à noScribe

Ceci est un tutoriel pour noScribe. NoScribe est un outil open source gratuit développé par Kai Dröge, qui permet de transcrire ou de sous-titrer du matériel audio et vidéo. L'outil combine plusieurs technologies open source dans une interface utilisateur graphique, afin de créer des transcriptions de qualité. Il utilise notamment Whisper (développé par OpenAI).

Les possibilités offertes par noScribe :

  • Il est possible d'identifier différents locuteurs avec S00, S01, S02, etc.
  • Les codes temporels sont ajoutés à la transcription.
  • Les mots vides, les rires et les "euh" sont ignorés, et les pauses sont marquées par "(..)".

Certains éléments d'un enregistrement peuvent donc être perdus. Cependant, ces éléments peuvent être importants pour les chercheurs. Il est donc important de vérifier les transcriptions et de corriger les éventuelles erreurs. Aucun outil de transcription automatique n'est exempt d'erreurs. La vérification et la correction du texte peuvent se faire grâce à un traitement de texte intégré, avec la possibilité d'écouter l'audio en arrière-plan. De cette manière, vous pouvez facilement comparer la transcription avec l'enregistrement.

La transcription automatique se fait hors ligne. Aucune connexion internet n'est donc requise après l'installation. L'inconvénient potentiel est que la transcription peut être lente sur des ordinateurs anciens ou peu performants. Plus l'ordinateur est puissant, plus la transcription est rapide. Sur un ordinateur portable relativement puissant, il a été possible de transcrire un enregistrement audio de 10 minutes en néerlandais avec plusieurs locuteurs en 6 minutes.

Autres inconvénients potentiels :

  • NoScribe est, en ce moment, encore en développement ; des bugs peuvent donc persister. Sur Windows, par exemple, le bouton Démarrer peut ne pas être visible lors de l'ouverture du programme. Heureusement, il suffit d'agrandir la fenêtre vers le bas pour rendre le bouton visible/utilisable.
  • Whisper, le système de transcription automatique en arrière-plan, peut avoir tendance à halluciner pendant les silences, parce qu'il interprète ces derniers comme du texte. Nous n'avons cependant pas encore réussi à résoudre ce problème.
  • La fonction d'identification du locuteur n'est pas précise à 100 % et peut parfois noter plus de locuteurs qu'il n'y en a réellement.

Installation

NoScribe fonctionne sur Windows, macOs et Linux.

Windows

Sur Windows, vous avez deux possibilités :

  1. Si votre ordinateur est équipé d'une carte graphique dédiée (GPU) de NVIDIA avec plus de 6 Go de mémoire graphique, noScribe peut utiliser une technologie spéciale qui accélère sensiblement la transcription. Cela nécessite une procédure d'installation différente.
  2. Sinon, la transcription se fait via le processeur interne ou CPU, ce qui la rend légèrement plus lente.

Pour vérifier si votre ordinateur est équipé d'une carte graphique NVIDIA distincte, ouvrez le gestionnaire des tâches en appuyant sur les touches ctrl+shift+esc et accédez au menu "Performance" (prestations).

Recherchez un GPU de la marque NVIDIA et vérifiez si la mémoire vidéo ou VRAM est de 6 Go ou plus. Vous l'avez trouvé ? Continuez avec les instructions d'installation ici.

Votre ordinateur ne dispose pas d'une carte graphique adaptée ? Alors suivez les instructions d'installation ci-dessous.

Pour les ordinateurs sans carte NVIDIA avec plus de 6 Go de VRAM

  • Allez sur la page de téléchargement et cliquez sur le lien après The general purpose version for normal PCs without a NVIDIA graphics card. Normalement, il s'agit d'un lien "drive.switch" vers un dossier en ligne.
  • Cliquez ensuite sur le lien "noScribe_setup_0_5_1.exe". Le téléchargement devrait se lancer.

Après le téléchargement (qui peut prendre un certain temps), vous pouvez installer noScribe comme n'importe quel autre logiciel.

  • Le démarrage de l'installation peut prendre un certain temps.
  • Lorsque vous recevez le message "Windows protected your PC", cliquez sur "Run anyway". Windows a en effet tendance à trouver les logiciels libres suspects. Dans ce cas, il s'agit d'un false positive et noScribe peut être utilisé en toute sécurité.

Pour les ordinateurs avec un GPU dédié et une VRAM d'au moins 6 Go

Suivez ce lien et cliquez sur lien après A special version using CUDA acceleration on NVIDIA graphics cards with at least 6 GB of VRAM.

  • Sur le site web, cliquez sur les deux liens "noScribe_Setup_0_5_cuda.exe" et "noScribe_setup_0_5_cuda.nsisbin" pour les télécharger.

Cela peut prendre un certain temps. Le fichier nsisbin est volumineux.

  • Pour utiliser correctement la carte graphique séparée lors de la transcription, une installation correcte de la boîte à outils NVIDIA CUDA doit également être présente. Cela garantit que noScribe peut exploiter la puissance du GPU pour accélérer le processus de transcription.
  • Pour installer la bonne version de CUDA, nous devons trouver la version du pilote GPU.
  • Recherchez Nvidia control panel, ouvrez le programme et appuyez sur enter pour le lancer.

  • Cliquez ensuite sur Help puis sur System Information.

  • Dans le menu "System information", sous Details, se trouve une ligne Driver version :

  • Comparez maintenant le numéro du pilote avec ce tableau pour savoir quel version de CUDA est compatible avec votre carte graphique.

Lorsque tous les fichiers noScribe et les fichiers du toolkit CUDA ont été téléchargés :

  1. Installez d'abord le toolkit Nvidia CUDA.
  2. Redémarrez votre ordinateur.
  3. Vérifiez que le fichier noScribe_setup_0_5_1.exe et le fichier nsisbin sont dans le même dossier.
  4. Double-cliquez sur le fichier noScribe_setup_0_5_1.exe. L'installation peut prendre un certain temps avant de démarrer. Patientez.

Lorsque l'installation de noScribe est terminée, ouvrez noScribe.

Résoudre les potentiels bugs

Cette version de noScribe comporte un bug spécifique que vous pourriez rencontrer. Fort heureusement, il est facile à résoudre. Ce problème a été signalé sur le github de noScribe, les développeurs en ont connaissance.

  • L'écran d'accueil de NoScribe n'est parfois pas mis à l'échelle correctement, ce qui donne cet aspect à l'écran :

Alors qu'il devrait ressembler à ceci :

  • Cliquez et déplacez la partie inférieure de la fenêtre de noScribe pour rendre le bouton de démarrage visible.

NoScribe est maintenant correctement installé.

Mac

Selon le type de processeur et la version de votre système d'exploitation (macOs), vous devez télécharger un fichier d'installation spécifique et suivre les procédures d'installation.

  • Identifiez le processeur de votre ordinateur. Cliquez sur l'icône Apple en haut à gauche et sélectionnez About This Mac.

  • Dans le menu suivant, à côté de "Chip" ou "Processor", il devrait y avoir un modèle. Il s'agit d'un Apple M1 ou M2 ou d'un processeur Intel.

  • Si votre ordinateur possède une puce Apple MX, commencez la procédure d'installation ici.
  • Si votre Mac est un peu plus ancien (avant 2020), il y a de fortes chances que vous trouviez une entrée "Intel Processor".

Pour les nouveaux macs avec un processeur M1, M2, M3 ou M4 (CPU)

  • Allez dans ce dossier et téléchargez le fichier d'installation noScribe_0.5.0b_arm64.dmg.
  • Double-cliquez sur le fichier dmg téléchargé et faites glisser noScribe et noScribeEdit vers vos Applications (nommés drag both here to install).
  • Vous avez besoin d'un émulateur Apple Rosetta2 Intel car FFmpeg, un composant de noScribe permettant de convertir des fichiers vidéo et audio, n'est pas compatible avec votre processeur..
  • Installez le manuel de Rosetta2 :
    • Ouvrez le terminal avec cmd + espace, cherchez ensuite Terminal et appuyez sur enter. Vous pouvez également naviguer vers le dossier /Applications/Utilities/ et ouvrir Terminal.app.
    • Lorsque le terminal est ouvert, copiez la commande suivante softwareupdate --install-rosetta or softwareupdate --install-rosetta --agree-to-license et appuyez sur la touche enter pour exécuter la commande.
    • Suivez ensuite les instructions sur l'écran pour installer rosetta2 software of apple.
  • Ouvrez ensuite noScribe.

Pour les macs avec un intel processor

  • En fonction de votre système d'exploitation :
    • pour macOS 14 (Sonoma) ou 15 (Sequoia) : allez sur cette page afin de télécharger le bon installeur (noScribe_0.5.0b_x86_64_unsigned.dmg).
    • pour macOS 11 (Big Sur), 12 (Monterey) et 13 (Ventura) : ouvrez ce lien et téléchargez le fichier d'installation (noScribe_0.5.0_x86_64_unsigned_legacy.dmg).

Message des développeurs : Malheureusement, nous sommes actuellement incapables de signer correctement le paquet x86_64, vous recevrez donc un avertissement indiquant que noScribe et noScribeEdit proviennent de développeurs non enregistrés. Vous devez autoriser manuellement noScribe et noScribeEdit à s'exécuter lorsque votre Gatekeeper est actif.

Vous devez donc vous assurer que votre ordinateur est suffisamment sûr pour ouvrir et utiliser le logiciel.

  • Double-cliquez sur le fichier dmg téléchargé.
  • Faites glisser noScribe et noScribeEdit vers votre dossier d'Applications.
  • Double-cliquez ensuite sur noScribe comme si vous lanciez le programme.
  • Une erreur apparaît, indiquant que noScribe provient d'un développeur non enregistré.
  • Allez sur Paramètres système > Confidentialité et sécurité > Privacy and Security. Faites défiler vers le bas jusqu'à ce que vous voyiez un message indiquant que le démarrage de noScribe a été évité et cliquez sur Ouvrir quand même ou Open anyway.
  • Faites la même chose pour noScribe Editor.

Désormais, les deux programmes devraient s'ouvrir facilement lorsque vous les démarrez.

Utilisation

Ouvrez noScribe. Il peut s'écouler un certain temps avant que vous ne voyiez une interface, soyez patient. Lorsque noScribe démarre, vérifiez si vous pouvez voir le bouton bleu Start. Si ce n'est pas le cas, agrandissez un peu la fenêtre vers le bas.

  1. Fichier audio : Cliquez sur le dossier bleu pour sélectionner le fichier audio ou vidéo que vous souhaitez transcrire. Les fichiers vidéo sont automatiquement convertis en .wav (sans écraser le fichier original).
  2. Save Transcript as : Cliquez sur le dossier bleu pour sélectionner le dossier de destination de votre transcription et choisissez le format :
    • HTML pour éditer votre transcription dans l'éditeur intégré ;
    • TXT pour enregistrer votre transcription sous la forme d'un fichier texte standard ;
    • VTT pour créer un fichier de sous-titres.
  3. Start (hh:mm:ss) : Spécifiez ici à partir de quel moment dans le fichier source la transcription doit commencer, hh = heure, mm = minute, ss = seconde.
  4. Stop (hh:mm:ss) : Spécifiez jusqu'à quel moment du fichier source la transcription doit être effectuée. Une transcription des 5 premières minutes seulement peut être effectuée dans ce champ avec, par exemple, "00:05:00".
  5. Language : Sélectionnez la langue parlée du fichier source, ou utilisez l'option "Auto" pour laisser Whisper analyser la langue parlée. Il y a 100 langues supportées par Whisper. Toutes les langues ne produisent pas une transcription aussi précise. Pour le néerlandais, Whisper fonctionne bien.
  6. Quality : Précisez le degré de précision de la transcription. Precise prend plus de temps mais est plus précise. Fast est plus rapide, mais la transcription comportera plus d'erreurs.
    Ceci est un tutoriel pour noScribe. NoScribe est un outil open source gratuit développé par Kai Dröge, qui permet de transcrire ou de sous-titrer du matériel audio et vidéo. L'outil combine plusieurs technologies open source dans une interface utilisateur graphique, afin de créer des transcriptions de qualité. Il utilise notamment Whisper (développé par OpenAI).
  7. Mark pause : Marquez les pauses de plus de x secondes. Les pauses sont transcrites sous forme de parenthèses séparées par un point par seconde, par exemple "(..)" pour une pause de deux secondes. Les pauses de plus de 10 secondes sont transcrites sous la forme "(XX secondes de pause)" ou "(XX minutes de pause)".
    Ceci est un tutoriel pour noScribe. NoScribe est un outil open source gratuit développé par Kai Dröge, qui permet de transcrire ou de sous-titrer du matériel audio et vidéo. L'outil combine plusieurs technologies open source dans une interface utilisateur graphique, afin de créer des transcriptions de qualité. Il utilise notamment Whisper (développé par OpenAI). Les options sont les suivantes :
    • None : ne pas marquer les pauses ;
    • 1sec+ : marquer les pauses de plus d'1 seconde ;
    • 2sec+ : marquer les pauses de plus de 2 secondes ;
    • 3sec+ : marquer les pauses de plus de 3 secondes.
  8. Speaker detection : Options permettant de définir à l'avance quelques éléments concernant le nombre de locuteurs dans le fichier source. Le fait de spécifier le nombre de locuteurs à l'avance peut faciliter l'identification des locuteurs. L'option Auto tente d'identifier le nombre de locuteurs, mais n'est pas parfaite. Vous pouvez également régler le nombre de locuteurs sur Aucun si l'identification des locuteurs n'est pas nécessaire. Cela accélère considérablement le temps de transcription, mais la transcription devient alors un bloc de texte continu.
    Ceci est un tutoriel pour noScribe. NoScribe est un outil open source gratuit développé par Kai Dröge, qui permet de transcrire ou de sous-titrer du matériel audio et vidéo. L'outil combine plusieurs technologies open source dans une interface utilisateur graphique, afin de créer des transcriptions de qualité. Il utilise notamment Whisper (développé par OpenAI).
  9. Overlapping Speech : Indiquez si les locuteurs du fichier source parlent de manière interchangeable ou non. Si cette option est activée, noScribe essaie de marquer les moments où deux personnes parlent en même temps avec des //double slash//. Il s'agit d'une fonctionnalité expérimentale.
  10. "Timestamps" : Lorsque cette option est activée, noScribe traite les horodatages au format [hh:mm:ss] dans la transcription. Soit à chaque changement de locuteur, soit toutes les 60 secondes.
  11. Start : Le bouton Start ou Cance lors de la transcription. Ce bouton a tendance à ne pas être visible au démarrage de noScribe.
  12. Editor : Ce bouton permet d'ouvrir le traitement de texte intégré et de corriger la transcription en fonction de l'audio si nécessaire.
  13. Fenêtre de chargement : Fenêtre donnant des informations sur la version du logiciel et renvoyant à la documentation. Vous y verrez également l'état d'avancement de la transcription.

Commencer la transcription

  • Naviguez jusqu'au fichier audio ou vidéo que vous souhaitez transcrire via le champ de texte Audio file:.

  • Sélectionnez ensuite le format dans lequel vous souhaitez enregistrer la transcription et appuyez sur "Save" ou "Enregistrer".

Sélectionnez .html si vous souhaitez éditer la transcription dans l'éditeur de texte intégré.

  • A l'aide des options Start et/ou Stop, spécifiez la partie du fichier source que vous souhaitez transcrire. Laissez les options telles quelles si vous voulez transcrire tout le fichier.
  • Sélectionnez la langue si vous la connaissez.
  • Choisissez la qualité de transcription souhaitée.
  • Décidez si les pauses de plus de x secondes doivent être notées.
  • Si vous connaissez le nombre de locuteurs dans le fichier source, indiquez-le.
  • Si vous pensez qu'il y a des locuteurs qui se chevauchent dans le fichier source et que vous voulez que cela soit noté, vous pouvez l'indiquer dans l'option Overlapping Speech:.
  • Indiquez si vous voulez voir les codes temporels dans la transcription.
  • Cliquez ensuite sur Start.
  • La transcription va maintenant commencer. Cela peut prendre un certain temps en fonction de la puissance de votre ordinateur, de la longueur du fichier audio ou vidéo, du nombre de locuteurs et de la précision de la transcription. La progression devrait être visible dans la fenêtre de chargement avec une barre rouge de progression en bas.

Corriger la transcription

  • Lorsque le processus de transcription automatique est terminé, vous voyez l'écran suivant :

  • Normalement, l'éditeur s'ouvre automatiquement. Si ce n'est pas le cas, cliquez sur le bouton gris Editor en bas à droite de la fenêtre du journal.

  • Dans l'éditeur, vous pouvez modifier la transcription. Il est possible de cliquer n'importe où dans le texte et d'écouter le morceau d'audio correspondant en cliquant sur le bouton Play/Pause Audio.

  • Le texte sera mis en évidence pendant la lecture audio.
  • Sauvegardez le texte après l'avoir édité.

Correction dans l'éditeur d'une transcription créée précédemment

Cela ne fonctionne que si vous avez enregistré la transcription précédente au format HTML.

  • Ouvrez noScribe Editor. Il s'agit d'un logiciel distinct. Sur Mac, il se trouve dans le dossier Applications. Sur Windows, recherchez "noScribe Editor" dans le menu Démarrer.

  • Dans l'éditeur : Utilisez l'icône de dossier en haut à gauche et sélectionnez une transcription déjà créée.

  • Le chargement d'une transcription peut prendre un certain temps. Cela dépend de sa taille.
  • Si le fichier source original n'est plus à son emplacement d'origine, vous ne pourrez pas lire l'audio en même temps que la transcription. Si le fichier source n'a pas été déplacé, l'audio sera lu en arrière-plan lorsque vous cliquerez sur le bouton Play/Pause Audio.

Auteurs : Lode Scheers (meemoo), en collaboration avec Laurens van Hamme et Nastasia Vanderperren (meemoo)

Partager cet article:            

TRACKS est une collaboration entre ces partenaires :