Accueil Technologie
Comment transformer votre voix en texte en temps réel avec Whisper Desktop

Comment transformer votre voix en texte en temps réel avec Whisper Desktop

Les mêmes personnes qui sont à l’origine de ChatGPT ont créé un autre outil basé sur l’IA que vous pouvez utiliser dès aujourd’hui pour stimuler votre productivité. Il s’agit de Whisper, une solution de conversion de la voix en texte qui a éclipsé toutes les solutions similaires qui l’ont précédée.


Vous pouvez utiliser Whisper dans vos programmes ou en ligne de commande. Et pourtant, cela va à l’encontre de son objectif même : taper sans clavier. Si vous devez taper pour l’utiliser, pourquoi l’utiliser pour éviter de taper ? Heureusement, vous pouvez désormais utiliser Whisper via une interface graphique de bureau. Mieux encore, il peut également transcrire votre voix presque en temps réel. Voyons comment vous pouvez taper avec votre voix en utilisant Whisper Desktop.

Qu’est-ce que Whisper d’OpenAI ?

OpenAI’s Whisper est un système de reconnaissance automatique de la parole (ASR) ou, pour le dire simplement, une solution permettant de convertir la langue parlée en texte.

Cependant, contrairement aux anciens systèmes de dictée et de transcription, Whisper est une solution d’IA entraînée sur plus de 680 000 heures de discours dans différentes langues. Whisper offre une précision inégalée et, chose impressionnante, il est non seulement multilingue, mais il peut également traduire d’une langue à l’autre.

Plus important encore, il est gratuit et disponible en tant que source ouverte. Grâce à cela, de nombreux développeurs ont intégré son code dans leurs propres projets ou créé des applications qui s’appuient sur lui, comme Whisper Desktop.

Si vous préférez la version « vanille » de Whisper et la polyvalence du terminal plutôt que des interfaces graphiques encombrantes, consultez notre article sur la transformation de votre voix en texte avec OpenAI’s Whisper pour Windows.

Whisper et Whisper Desktop sont-ils identiques ?

Malgré son nom officiel, Whisper Desktop est une interface graphique tierce pour Whisper, destinée à tous ceux qui préfèrent cliquer sur des boutons plutôt que de taper des commandes.

Whisper Desktop est une solution autonome qui ne dépend pas d’une installation existante de Whisper. En prime, il utilise une version alternative et optimisée de Whisper, et devrait donc être plus performant que la version autonome.

Vous êtes à l’autre bout du spectre, et au lieu de chercher un moyen plus facile d’utiliser Whisper que le terminal, vous cherchez des moyens de l’implémenter dans vos propres solutions ? Réjouissez-vous, car OpenAI a ouvert l’accès aux API ChatGPT et Whisper.

Télécharger &amp ; Installer Whisper Desktop

Bien que Whisper Desktop soit plus facile à utiliser que le Whisper autonome, son installation est plus compliquée que de cliquer plusieurs fois sur Suivant dans un assistant.

  1. Visitez la page officielle de Whisper Desktop sur Github. Regardez à droite, et cliquez sur la dernière version sous Communiqués de presse.
    Lien vers les versions Github de Whisper Desktop
  2. Sous Actifs, cliquez WhisperDesktop.zip et téléchargez-le sur votre PC.
    Whisper Desktop Github Lien de téléchargement
  3. Extrayez l’archive téléchargée dans un dossier et utilisez votre gestionnaire de fichiers pour le visiter. Vous y trouverez l’application Whisper Desktop. Double-cliquez dessus pour la lancer.
    L'application Whisper Desktop dans l'explorateur de fichiers
  4. Vous avez également besoin d’un modèle de langue Whisper dans GCML format binaire. Whisper Desktop vous fournira deux liens pour en acquérir un. Sautez le deuxième lien pour générer votre propre modèle car c’est un processus plus compliqué. Cliquez sur Visage étreint pour ouvrir cette page dans votre navigateur par défaut, d’où vous pourrez télécharger un fichier prêt à l’emploi.
    Modèle linguistique Whisper Desktop Liens
  5. La version de Whisper Desktop que nous avons utilisée pour écrire cet article fournissait un lien vers un dépôt obsolète à Hugging Face. Si vous rencontrez le même problème, remarquez un lien vers un référentiel de nouvel emplacement. Cliquez dessus pour visiter le nouveau dépôt.
    Hugging Face Whisper Models New Location
  6. Cliquez sur le lien qui vous amènera à la page disponible. disponibles.
    Hugging Face Modèles disponibles Lien
  7. Dans cette liste, cliquez sur l’un ou l’autre des modèles suivants ggml-medium.bin ou ggml-medium.fr.binselon que vous souhaitez un support multilingue ou uniquement anglais dans Whisper.
    Hugging Face Whisper Medium Model Link
  8. Enfin, vous devriez avoir atteint votre destination. Remarquez la ligne indiquant que ce fichier est stocké dans Git LFS et qu’il est trop volumineux pour être affiché, mais que vous pouvez quand même le télécharger. Cliquez sur télécharger pour faire précisément cela.
    Hugging Face Whisper Medium Model Télécharger le lien
  9. Une fois le téléchargement du fichier terminé, utilisez votre gestionnaire de fichiers préféré (l’Explorateur de fichiers fera l’affaire) pour déplacer le fichier de modèle linguistique téléchargé dans le même dossier que Whisper Desktop.
    Modèle Whisper Medium placé dans le dossier Whisper Desktop dans l'Explorateur de fichiers

Transcrire avec Whisper Desktop

Transcrire avec Whisper Desktop est facile, mais vous aurez peut-être besoin d’un ou deux clics pour utiliser l’application.

Relancez Whisper Desktop. Le chemin d’accès à votre modèle linguistique téléchargé lui échappe-t-il (encore) ? Cliquez sur l’icône avec les trois points à droite du champ et sélectionnez manuellement le fichier que vous avez téléchargé depuis Hugging Face.

À partir de cet endroit, vous pouvez également utiliser le menu déroulant situé à côté de Mise en œuvre du modèle pour choisir si vous voulez faire tourner Whisper sur votre GPU (GPU), à la fois sur le CPU et le GPU (Hybride), ou seulement sur l’unité centrale (Référence).

Whisper Desktop Sélection du modèle de mise en œuvre

Le Avancé permet d’accéder à d’autres options qui affectent le fonctionnement de Whisper sur votre matériel. Cependant, comme le bouton indique clairement qu’il s’agit d’options avancées, nous vous suggérons de ne les modifier que si vous êtes en train de dépanner ou si vous savez ce que vous faites. Définir les mauvaises valeurs d’options ici peut imposer une pénalité de performance ou rendre l’application inutilisable.

Cliquez sur OK pour accéder à l’interface principale de l’application.

Options avancées de Whisper Desktop Changement de l'adaptateur graphique

Si vous avez déjà un enregistrement de votre voix que vous souhaitez transformer en texte écrit, cliquez sur Transcrire le fichier et sélectionnez-le. Cependant, nous utiliserons Whisper Desktop pour la transcription en direct dans le cadre de cet article.

Les options proposées sont simples. Vous pouvez sélectionner le langue Whisper utilisera, choisissez si vous voulez traduire entre les langues et activer la fonction Console de débogage.

La plupart des utilisateurs anglophones peuvent ignorer ces options et s’assurer que l’entrée audio correcte est sélectionnée dans le menu déroulant à côté de Dispositif de capture.

Assurez-vous que Enregistrer dans un fichier texte et Ajouter à ce fichier sont activées pour que Whisper Desktop enregistre sa sortie dans un fichier sans en écraser le contenu. Utiliser la fonction avec les trois points à droite du champ du chemin d’accès au fichier pour définir ce fichier texte.

Whisper Desktop : enregistrement et ajout dans un fichier texte

Cliquez sur Capture pour commencer à transcrire votre discours en texte.

Whisper Desktop vous montrera trois indicateurs lorsqu’il détecte une activité vocale, lorsqu’il transcrit activement et lorsque le processus est bloqué.

Vous pouvez continuer à parler aussi longtemps que vous le souhaitez, et vous devriez occasionnellement voir les deux premiers indicateurs clignoter pendant que l’application transforme votre voix en texte. Cliquez ici Arrêter lorsque c’est fait.

Transcription à voix active de Whisper Desktop

Le fichier texte que vous avez sélectionné devrait s’ouvrir dans votre éditeur de texte par défaut, contenant sous forme écrite tout ce que vous avez dit jusqu’à ce que vous cliquiez sur Arrêter.

Texte transcrit avec Whisper Desktop dans Typora

Il convient de noter que vous pouvez également faire le contraire de ce que nous avons vu ici : convertir n’importe quel texte en parole. De cette façon, vous pouvez écouter n’importe quoi comme s’il s’agissait d’un podcast au lieu de vous fatiguer les yeux en regardant des écrans. Pour plus d’informations à ce sujet, consultez notre article sur les meilleurs outils gratuits en ligne pour télécharger de la synthèse vocale au format MP3.

Conseils pour la dactylographie vocale avec Whisper Desktop

Bien que Whisper Desktop puisse vous sauver la vie en vous permettant d’écrire avec votre voix beaucoup plus rapidement que vous ne le feriez en tapant, il est loin d’être parfait.

Lors de nos tests, nous avons constaté qu’il pouvait parfois bégayer, sauter des mots, ne pas transcrire jusqu’à ce que vous arrêtiez et redémarriez manuellement le processus, ou rester bloqué dans une boucle et retranscrire la même phrase à plusieurs reprises.

Nous pensons qu’il s’agit de problèmes temporaires qui seront résolus puisque le Whisper autonome ne présente pas les mêmes problèmes.

Mis à part ces petits problèmes, transformer votre voix en texte devrait se faire sans effort avec Whisper Desktop. Cependant, lors de nos tests, nous avons constaté qu’il peut être encore plus performant si…

  1. Au lieu de prononcer seulement deux ou trois mots et de faire une pause, Whisper peut mieux vous comprendre si vous continuez plus longtemps. Essayez au moins de lui donner une phrase entière à la fois.
  2. Pour la même raison, évitez de démarrer et d’arrêter le processus de transcription de manière répétée.
  3. Lorsque vous vous rendez compte que vous avez fait une erreur, ignorez-la et continuez. Le chargement et le déchargement du modèle de langage semble être la partie la plus longue du processus dans l’état actuel de Whisper et de notre matériel disponible. Il est donc plus rapide de continuer à parler et d’éditer vos erreurs par la suite.
  4. Comme pour la version autonome de Whisper, il est préférable d’utiliser le modèle linguistique optimal pour votre matériel disponible. Vous pouvez utiliser jusqu’au moyen si votre GPU dispose de 8 Go de VRAM. Pour moins de VRAM, optez pour les modèles plus petits. Ne choisissez que les modèles légèrement plus précis, mais aussi beaucoup plus exigeants. grand si vous utilisez un GPU avec 16GB de VRAM ou plus.
  5. N’oubliez pas que plus le modèle linguistique est grand, plus le processus de transcription est lent. Ne choisissez pas un modèle plus grand que nécessaire. Vous constaterez probablement que Whisper Desktop peut déjà vous « comprendre » la plupart du temps avec les modèles moyens ou plus petits, avec seulement une ou deux erreurs par paragraphe.

Êtes-vous encore en train de taper ? Utilisez votre voix avec Whisper

Bien qu’il faille un peu de temps pour l’installer, comme vous le verrez lorsque vous l’essaierez, Whisper Desktop fonctionne bien mieux que la plupart des autres solutions, avec une précision et une vitesse bien supérieures.

Une fois que vous aurez commencé à l’utiliser pour taper avec votre voix, votre clavier ressemblera peut-être à une relique d’une époque révolue.

Leave your vote

0 0 votes
Évaluation de l'article
S’abonner
Notification pour
guest
0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
Commentaires en ligne
Afficher tous les commentaires

Log In

Forgot password?

Don't have an account? Register

Forgot password?

Enter your account data and we will send you a link to reset your password.

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Here you'll find all collections you've created before.

0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x