L’IA générative et les deepfakes sont entrés en collision avec le développement d’outils d’IA vocale. L’idée est simple : vous prenez une voix et la manipulez pour qu’elle prononce les mots que vous lui donnez.
ElevenLabs, qui propose un outil d’IA vocale gratuit, est le chef de file dans ce domaine.
Qu’est-ce que ElevenLabs ?
Fondée par un ancien ingénieur en apprentissage automatique de Google et un ancien stratège en déploiement de Palintir, ElevenLabs est une société de recherche en technologie vocale. Les logiciels de reconnaissance vocale sont un élément clé de sa stratégie, mais l’objectif final est de créer un outil qui « convertit instantanément » les paroles des utilisateurs.[s] l’audio parlé entre les langues ».
ElevenLabs a développé de nouveaux modèles de synthèse vocale capables de créer une voix humaine réaliste. Son site web indique : « Notre mission est de faire du support audio multilingue à la demande une réalité dans les domaines de l’éducation, du streaming, des livres audio, des jeux, des films et même de la conversation en temps réel.
Google Translate et ses alternatives sont une chose, mais pouvez-vous imaginer un outil qui traduise instantanément ce que vous entendez ? Le clonage de la voix de l’orateur, qui vous permet d’entendre le discours tel qu’il le prononcerait, est un pas important dans cette direction.
Qu’est-ce que la génération de voix par IA ?
Décrite simplement, la génération de voix d’IA vous permet de prendre une voix et de lui faire dire ce que vous voulez entendre. Il suffit de choisir une voix, de fournir un dialogue et l’outil fait le reste.
Vous pourriez vous dire « Eh bien, Microsoft Sam faisait cela dans les années 1990 » et vous auriez tout à fait raison. Mais Microsoft Sam et d’autres outils similaires ressemblaient à des robots. L’outil d’ElevenLabs, quant à lui, ressemble beaucoup plus à des humains.
ElevenLabs propose trois options d’IA vocale : ses voix « prémâchées » entièrement gratuites, le générateur de voix (qui vous permet de sélectionner le sexe, l’âge et l’accent) et les voix « clonées » que vous pouvez télécharger sur abonnement uniquement.
Voici un exemple :
L’utilisation de l’IA à des fins créatives s’accompagne de certaines responsabilités morales et éthiques, et la création de voix avec l’outil d’IA vocale d’ElevenLabs n’est pas différente.
En bref, n’utilisez pas la voix de quelqu’un sans sa permission. Même si ce n’est pas illégal, cette personne pourrait en être contrariée.
Avant de poursuivre, n’oubliez pas qu’à l’heure où nous écrivons ces lignes, l’outil d’IA vocale d’ElevenLabs est en version bêta. Cela signifie qu’il ne s’agit pas d’un produit fini.
Générer un dialogue d’IA de base
La façon la plus simple d’utiliser ElevenLabs est d’utiliser l’outil d’IA libre.
Pour l’utiliser, rendez-vous sur beta.elevenlabs.io et créez un compte (vous pouvez utiliser votre propre email, un compte Google ou Facebook).
Suivant :
- Cliquez Synthèse vocale
- Sélectionnez l’une des voix prédéfinies dans Paramètres (les voix masculines et féminines sont disponibles)
- Élargir Paramètres vocaux pour régler Stabilité et Clarté + amélioration de la similarité (une stabilité élevée est monotone, une clarté élevée est plus proche de la voix voulue) curseurs
- Sélectionner Onze monolingues (anglais standard)
- Saisissez le texte que vous souhaitez convertir en parole
- Cliquez sur Générer
- Une fois le processus terminé, il devrait se dérouler automatiquement ; si ce n’est pas le cas, cliquez sur Jouer
Vous pouvez aussi Télécharger l’échantillon généré.
Générer une voix avec ElevenLabs
Si vous préférez créer une nouvelle voix, vous pouvez utiliser la fonction Ajouter une voix pour visiter le site VoiceLab écran. Pour générer une nouvelle voix basée sur les préréglages d’ElevenLabs :
- Cliquez sur Ajouter la voix > ; Conception de la voix
- Définir le Genre, L’âgeet Accent champs
- Ajuster le Intensité de l’accent curseur selon les besoins
- Saisissez le texte que vous souhaitez convertir
- Cliquez sur Générer
- Quand c’est fait, écoutez
Lors des tests, j’ai constaté que les accents féminin/jeune/australien et masculin/ancien/australien étaient nettement « américains ». C’est un problème qui sera probablement résolu au fur et à mesure que la technologie se développera.
Créer sa propre voix dans l’IA
Si les options prédéfinies et configurables sont intéressantes, l’élément vraiment passionnant de la technologie d’ElevenLabs est l’outil de clonage vocal instantané.
Contrairement aux autres options, le clonage vocal instantané nécessite un abonnement. Plusieurs options sont disponibles, la moins chère étant de 5 $ par mois. À l’heure où nous écrivons ces lignes, une remise de 80 % est accordée pour le premier mois, ce qui ramène le prix à 1 $.
Les autres options coûtent 22 $, 99 $ et 330 $ par mois, avec la possibilité de générer jusqu’à 40 heures d’audio par mois.
Pour utiliser le clonage vocal instantané, vous avez besoin non seulement d’un dialogue, mais aussi d’un échantillon de votre voix. N’importe quoi peut faire l’affaire, pourvu que ce soit clair et au format MP3. Plus l’échantillon est long, mieux c’est, jusqu’à 5 minutes.
Depuis l’écran VoiceLab :
- Cliquez sur Ajouter une voix > ; Clonage vocal instantané
- Dans la fenêtre qui s’affiche, définissez un nom
- Cliquer ou faire glisser un fichier approprié pour télécharger un échantillon (jusqu’à 25 échantillons peuvent être ajoutés pour une meilleure précision).
- Cliquez sur Étiquettes et spécifier une clé + une valeur (par exemple Accent/British) – faire ceci jusqu’à 5 fois
- Saisissez une brève description de la voix
- Cochez la case de confirmation du consentement puis Ajouter une voix
Une fois la voix ajoutée, vous pouvez la régler dans l’écran Synthèse vocale comme indiqué ci-dessus.
Que peut-on faire avec une voix d’IA ?
La parole artificielle avec des voix prémâchées et clonées offre de nombreuses possibilités. Comme nous l’avons indiqué, l’objectif final d’ElevenLabs est la traduction en direct, mais l’entreprise a noté plusieurs autres utilisations.
Les livres audio sont mentionnés (peut-être lus par une star de cinéma décédée depuis longtemps) ainsi que les jeux vidéo (l’utilisation de la parole artificielle permettrait d’économiser les voix des acteurs). Mais il y a d’autres utilisations possibles, de la musique à la satire en passant par l’aide à l’autonomie, et probablement au-delà.
Il est même possible de créer un podcast à l’aide de l’IA, même si le résultat risque d’être plat et ennuyeux.
L’introduction d’un épisode de notre Podcast vraiment utile a été produite à l’aide de ElevenLabs :
Bien que les résultats ne soient pas tout à fait à la hauteur de nos espérances, ils sont suffisamment bons pour être utilisés, et la technologie ne peut que s’améliorer.
En attendant, ElevenLabs prévoit une fonction de « conversation vocale » générée qui sera introduite à une date ultérieure.
Utilisez votre voix d’une nouvelle manière grâce à l’IA vocale d’ElevenLabs
L’intelligence artificielle nous a apporté de nouveaux outils étonnants au cours des dernières années. Chat-GPT peut être utilisé pour créer des textes, répondre à des questions, rédiger des rapports, etc. Midjourney est un outil étonnant qui génère des œuvres d’art à partir d’invites.
L’outil d’IA vocale d’ElevenLabs permet désormais de manipuler facilement une voix. C’est comme une imitation, mais avec un clone de la voix originale.
Bien qu’il existe des arguments éthiques contre l’utilisation de voix sans consentement, il s’agit d’un outil puissant qui offre des possibilités intéressantes. Mieux encore, il est étonnamment facile à utiliser et donne des résultats impressionnants.
