En janvier 2023, Google a annoncé MusicLM, un outil d’IA expérimental capable de générer de la musique à partir de descriptions textuelles. Parallèlement à cette annonce, Google a publié un document de recherche étonnant sur MusicLM, qui a laissé de nombreuses personnes éblouies par la capacité de cet outil à produire de la musique à partir de rien.
À partir d’un texte, le modèle promettait de produire de la musique de haute fidélité répondant à toutes sortes de descriptions, du genre à l’instrument en passant par les légendes abstraites décrivant des œuvres d’art célèbres. Maintenant que MusicLM est ouvert au public, nous avons décidé de le mettre à l’épreuve.
La tentative de Google de créer une IA génératrice de musique
Transformer une invite textuelle telle que « jazz relaxant » en un morceau prêt à jouer est sans doute le Saint-Graal des expériences en matière de musique d’IA. À l’instar des célèbres générateurs d’images d’IA tels que Dall-E ou Midjourney, il n’est pas nécessaire d’avoir la moindre connaissance musicale pour produire un morceau doté d’une mélodie et d’un rythme.
En mai 2023, ceux qui se sont inscrits à l’AI Test Kitchen de Google ont pu essayer la démo pour la première fois. Accueillis par une page web conviviale et quelques règles – les instruments électroniques et classiques sont les plus efficaces, et il ne faut pas oublier de spécifier une « ambiance » – la production d’un extrait de musique est incroyablement facile.
La vitesse est l’un des rares points sur lesquels MusicLM est vraiment performant, à côté des échantillons relativement fidèles. Cependant, le véritable test ne se mesure pas uniquement au moyen d’un chronomètre. MusicLM peut-il produire de la musique réelle et écoutable à partir de quelques mots ? Pas exactement (nous y reviendrons).
Comment utiliser MusicLM dans la cuisine d’essai de l’IA de Google
L’utilisation de MusicLM est très simple. Vous pouvez vous inscrire sur la liste d’attente de l’AI Test Kitchen de Google si vous souhaitez tenter l’expérience.
Sur l’application web, vous verrez une zone de texte dans laquelle vous pourrez composer un message de quelques mots à quelques phrases décrivant le type de musique que vous souhaitez écouter. Pour obtenir les meilleurs résultats, Google vous conseille d’être « très descriptif » et d’essayer d’inclure l’ambiance et l’émotion de la musique.
Lorsque vous êtes prêt, appuyez sur la touche « Entrée » pour lancer le traitement. Au bout d’une trentaine de secondes, deux extraits audio seront disponibles pour votre audition. Parmi les deux, vous avez la possibilité de décerner un trophée au meilleur échantillon correspondant à votre message, ce qui permet à Google d’entraîner le modèle et d’améliorer ses résultats.
A quoi ressemble MusicLM
Les humains font de la musique depuis au moins 40 000 ans, sans que l’on sache vraiment si la musique est apparue avant, après ou en même temps que le langage. D’une certaine manière, il n’est donc pas surprenant que MusicLM n’ait pas encore percé le code de cet art universel ancestral.
Le document de recherche MusicLM de Google suggère que MusicLM peut générer de la musique à partir de légendes appartenant à des œuvres d’art célèbres et suivre des instructions telles que changer de genre ou d’ambiance de manière fluide en suivant une séquence de différentes invites.
Cependant, avant de nous lancer dans des projets aussi ambitieux, nous avons constaté que MusicLM devait d’abord surmonter plusieurs problèmes fondamentaux.
Difficulté à respecter le tempo
Le travail le plus élémentaire de tout musicien consiste simplement à jouer en rythme. En d’autres termes, respecter le tempo. Il est surprenant de constater que MusicLM n’est pas en mesure de le faire à 100 %.
En fait, en utilisant la même invite 10 fois, ce qui produit 20 pistes musicales, seulement trois étaient dans le temps. Les 17 échantillons restants étaient plus rapides ou plus lents que le tempo spécifié, qui était écrit en « battements par minute », un terme largement utilisé pour décrire la musique.
Dans cet exemple, nous avons utilisé l’invite « piano classique solo joué à 80 battements par minute, paisible et méditatif ». En écoutant de plus près, on constate que la musique accélère ou ralentit souvent au cours de la petite durée de l’échantillon.
La musique manquait également d’un rythme fort et donnait l’impression que quelqu’un avait appuyé sur « play » au milieu du morceau. Que ce soit intentionnel ou non, il est difficile de juger si MusicLM est capable de composer un début ou une fin de morceau de musique correcte, en plus de respecter le rythme.
Sélection aléatoire d’instruments
MusicLM n’ayant peut-être pas encore appris à jouer en respectant un timing strict, nous sommes passés à un autre paramètre musical courant. Nous voulions voir s’il répondrait à notre demande pour certains instruments.
Nous avons écrit plusieurs messages différents comprenant des descriptions telles que « Synthétiseur solo » et « Guitare basse solo ». D’autres étaient des ensembles plus importants comme « Quatuor à cordes » ou « Groupe de jazz ». Dans l’ensemble, il y avait une chance sur deux d’obtenir ce que l’on demandait.
Une théorie veut que le modèle associe certains instruments à des genres musicaux populaires. Prenons, par exemple, l’invite « Synthétiseur solo, progression d’accords. Vivant et optimiste ». Au lieu d’obtenir un son de synthétiseur seul, MusicLM a produit une piste électronique accompagnée d’une batterie et d’une basse.
Il est possible que le modèle n’ait tout simplement pas eu assez de données et d’entraînement pour comprendre la demande spécifique d’un instrument.
Les voix ne font pas partie de l’équation
Selon les restrictions en vigueur à l’époque, le modèle ne produirait pas de musique contenant des voix. Les épineux problèmes de droits d’auteur de MusicLM et les bogues des voix sont probablement à l’origine de la décision de Google de jouer la carte de la sécurité en imposant cette limitation.
Mais après avoir expérimenté MusicLM pendant un certain temps, nous avons réalisé que le contrôle de Google sur les résultats du modèle n’était pas vraiment infaillible. Curieusement, une invite telle que « guitare acoustique » produisait une piste contenant des voix fantômes en arrière-plan, étouffées et distantes.
Bien que cette situation ne soit pas courante, elle laisse songeur quant à la capacité de MusicLM à créer des voix convaincantes.
Avec des logiciels comme VOCALOID et Synthesizer V à la pointe de la technologie en matière de synthèse vocale assistée par l’IA, le fait d’omettre les voix dans le modèle actuel nous amène à nous demander s’il n’est pas encore assez bon pour rivaliser avec les technologies existantes. MusicLM pourrait bien avoir un long chemin à parcourir avant que les musiciens ne chantent ses louanges.
L’avenir des générateurs de musique à base d’IA
Si MusicLM a fait progresser la technologie musicale de l’IA générative, elle doit retourner à l’école et apprendre quelques notions supplémentaires avant de pouvoir effectuer des travaux pratiques dans l’industrie musicale.
Jusqu’à présent, la meilleure tentative d’IA musicale générative était un modèle appelé JukeboxAI par OpenAI. Il n’était pas vraiment prêt à l’emploi et il lui a fallu neuf heures pour restituer une seule minute de musique.
En contrepartie de vos efforts, vous risquiez d’obtenir une piste au son vraiment extraterrestre, criblée de distorsions et d’artefacts audio. D’un autre côté, vous n’alliez pas vous ennuyer en écoutant les créations bizarres de Jukebox.
À la lumière de ces éléments, MusicLM a fait des progrès significatifs vers un générateur de musique IA convivial. On pourrait presque pardonner au modèle ses sorties aléatoires quand on pense à l’énorme complexité de la génération de musique sous forme audio brute.
Cependant, après avoir mis le modèle au travail, MusicLM semble à moitié abouti par rapport à ce que Google a publié dans son document de recherche initial. Il est rare qu’un générateur d’image IA se trompe sur l’image d’une pomme. De même, un générateur de musique IA devrait avoir quelques notions de base correctes, comme le tempo et les instruments.
MusicLM de Google n’est pas à la hauteur des attentes
À l’heure où les entreprises technologiques s’efforcent de se surpasser sur le front de l’intelligence artificielle, MusicLM donne l’impression d’avoir été testé publiquement avant d’être prêt. Au lieu de respecter les principes fondamentaux, le modèle semble adopter une approche beaucoup plus vague et subjective de la production musicale.
Google peut vous encourager à être précis dans vos requêtes, mais il ne gère pas bien le tempo et vous n’êtes pas assuré d’obtenir à chaque fois les instruments que vous avez demandés. MusicLM est peut-être intéressant et constitue une bonne démonstration des progrès de l’intelligence artificielle, mais si la musique est l’objectif final, il reste encore beaucoup de chemin à parcourir.
