Les générateurs d’art de l’IA ne cessent d’impressionner, nous permettant de créer à peu près tout ce que nous pouvons imaginer. Cependant, la technologie semble s’être heurtée à un mur lorsqu’il s’agit de générer des mains réalistes.
Nous examinons ici deux des principales applications d’art génératif et les opposons l’une à l’autre – ou main à main – pour voir laquelle génère les meilleures mains, Midjourney v5 ou Dall-E 2. L’une ou l’autre de ces applications maîtrise-t-elle les mains ? Voyons cela de plus près !
Le problème de l’IA avec les mains
Depuis que l’art généré par l’IA s’est répandu sur l’internet, la qualité des mains dessinées par l’IA a fait l’objet de critiques. Malgré des mises à jour récentes, comme le montrent nos comparaisons côte à côte, les résultats ne sont pas satisfaisants.
Les deux concurrents ont amélioré leurs capacités et la qualité de leurs résultats à chaque itération. La dernière mise à jour, la version 5 de Midjourney, a fait des progrès impressionnants. Cependant, le problème des mains dessinées par l’IA reste entier et ne peut être ignoré.
Comparaison 1 : Utilisation des invites « Main » et « Mains »
Nos comparaisons vont contenir exactement les mêmes invites pour Dall-E 2 et Midjourney v5. Nous allons concevoir les invites pour qu’elles soient spécifiques aux mains au lieu de simplement créer des personnes pour voir à quoi ressemblent les mains. Nous ne donnerons à chaque application qu’une seule chance (lancer) pour chaque question.
Main
Commençons par l’invite la plus élémentaire et la plus pertinente : « main ».
Midjourney v5 :
Dall-E 2 :
C’est mal parti !
Midjourney a pris le parti inhabituel d’associer une main à des situations plutôt créatives. Au lieu de se concentrer sur une seule main, nous voyons un magicien, des gants, un squelette et une petite figurine. Il manque également un doigt à l’image des gants.
Dall-E 2 adopte l’approche inverse et nous offre une seule main sur un fond uni. Mais curieusement, il y a des postures étranges, en particulier avec les pouces, qui n’ont pas l’air naturelles ou confortables. Chaque main est également coupée sur l’un des côtés de l’image.
Qui gagne cette manche ? Nous donnons la victoire à Dall-E 2 pour la précision globale.
Mains
Maintenant, mettons l’invite au pluriel, « mains », et voyons ce que les IA proposent.
Midjourney v5 :
Dall-E 2 :
La tentative de Midjourney pour les « mains » est plus réussie cette fois-ci. Mais les quatre images sont en noir et blanc, et il manque quelques doigts. En y regardant de plus près, on s’aperçoit également que certains doigts ont une forme étrange ou se confondent les uns avec les autres.
Dall-E 2 continue de présenter des mains sur un fond uni. Il ne manque aucun chiffre, mais les mains sont coupées dans la troisième image et les autres versions semblent maladroites dans leur composition et manquent totalement de créativité.
Disons que cette comparaison est nulle. Dall-E 2 l’emporterait pour la précision si c’était le seul facteur, mais Midjourney parvient à créer de belles images dans ses rendus en noir et blanc, même si les quatre versions ne sont pas très réalistes.
Vous pouvez toujours utiliser Photoshop pour corriger vos dessins de Midjouney, y compris les mains.
Comparaison 2 : Gestes de la main
Comparons deux gestes de la main qui sont presque universellement reconnus.
Doigts croisés
Tout d’abord, essayons de croiser les doigts.
Midjourney v5 :
Dall-E 2 :
On peut dire sans risque de se tromper que Midjourney a complètement raté ce message. Il manque des doigts et aucune des versions n’a l’air naturelle.
Chapeau encore une fois à Dall-E 2 pour avoir réussi à compter les doigts, mais c’est la seule bonne nouvelle. Chaque version donne l’impression que les doigts prennent leurs propres poses de yoga dans un jeu de Twister.
Il n’y a pas de gagnant dans cette comparaison.
Pouce en l’air
Ensuite, nous allons utiliser les « pouces en l’air ».
Midjourney v5 :
Dall-E 2 :
Midjourney parvient à compter correctement les doigts tout en traitant chaque message de manière créative. Vous avez remarqué l’introduction d’un style illustratif ?
Dall-E 2 obtient également des points pour la précision, sans essayer de faire bouger les choses en ajoutant quelque chose de créatif à chaque résultat.
Il n’y a pas de grand gagnant ici.
Comparaison 3 : Mains avec objets
Nous allons maintenant augmenter la complexité en demandant aux mains d’interagir avec des objets.
Main tenant une boule de cristal
Commençons par un objet aléatoire, en utilisant l’invite « main tenant une boule de cristal ».
Midjourney v5 :
Dall-E 2 :
En augmentant la complexité, Midjourney commence à briller. Hormis quelques rendus peu naturels, les mains et les boules de cristal sont magnifiques. Midjourney prend même le temps de créer des reflets dans le verre qui ajoutent à la créativité de l’ensemble.
Mais pour la première fois, nous voyons qu’il manque un chiffre à Dall-E 2 dans au moins une des mains, la quatrième ayant l’air tout simplement bizarre. Les boules de cristal ne sont pas non plus aussi impressionnantes que celles de Midjourney.
Midjourney remporte sa première victoire.
Main tenant l’eau
Essayons quelque chose d’encore plus complexe avec l’invite « main tenant de l’eau ».
Midjourney v5 :
Dall-E 2 :
Midjourney n’a réussi à faire rouler qu’une seule image avec le bon nombre de chiffres. Bien que le rendu soit magnifique, nous commençons une fois de plus à voir des fissures dans le département de la crédibilité.
Dall-E 2 a également du mal à obtenir des mains naturelles, mais fait un bien meilleur travail. Il change également la couleur de l’arrière-plan pour plus de variété.
Ce tour est attribué à Dall-E 2.
Comparaison 4 : Les mains qui travaillent
Pour cette comparaison, nous allons créer des messages-guides dans lesquels les mains sont impliquées dans des activités.
Les mains moulent l’argile
Voyons comment les modèles d’IA se débrouillent avec les « mains qui moulent de l’argile ».
Voyage à mi-parcours v5 :
Dall-E 2 :
Midjourney a manqué un doigt sur deux images, mais tout le reste semble parfait.
Les images de Dall-E 2 sont confuses et encombrées. Dans la moitié des versions, les mains d’une autre personne ont été ajoutées.
L’avantage va à Midjourney.
Les mains qui pressent la pâte
Essayons une activité similaire, « les mains qui pressent la pâte ».
Midjourney v5 :
Dall-E 2 :
Les images de Midjourney sont très belles dans l’ensemble. Mais une fois de plus, il manque des chiffres à la moitié d’entre elles. Mais on ne peut pas reprocher aux images leur style artistique.
Les versions de Dall-E 2 manquent également de doigts dans la moitié des interprétations et en ajoutent même un à la dernière main de la série.
Appelons cela un tirage au sort.
Si vous souhaitez essayer ces comparaisons par vous-même, nous vous montrons comment utiliser Midjourney pour créer de l’art IA.
Que nous apprennent les résultats ?
Il est amusant de faire des comparaisons et de déterminer un grand gagnant. Bien que Dall-E 2 ait créé plus souvent des mains avec le bon nombre de doigts, c’est Midjourney qui a créé les images les plus artistiques et les plus attrayantes.
Mais les deux applications ont leur place sur le marché pour les artistes qui réutilisent les images de Dall-E 2 et de Midjourney pour leur travail. Elles sont toutes deux capables de créer des mains qui peuvent être utilisées comme découpes ou dans des composites à des fins artistiques, éditoriales et commerciales. C’est juste une question de préférence personnelle.
L’IA finira par conquérir les mains
Les applications d’art génératif comme Dall-E 2 et Midjourney ont beaucoup progressé dans leur capacité à créer des œuvres d’art réalistes et fantastiques. Elles ont encore du mal à générer des mains, mais étant donné l’accélération de la technologie générative, on ne peut que s’attendre à des améliorations dans un avenir proche.