Les générateurs d’IA évoluent sous nos yeux à un rythme effrayant, mais ils ont toujours des défauts. Repérer des détails étranges dans les images d’IA est en fait assez amusant. C’est pourquoi les mains de Midjourney sont devenues un sujet brûlant, un problème commun à de nombreux moteurs.


Voyons pourquoi les mains posent tant de problèmes aux générateurs d’images d’IA. Leurs programmeurs sont déjà en train de résoudre ce problème digne d’un mème, mais il est intéressant de réfléchir à la manière dont l’intelligence artificielle apprend, sans oublier ce qui l’entrave.

Pourquoi les mains générées par l’IA ont fait sensation

Tous ceux qui utilisent des moteurs d’IA pour créer des images ont sans doute remarqué que les mains sont rarement correctes, mais le problème a fait tourner les têtes lorsqu’un certain nombre de « photos » sont apparues sur Twitter.

En y regardant de plus près, on s’aperçoit que les mains bizarres de ces personnes les désignent comme des images générées par l’IA. Le fait qu’il s’agisse de la tentative de Midjourney de créer des mains a rendu la situation encore plus intéressante.

Lire  Les formules Excel ne fonctionnent pas ? 5 façons d'y remédier

L’un des meilleurs moteurs d’IA n’a pas pu s’attaquer à la complexité des mains humaines, et les capacités de Midjourney et de ses concurrents ont donc été mises à l’épreuve. Il est vrai que même DALL-E a tendance à avoir des doigts et des ongles irréalistes.

Images IA de personnes se serrant la main sur DALL-E

Le battage médiatique était disproportionné, car les mains générées par l’IA ont toujours été un problème, mais l’attention supplémentaire a incité la sortie de Midjourney v5 pour améliorer la v4.

La nouvelle version s’est attachée à améliorer la conception des mains, ce qui indique clairement que les ingénieurs en IA ont prêté attention à l’agitation hilarante et ont décidé d’améliorer les capacités du logiciel.

Les autres moteurs tardent à suivre l’exemple de Midjourney, si bien que la correction des dessins de l’IA à l’aide de Photoshop reste une compétence inestimable. Le principal obstacle pour les programmeurs est la complexité de l’entraînement de l’intelligence artificielle à dessiner des mains convaincantes.

Pourquoi les générateurs d’images d’IA ont-ils du mal à dessiner des mains ?

Les moteurs d’IA utilisent des réseaux adversaires génératifs (GAN) ou la diffusion stable pour produire des images. Ces deux technologies nécessitent de nombreux matériaux de base, de la formation et de la puissance de traitement pour créer les œuvres d’art les plus élémentaires.

Les images préexistantes étant essentielles à l’apprentissage de l’IA, les programmeurs doivent fournir à leur logiciel des milliers, voire des millions, d’images accompagnées de messages-guides, en répétant le processus encore et encore jusqu’à ce que le moteur comprenne à quoi un mot particulier fait référence et comment représenter l’objet en question.

Mais les images sources à partir desquelles une IA apprend sont principalement des images en 2D, où les mains sont représentées dans une variété de positions. Qu’elles soient droites ou recourbées, qu’elles montrent cinq doigts ou trois.

En fin de compte, une machine ne comprend pas vraiment le concept de main, et les images à partir desquelles elle apprend ne représentent pas toujours les mains de manière suffisamment claire et cohérente. C’est pourquoi les mains de Midjourney peuvent être si laides : La confusion de l’IA.

Aussi valables que soient les inquiétudes d’Elon Musk concernant le développement de l’IA, certaines parties de la technologie ont encore beaucoup à apprendre. Et leurs obstacles ne se limitent pas à des exemples insuffisants de mains.

Autres raisons pour lesquelles les générateurs d’images par IA sont lents à s’améliorer

Une femme qui code sur ordinateur

Si l’on examine les modèles de Midjourney, la v5 offre une cohérence accrue entre les messages textuels et les images produites, ainsi qu’une résolution plus élevée et des outils supplémentaires. Mais de telles réalisations ne sont pas bon marché.

Pour apprendre à une IA à mieux manipuler ses mains, il faut lui fournir de meilleures images, en particulier en 3D. Cela signifie que beaucoup de temps et de main-d’œuvre sont consacrés aux processus, de l’acquisition des matériaux de base à l’amélioration du codage et à la répétition de la formation jusqu’à ce que l’IA y parvienne.

Même dans ce cas, le logiciel peut commettre des erreurs dans des œuvres d’art par ailleurs stupéfiantes. Outre le fait qu’il s’agit d’un travail énorme et complexe, il est coûteux. Il ne faut donc pas s’attendre à ce que les générateurs gratuits de texte à partir d’images atteignent le niveau de Midjourney pour l’instant.

En résumé, le problème des moteurs d’IA ne réside pas seulement dans l’incapacité de ces programmes informatiques à comprendre complètement l’aspect et le fonctionnement de caractéristiques humaines telles que les mains et les pieds. Il s’agit également du coût de la technologie, de l’accès à l’imagerie 3D et des techniques d’apprentissage automatique qui peuvent aider les générateurs à obtenir une compréhension plus réaliste du monde qui les entoure.

Les générateurs d’images par IA ne lutteront pas éternellement

Les mains sont un concept difficile à appréhender pour l’intelligence artificielle, mais des solutions à ce problème sont déjà à l’œuvre. Midjourney, DALL-E 2 et d’autres plateformes seront un jour capables de réduire au minimum les doigts bizarres, voire de les éradiquer complètement.

Les progrès réalisés dans d’autres domaines de l’IA garantissent une évolution constante de la technologie, et ses développeurs apprennent toujours de nouvelles façons de l’appliquer et de l’améliorer.