Bard vs. ChatGPT vs. Offline Alpaca : Quel est le meilleur LLM ?

Les modèles linguistiques étendus (LLM) existent sous toutes les formes et dans toutes les tailles, et ils vous aideront de la manière que vous jugerez la plus appropriée. Mais quel est le meilleur ? Nous avons mis à l’épreuve les IA dominantes d’Alphabet, d’OpenAI et de Meta.

Ce qu’il faut savoir sur les chatbots d’IA

Robot IA utilisant un écran tactile virtuel

L’intelligence artificielle générale est un objectif des informaticiens depuis des décennies, et l’IA est un pilier des auteurs de science-fiction et des cinéastes depuis encore plus longtemps.

L’intelligence artificielle générale fait preuve d’une intelligence similaire aux capacités cognitives humaines, et le test de Turing, qui évalue la capacité d’une machine à adopter un comportement intelligent indiscernable de celui d’un être humain, n’a pratiquement pas été remis en question au cours des sept décennies qui se sont écoulées depuis qu’il a été présenté pour la première fois.

La récente convergence de l’informatique à très grande échelle, de vastes quantités d’argent et du volume stupéfiant d’informations librement accessibles sur l’internet a permis aux géants de la technologie de former des modèles capables de prédire la section de mot suivante – ou le jeton – dans une séquence de jetons.

À l’heure où nous écrivons ces lignes, Bard de Google et ChatGPT d’OpenAI sont tous deux disponibles pour être utilisés et testés via leurs interfaces web.

Le modèle de langage de Meta, LLaMa, n’est pas disponible sur le web, mais vous pouvez facilement télécharger et exécuter LLaMa sur votre propre matériel et l’utiliser via une ligne de commande ou exécuter Dalai sur votre propre machine – l’une des nombreuses applications dotées d’une interface conviviale.

Pour les besoins du test, nous utiliserons le modèle Alpaca 7B de l’Université de Stanford – une adaptation de LLaMa – et le comparerons à Bard et ChatGPT.

Les comparaisons et les tests suivants ne sont pas exhaustifs, mais vous donnent une indication des points clés et des capacités.

Quel est le modèle de langue large le plus facile à utiliser ?

Bard et ChatGPT requièrent tous deux un compte pour utiliser le service. Les comptes Google et OpenAI sont faciles et gratuits à créer, et vous pouvez immédiatement commencer à poser des questions.

Cependant, pour faire fonctionner LLaMa localement, vous devez avoir des connaissances spécialisées ou être capable de suivre un tutoriel. Vous aurez également besoin d’un espace de stockage important.

Quel est le grand modèle linguistique le plus privé ?

Des policiers en Lego entourent une personne en Lego assise à un bureau.

Bard et ChatGPT disposent tous deux de règles de confidentialité détaillées, et Google insiste à plusieurs reprises dans ses documents sur le fait que vous ne devez « pas inclure d’informations pouvant être utilisées pour vous identifier ou identifier d’autres personnes dans vos conversations Bard ».

Par défaut, Google collecte vos conversations et votre position générale en fonction de votre adresse IP, de vos commentaires et des informations d’utilisation. Ces informations sont stockées dans votre compte Google pour une durée maximale de 18 mois. Bien que vous puissiez interrompre la sauvegarde de votre activité Bard, vous devez savoir que « pour contribuer à la qualité et améliorer nos produits, des réviseurs humains lisent, annotent et traitent vos conversations Bard ».

L’utilisation de Bard est également soumise aux règles de confidentialité de Google.

La politique de confidentialité d’OpenAI est largement similaire et recueille l’adresse IP et les données d’utilisation. Contrairement à la conservation limitée dans le temps de Google, OpenAI « conservera vos informations personnelles aussi longtemps que nécessaire pour vous fournir notre service, ou pour d’autres raisons commerciales légitimes telles que la résolution de litiges, des raisons de sûreté et de sécurité, ou le respect de nos obligations légales ».

En revanche, un modèle local sur votre propre machine ne nécessite pas de compte et ne partage les données de l’utilisateur avec personne.

Quel LLM a la meilleure culture générale ?

homme au pied d'un mât arborant le drapeau du népal

Afin de tester quel LLM possède la meilleure culture générale, nous avons posé trois questions.

La première question, « Quel drapeau national a cinq côtés ? », n’a été correctement traitée que par Bard, qui a identifié le drapeau national du Népal comme ayant cinq côtés.

ChatGPT a affirmé avec assurance qu' »il n’y a pas de drapeau national à cinq côtés ». Les drapeaux nationaux sont généralement de forme rectangulaire ou carrée et se caractérisent par des couleurs, des motifs et des symboles distincts.

Notre modèle local s’en est approché en affirmant que « Le drapeau national indien a cinq côtés et a été conçu en 1916 pour représenter le mouvement d’indépendance de l’Inde ». Bien que ce drapeau ait existé et qu’il ait eu cinq côtés, il s’agissait du drapeau du Mouvement pour l’autonomie de l’Inde, et non d’un drapeau national.

Aucun de nos modèles n’a pu répondre que le terme correct pour désigner un objet en forme de pois est « pisiforme », ChatGPT allant même jusqu’à suggérer que les pois ont une « forme géométrique tridimensionnelle parfaitement ronde et symétrique ».

Les trois chatbots ont correctement identifié Franco Malerba comme étant un astronaute italien et un membre du Parlement européen, Bard donnant une réponse formulée de manière identique à une section de l’entrée Wikipedia de Malerba.

Quel LLM est bon pour les instructions techniques ?

prise brûlée pour une fiche de type BS 1363

Lorsque vous rencontrez des problèmes techniques, vous pouvez être tenté de demander de l’aide à un chatbot. Mais si la technologie évolue, certaines choses restent inchangées. La fiche électrique BS 1363 est utilisée en Grande-Bretagne, en Irlande et dans de nombreux autres pays depuis 1947. Nous avons demandé aux modèles linguistiques comment la brancher correctement.

Les câbles reliés à la fiche comportent un fil sous tension (marron), un fil de terre (jaune/vert) et un fil neutre (bleu). Ceux-ci doivent être reliés aux bornes appropriées dans le boîtier de la prise.

Notre mise en œuvre Dalaï a correctement identifié la prise comme étant de « style anglais », puis a dévié de sa trajectoire et a donné des instructions pour l’ancienne prise BS 546 à broches rondes, ainsi que pour les anciennes couleurs de câblage.

ChatGPT a été un peu plus utile. Il a correctement étiqueté les couleurs de câblage et a fourni une liste de matériaux et une série de huit instructions. ChatGPT a également suggéré de mettre le fil marron dans la borne étiquetée « L », le fil bleu dans la borne « N » et le fil jaune dans la borne « E ». Cela serait correct si les bornes BS1363 étaient étiquetées, mais ce n’est pas le cas.

Bard a identifié les couleurs correctes des fils et nous a demandé de les connecter aux bornes Live, Neutral et Earth. Il n’a donné aucune instruction sur la manière d’identifier ces bornes.

À notre avis, aucun des chatbots n’a donné d’instructions suffisantes pour aider quelqu’un à câbler correctement une prise électrique BS 1363. Une réponse concise et correcte serait : « Bleu à gauche, marron à droite ».

Quel LLM est bon pour écrire du code ?

Python est un langage de programmation utile qui fonctionne sur la plupart des plateformes modernes. Nous avons demandé à nos modèles d’utiliser Python et de « construire un programme de calculatrice de base capable d’effectuer des opérations arithmétiques telles que l’addition, la soustraction, la multiplication et la division. Il doit prendre en compte les données de l’utilisateur et afficher le résultat. » Il s’agit de l’un des meilleurs projets de programmation pour les débutants.

Alors que Bard et ChatGPT ont instantanément renvoyé un code utilisable et soigneusement commenté, que nous avons pu tester et vérifier, aucun code de notre modèle local n’a pu être exécuté.

Quel LLM raconte les meilleures blagues ?

Boule jaune avec une expression de rire peinte dessus

L’humour est l’un des fondements de l’être humain et certainement l’un des meilleurs moyens de distinguer l’homme de la machine. À chacun de nos modèles, nous avons donné une consigne simple : « Créez une blague originale et drôle » : « Créez une blague originale et drôle ».

Heureusement pour les humoristes du monde entier et pour l’humanité dans son ensemble, aucun des modèles n’a été capable de créer une blague originale.

Bard a sorti le classique « Pourquoi l’épouvantail a-t-il gagné un prix ? Il était exceptionnel dans son domaine ».

L’implémentation locale et ChatGPT ont tous deux proposé la réplique qui fait grincer des dents : « Pourquoi les scientifiques ne font-ils pas confiance aux atomes ? Parce qu’ils composent tout ! »

Une blague dérivée mais originale serait : « En quoi les Grands Modèles de Langage sont-ils comme les atomes ? Ils inventent tous les deux des choses ! »

Vous l’avez lu ici en premier.

Aucun chatbot n’est parfait

Nous avons constaté que si les trois grands modèles linguistiques ont leurs avantages et leurs inconvénients, aucun d’entre eux ne peut remplacer l’expertise réelle d’un être humain possédant des connaissances spécialisées.

Bien que Bard et ChatGPT aient donné de meilleures réponses à notre question de codage et soient très faciles à utiliser, l’exécution locale d’un grand modèle de langage signifie que vous n’avez pas à vous préoccuper de la confidentialité ou de la censure.

Si vous souhaitez créer des œuvres d’art à base d’IA sans vous soucier que quelqu’un regarde par-dessus votre épaule, il est également facile d’exécuter un modèle d’art à base d’IA sur votre machine locale.

Lire Quelles sont les nouvelles fonctionnalités annoncées par Canva lors de Canva Create 2023 ?