8 facteurs clés à prendre en compte pour tester la précision des chatbots d’IA

L’IA a parcouru un long chemin avant de produire des résultats non pertinents et incohérents. Les chatbots modernes utilisent des modèles de langage avancés qui répondent à des questions de culture générale, rédigent de longs essais et écrivent du code, entre autres tâches complexes.

Malgré ces progrès, il convient de noter que même les systèmes les plus sophistiqués ont des limites. L’IA commet toujours des erreurs. Pour déterminer quels sont les chatbots les moins sujets aux hallucinations, testez leur précision en fonction de ces facteurs.

1. Le calcul

Détails du contenu : afficher

Exécutez des équations mathématiques par l’intermédiaire de chatbots. Ils testeront la capacité de la plateforme à analyser des problèmes de mots, à traduire des concepts mathématiques et à appliquer des formules correctes. Seuls quelques modèles font preuve d’une capacité de calcul fiable. En fait, l’un des pires problèmes de ChatGPT au cours de ses premiers mois d’existence était sa piètre compréhension des mathématiques.

L’image ci-dessous montre l’échec de ChatGPT en matière de statistiques de base.

ChatGPT répond mal à une question de probabilité de pile ou face

ChatGPT s’est amélioré après les mises à jour de mai 2023 de l’OpenAI. Mais compte tenu de ses ensembles de données limités, vous aurez toujours du mal à effectuer des calculs mathématiques intermédiaires ou avancés.

ChatGPT : répondre correctement à une question de probabilité à pile ou face

De leur côté, Bing Chat et Google Bard font preuve d’une meilleure maîtrise du calcul. Ils lancent des requêtes via leurs moteurs de recherche respectifs, ce qui leur permet d’obtenir des formules et des feuilles de réponses.

Bing Chat répond correctement à une question de probabilité de pile ou face

Essayez de reformuler vos problèmes de mots. Évitez les phrases trop longues et remplacez les verbes faibles, sinon les chatbots risquent de mal comprendre vos questions.

2. Compréhension

Les systèmes d’IA modernes peuvent assumer des tâches multiples. Les LLM avancés leur permettent de conserver les instructions précédentes et de répondre aux invites par section, alors que les systèmes plus anciens traitent des commandes singulières. Par exemple, Siri répond à une question à la fois.

Donnez aux chatbots trois à cinq tâches simultanées pour tester leur capacité à analyser des messages complexes. Les modèles moins sophistiqués ne peuvent pas traiter autant d’informations. L’image ci-dessous montre le dysfonctionnement de HuggingChat face à une invite en trois étapes : il s’arrête à la première étape et s’écarte du sujet.

HuggingChat tente de répondre à une invite en plusieurs étapes

Les dernières lignes de HuggingChat sont déjà incohérentes.

HuggingChat s'embrouille après avoir répondu à une invitation en plusieurs étapes

ChatGPT répond rapidement à la même question, générant des réponses intelligentes et sans erreur à chaque étape.

ChatGPT répond à la première question d'un questionnaire à plusieurs étapes

Bing Chat fournit une réponse condensée aux trois étapes. Ses restrictions rigoureuses interdisent les réponses inutilement longues qui gaspillent de la puissance de traitement.

Bing Chat fournit une réponse brève à un projet en plusieurs étapes

3. Rapidité d’exécution

Étant donné que la formation à l’IA coûte des ressources considérables, la plupart des développeurs limitent les ensembles de données à des périodes spécifiques. Prenons l’exemple de ChatGPT. Ses connaissances sont limitées à septembre 2021 : vous ne pouvez pas demander de mises à jour météorologiques, de bulletins d’information ou de développements récents. Voici ChatGPT indiquant qu’il n’a pas accès aux informations en temps réel.

ChatGPT ne peut pas partager d'événements notables parce qu'il a une limite de connaissance

Bard a accès à Internet. Il extrait des données des SERPs de Google, ce qui vous permet de poser un plus grand nombre de questions, par exemple sur les événements récents, les nouvelles et les prédictions.

Bard partage les événements notables en lançant des requêtes Google

De même, Bing Chat tire des informations en temps réel de son moteur de recherche.

Bing partage les événements notables en exécutant une requête de recherche sur Bing

Bing Chat et Bard fournissent des informations actualisées et opportunes, mais ce dernier fournit des réponses plus détaillées. Bing se contente de présenter les données telles quelles. Vous remarquerez que ses résultats correspondent souvent mot pour mot à la formulation et au ton des sources liées.

4. Pertinence

Les chatbots doivent fournir des résultats pertinents. Ils doivent prendre en compte le sens littéral et contextuel de vos invites lorsqu’ils répondent. Prenons l’exemple de cette conversation. Notre persona a besoin d’un nouveau téléphone, mais ne dispose que de 1 000 $ – le ChatGPT ne dépasse pas le budget.

ChatGPT recommande des smartphones de moins de 1 000 $.

Lorsque vous testez la pertinence, essayez de rédiger des instructions longues. Les chatbots moins sophistiqués ont tendance à s’égarer lorsqu’ils reçoivent des instructions confuses. Par exemple, HuggingChat peut composer des histoires fictives. Mais il risque de s’écarter du sujet principal si vous fixez trop de règles et de directives.

HuggingChat s'embrouille avec des invites d'étapes multiples

5. Mémoire contextuelle

La mémoire contextuelle aide l’IA à produire des résultats précis et fiables. Au lieu de prendre vos questions au pied de la lettre, elles rassemblent les détails que vous mentionnez. Prenons l’exemple de cette conversation. Bing Chat relie deux messages distincts pour former une réponse utile et concise.

Bing Chat fournit aux écrivains des livres pour se perfectionner

De même, la mémoire contextuelle permet aux chatbots de se souvenir des instructions. Cette image montre ChatGPT imitant la façon dont un personnage fictif parle au cours de plusieurs chats.

ChatGPT répond aux questions comme Ash de Pokemon

Testez cette fonction vous-même en vous référant constamment à des déclarations antérieures. Alimentez les chatbots en informations diverses, puis forcez-les à s’en souvenir dans leurs réponses ultérieures.

La mémoire contextuelle est limitée. Bing Chat démarre de nouvelles conversations tous les 20 tours, tandis que ChatGPT ne peut pas traiter les invites de plus de 3 000 tokens.

6. Restrictions de sécurité

L’IA ne fonctionne pas toujours comme prévu. Une formation défectueuse peut amener les technologies d’apprentissage automatique à commettre diverses erreurs, qu’il s’agisse d’erreurs mathématiques mineures ou de commentaires problématiques. Prenons l’exemple de Microsoft Tay. Les utilisateurs de Twitter ont exploité son modèle d’apprentissage non supervisé et l’ont conditionné à prononcer des insultes raciales.

Heureusement, les leaders mondiaux de la technologie ont tiré les leçons de la bévue de Microsoft. Bien que rentable et pratique, l’apprentissage non supervisé rend les systèmes d’intelligence artificielle susceptibles d’être trompés. C’est pourquoi les développeurs s’appuient aujourd’hui principalement sur l’apprentissage supervisé. Les chatbots comme ChatGPT apprennent toujours à partir des conversations, mais leurs formateurs filtrent d’abord les informations.

Attendez-vous à des directives différentes de la part des entreprises spécialisées dans l’IA. Les restrictions moins rigides de ChatGPT permettent un plus large éventail de tâches, mais sont peu efficaces contre l’exploitation. De son côté, Bing Chat applique des limites plus strictes. Si elles permettent de lutter contre les tentatives d’exploitation, elles entravent également les fonctionnalités. Bing interrompt automatiquement les conversations potentiellement dangereuses.

7. Biais de l’IA

L’IA est intrinsèquement neutre. Son absence de préférences et d’émotions la rend incapable de se forger une opinion. Elle se contente de présenter les informations qu’elle connaît. Voici comment ChatGPT répond aux sujets subjectifs.

ChatGPT compare Iron Man et Captain America

Malgré cette neutralité, les biais de l’IA subsistent. Ils proviennent des modèles, des ensembles de données, des algorithmes et des modèles utilisés par les développeurs. L’IA est peut-être impartiale, mais les humains ne le sont pas.

Par exemple, la Brookings Institution affirme que ChatGPT démontre des préjugés politiques de gauche. OpenAI nie bien sûr ces allégations. Mais pour éviter des problèmes similaires avec les modèles plus récents, ChatGPT évite complètement les sorties d’opinion.

De même, Bing Chat évite les sujets sensibles et subjectifs.

Bing Chat ne peut pas parler de religion

Évaluez vous-même les préjugés de l’IA en posant des questions ouvertes basées sur l’opinion. Abordez des sujets pour lesquels il n’y a pas de bonne ou de mauvaise réponse. Les chatbots non sophistiqués sont susceptibles d’afficher des préférences infondées à l’égard de groupes spécifiques.

8. Références

L’IA vérifie rarement les faits. Elle se contente d’extraire des informations de ses ensembles de données et de les reformuler à l’aide de modèles linguistiques. Malheureusement, une formation limitée provoque des hallucinations chez l’IA. Vous pouvez toujours utiliser des outils d’IA générative pour la recherche, mais veillez à vérifier les faits vous-même. Prenez les résultats avec des pincettes.

Bing Chat simplifie le processus de vérification des faits en listant ses références après chaque résultat.

Bing Chat répond à la question de la date de lancement de ChatGPT

Bard AI n’indique pas ses sources, mais génère des explications actualisées et approfondies en exécutant des requêtes de recherche sur Google. Vous obtiendrez les points essentiels à partir des SERPs.

Bard explique les données de lancement et les mises à jour récentes de ChatGPT

ChatGPT est sujet à des imprécisions. Son seuil de connaissance de 2021 l’empêche de répondre aux questions sur les événements et incidents récents.

ChatGPT ne peut pas répondre à la question de culture générale sur les événements récents

Créer de nouvelles façons de tester la précision des chatbots

L’IA n’est pas la panacée en matière de technologie. Si les systèmes d’IA et les modèles de langage sophistiqués réalisent des prouesses impressionnantes, ils commettent aussi des erreurs et des incohérences. Considérez les chatbots avec scepticisme. Vous ne pouvez utiliser les plateformes basées sur l’IA que si vous comprenez leurs fonctions et leurs limites.

Bien qu’il existe des dizaines de chatbots sur les différentes plateformes, leur fiabilité et leur précision risquent de vous décevoir. Vous perdrez simplement du temps à les tester. Pour garantir des résultats de qualité, nous vous suggérons de vous concentrer sur les trois modèles les plus robustes du marché : ChatGPT, Bing AI et Google Bard.

1. Le calcul

2. Compréhension

3. Rapidité d’exécution

4. Pertinence

5. Mémoire contextuelle

6. Restrictions de sécurité

7. Biais de l’IA

8. Références

Créer de nouvelles façons de tester la précision des chatbots

Leave your vote

Log In

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections