L’IA a parcouru un long chemin avant de produire des résultats non pertinents et incohérents. Les chatbots modernes utilisent des modèles de langage avancés qui répondent à des questions de culture générale, rédigent de longs essais et écrivent du code, entre autres tâches complexes.
Malgré ces progrès, il convient de noter que même les systèmes les plus sophistiqués ont des limites. L’IA commet toujours des erreurs. Pour déterminer quels sont les chatbots les moins sujets aux hallucinations, testez leur précision en fonction de ces facteurs.
1. Le calcul
Exécutez des équations mathématiques par l’intermédiaire de chatbots. Ils testeront la capacité de la plateforme à analyser des problèmes de mots, à traduire des concepts mathématiques et à appliquer des formules correctes. Seuls quelques modèles font preuve d’une capacité de calcul fiable. En fait, l’un des pires problèmes de ChatGPT au cours de ses premiers mois d’existence était sa piètre compréhension des mathématiques.
L’image ci-dessous montre l’échec de ChatGPT en matière de statistiques de base.
ChatGPT s’est amélioré après les mises à jour de mai 2023 de l’OpenAI. Mais compte tenu de ses ensembles de données limités, vous aurez toujours du mal à effectuer des calculs mathématiques intermédiaires ou avancés.
De leur côté, Bing Chat et Google Bard font preuve d’une meilleure maîtrise du calcul. Ils lancent des requêtes via leurs moteurs de recherche respectifs, ce qui leur permet d’obtenir des formules et des feuilles de réponses.
Essayez de reformuler vos problèmes de mots. Évitez les phrases trop longues et remplacez les verbes faibles, sinon les chatbots risquent de mal comprendre vos questions.
2. Compréhension
Les systèmes d’IA modernes peuvent assumer des tâches multiples. Les LLM avancés leur permettent de conserver les instructions précédentes et de répondre aux invites par section, alors que les systèmes plus anciens traitent des commandes singulières. Par exemple, Siri répond à une question à la fois.
Donnez aux chatbots trois à cinq tâches simultanées pour tester leur capacité à analyser des messages complexes. Les modèles moins sophistiqués ne peuvent pas traiter autant d’informations. L’image ci-dessous montre le dysfonctionnement de HuggingChat face à une invite en trois étapes : il s’arrête à la première étape et s’écarte du sujet.
Les dernières lignes de HuggingChat sont déjà incohérentes.
ChatGPT répond rapidement à la même question, générant des réponses intelligentes et sans erreur à chaque étape.
Bing Chat fournit une réponse condensée aux trois étapes. Ses restrictions rigoureuses interdisent les réponses inutilement longues qui gaspillent de la puissance de traitement.
3. Rapidité d’exécution
Étant donné que la formation à l’IA coûte des ressources considérables, la plupart des développeurs limitent les ensembles de données à des périodes spécifiques. Prenons l’exemple de ChatGPT. Ses connaissances sont limitées à septembre 2021 : vous ne pouvez pas demander de mises à jour météorologiques, de bulletins d’information ou de développements récents. Voici ChatGPT indiquant qu’il n’a pas accès aux informations en temps réel.
Bard a accès à Internet. Il extrait des données des SERPs de Google, ce qui vous permet de poser un plus grand nombre de questions, par exemple sur les événements récents, les nouvelles et les prédictions.
De même, Bing Chat tire des informations en temps réel de son moteur de recherche.
Bing Chat et Bard fournissent des informations actualisées et opportunes, mais ce dernier fournit des réponses plus détaillées. Bing se contente de présenter les données telles quelles. Vous remarquerez que ses résultats correspondent souvent mot pour mot à la formulation et au ton des sources liées.
4. Pertinence
Les chatbots doivent fournir des résultats pertinents. Ils doivent prendre en compte le sens littéral et contextuel de vos invites lorsqu’ils répondent. Prenons l’exemple de cette conversation. Notre persona a besoin d’un nouveau téléphone, mais ne dispose que de 1 000 $ – le ChatGPT ne dépasse pas le budget.
Lorsque vous testez la pertinence, essayez de rédiger des instructions longues. Les chatbots moins sophistiqués ont tendance à s’égarer lorsqu’ils reçoivent des instructions confuses. Par exemple, HuggingChat peut composer des histoires fictives. Mais il risque de s’écarter du sujet principal si vous fixez trop de règles et de directives.
5. Mémoire contextuelle
La mémoire contextuelle aide l’IA à produire des résultats précis et fiables. Au lieu de prendre vos questions au pied de la lettre, elles rassemblent les détails que vous mentionnez. Prenons l’exemple de cette conversation. Bing Chat relie deux messages distincts pour former une réponse utile et concise.
De même, la mémoire contextuelle permet aux chatbots de se souvenir des instructions. Cette image montre ChatGPT imitant la façon dont un personnage fictif parle au cours de plusieurs chats.
Testez cette fonction vous-même en vous référant constamment à des déclarations antérieures. Alimentez les chatbots en informations diverses, puis forcez-les à s’en souvenir dans leurs réponses ultérieures.
La mémoire contextuelle est limitée. Bing Chat démarre de nouvelles conversations tous les 20 tours, tandis que ChatGPT ne peut pas traiter les invites de plus de 3 000 tokens.
6. Restrictions de sécurité
L’IA ne fonctionne pas toujours comme prévu. Une formation défectueuse peut amener les technologies d’apprentissage automatique à commettre diverses erreurs, qu’il s’agisse d’erreurs mathématiques mineures ou de commentaires problématiques. Prenons l’exemple de Microsoft Tay. Les utilisateurs de Twitter ont exploité son modèle d’apprentissage non supervisé et l’ont conditionné à prononcer des insultes raciales.
Heureusement, les leaders mondiaux de la technologie ont tiré les leçons de la bévue de Microsoft. Bien que rentable et pratique, l’apprentissage non supervisé rend les systèmes d’intelligence artificielle susceptibles d’être trompés. C’est pourquoi les développeurs s’appuient aujourd’hui principalement sur l’apprentissage supervisé. Les chatbots comme ChatGPT apprennent toujours à partir des conversations, mais leurs formateurs filtrent d’abord les informations.
Attendez-vous à des directives différentes de la part des entreprises spécialisées dans l’IA. Les restrictions moins rigides de ChatGPT permettent un plus large éventail de tâches, mais sont peu efficaces contre l’exploitation. De son côté, Bing Chat applique des limites plus strictes. Si elles permettent de lutter contre les tentatives d’exploitation, elles entravent également les fonctionnalités. Bing interrompt automatiquement les conversations potentiellement dangereuses.
7. Biais de l’IA
L’IA est intrinsèquement neutre. Son absence de préférences et d’émotions la rend incapable de se forger une opinion. Elle se contente de présenter les informations qu’elle connaît. Voici comment ChatGPT répond aux sujets subjectifs.
Malgré cette neutralité, les biais de l’IA subsistent. Ils proviennent des modèles, des ensembles de données, des algorithmes et des modèles utilisés par les développeurs. L’IA est peut-être impartiale, mais les humains ne le sont pas.
Par exemple, la Brookings Institution affirme que ChatGPT démontre des préjugés politiques de gauche. OpenAI nie bien sûr ces allégations. Mais pour éviter des problèmes similaires avec les modèles plus récents, ChatGPT évite complètement les sorties d’opinion.
De même, Bing Chat évite les sujets sensibles et subjectifs.
Évaluez vous-même les préjugés de l’IA en posant des questions ouvertes basées sur l’opinion. Abordez des sujets pour lesquels il n’y a pas de bonne ou de mauvaise réponse. Les chatbots non sophistiqués sont susceptibles d’afficher des préférences infondées à l’égard de groupes spécifiques.
8. Références
L’IA vérifie rarement les faits. Elle se contente d’extraire des informations de ses ensembles de données et de les reformuler à l’aide de modèles linguistiques. Malheureusement, une formation limitée provoque des hallucinations chez l’IA. Vous pouvez toujours utiliser des outils d’IA générative pour la recherche, mais veillez à vérifier les faits vous-même. Prenez les résultats avec des pincettes.
Bing Chat simplifie le processus de vérification des faits en listant ses références après chaque résultat.
Bard AI n’indique pas ses sources, mais génère des explications actualisées et approfondies en exécutant des requêtes de recherche sur Google. Vous obtiendrez les points essentiels à partir des SERPs.
ChatGPT est sujet à des imprécisions. Son seuil de connaissance de 2021 l’empêche de répondre aux questions sur les événements et incidents récents.
Créer de nouvelles façons de tester la précision des chatbots
L’IA n’est pas la panacée en matière de technologie. Si les systèmes d’IA et les modèles de langage sophistiqués réalisent des prouesses impressionnantes, ils commettent aussi des erreurs et des incohérences. Considérez les chatbots avec scepticisme. Vous ne pouvez utiliser les plateformes basées sur l’IA que si vous comprenez leurs fonctions et leurs limites.
Bien qu’il existe des dizaines de chatbots sur les différentes plateformes, leur fiabilité et leur précision risquent de vous décevoir. Vous perdrez simplement du temps à les tester. Pour garantir des résultats de qualité, nous vous suggérons de vous concentrer sur les trois modèles les plus robustes du marché : ChatGPT, Bing AI et Google Bard.
