Accueil Technologie
Comment empêcher les chatbots de l’IA de récupérer le contenu de votre site web ?

Comment empêcher les chatbots de l’IA de récupérer le contenu de votre site web ?

Dans l’état actuel des choses, les chatbots d’intelligence artificielle disposent d’une licence libre pour récupérer votre site web et utiliser son contenu sans votre autorisation. Vous craignez que votre contenu soit récupéré par de tels outils ?




La bonne nouvelle, c’est que vous pouvez empêcher les outils d’IA d’accéder à votre site web, mais il y a quelques mises en garde. Nous vous montrons ici comment bloquer les robots à l’aide du fichier robots.txt de votre site web, ainsi que les avantages et les inconvénients d’une telle démarche.



Comment les chatbots accèdent-ils à votre contenu Web ?

Les chatbots d’IA sont formés à l’aide de plusieurs ensembles de données, dont certains sont en libre accès et accessibles au public. Par exemple, GPT3 a été formé à l’aide de cinq ensembles de données, selon un document de recherche publié par OpenAI :

  1. Common Crawl (60 % du poids dans la formation)
  2. WebText2 (22% de poids dans l’entraînement)
  3. Books1 (8% du poids de l’entraînement)
  4. Livres2 (8% du poids en formation)
  5. Wikipedia (3% du poids de l’entraînement)

Common Crawl comprend des pétaoctets (milliers de To) de données de sites web collectées depuis 2008, de la même manière que l’algorithme de recherche de Google explore le contenu web. WebText2 est un ensemble de données créé par OpenAI, contenant environ 45 millions de pages web liées à des posts Reddit avec au moins trois votes positifs.

Ainsi, dans le cas de ChatGPT, le robot d’intelligence artificielle n’accède pas directement à vos pages web et ne les explore pas – pas encore, en tout cas. Cependant, l’annonce par OpenAI d’un navigateur web hébergé par ChatGPT a fait craindre que cela ne soit sur le point de changer.

En attendant, les propriétaires de sites web devraient garder un œil sur les autres chatbots d’IA, au fur et à mesure qu’ils arrivent sur le marché. Bard est l’autre grand nom dans ce domaine, et on en sait très peu sur les ensembles de données utilisés pour l’entraîner. Nous savons évidemment que les robots de recherche de Google parcourent constamment les pages web, mais cela ne signifie pas nécessairement que Bard a accès aux mêmes données.


Pourquoi certains propriétaires de sites web sont-ils inquiets ?

La principale préoccupation des propriétaires de sites web est que les robots d’intelligence artificielle tels que ChatGPT, Bard et Bing Chat dévalorisent leur contenu. Les robots d’IA utilisent le contenu existant pour générer leurs réponses, mais ils réduisent également la nécessité pour les utilisateurs d’accéder à la source d’origine. Au lieu de visiter des sites web pour accéder à des informations, les utilisateurs peuvent simplement demander à Google ou à Bing de générer un résumé des informations dont ils ont besoin.

En ce qui concerne les chatbots d’IA dans le domaine de la recherche, la principale préoccupation des propriétaires de sites web est la perte de trafic. Dans le cas de Bard, le robot d’IA inclut rarement des citations dans ses réponses génératives, indiquant aux utilisateurs de quelles pages il tire ses informations.

Ainsi, outre le fait qu’il remplace les visites de sites web par des réponses d’IA, Bard élimine pratiquement toute chance de voir le site web source recevoir du trafic, même si l’utilisateur souhaite obtenir davantage d’informations. Bing Chat, quant à lui, renvoie plus souvent à des sources d’information.

Capture d'écran d'une réponse de Bing Chat indiquant les sources d'information citées.

En d’autres termes, la flotte actuelle d’outils d’IA générative utilise le travail des créateurs de contenu pour remplacer systématiquement le besoin de créateurs de contenu. En fin de compte, on peut se demander quelle motivation cela laisse aux propriétaires de sites web pour continuer à publier du contenu. Et, par extension, qu’advient-il des robots d’IA lorsque les sites web cessent de publier le contenu dont ils dépendent pour fonctionner ?


Comment bloquer les robots d’intelligence artificielle sur votre site web

Si vous ne voulez pas que des robots d’intelligence artificielle utilisent votre contenu Web, vous pouvez les empêcher d’accéder à votre site à l’aide de la fonction robots.txt . Malheureusement, vous devez bloquer chaque robot individuellement et les spécifier par leur nom.

Par exemple, le robot de Common Crawl s’appelle CCBot et vous pouvez le bloquer en ajoutant le code suivant à votre fichier robots.txt :

 User-agent: CCBot
Disallow: /

Cela empêchera Common Crawl d’explorer votre site web à l’avenir, mais ne supprimera pas les données déjà collectées lors d’explorations précédentes.

Si vous craignez que les nouveaux plugins de ChatGPT n’accèdent à votre contenu web, OpenAI a déjà publié des instructions pour bloquer son robot. Dans ce cas, le bot de ChatGPT s’appelle ChatGPT-User et vous pouvez le bloquer en ajoutant le code suivant à votre fichier robots.txt :

 User-agent: ChatGPT-User
Disallow: /

Empêcher les robots d’indexation des moteurs de recherche d’explorer votre contenu est un tout autre problème. Google étant très discret sur les données d’entraînement qu’il utilise, il est impossible d’identifier les robots que vous devrez bloquer et de savoir s’ils respecteront les commandes de votre fichier robots.txt. robots.txt (de nombreux robots d’indexation ne le font pas).


Quelle est l’efficacité de cette méthode ?

Bloquer les robots d’IA dans votre robots.txt est la méthode la plus efficace actuellement disponible, mais elle n’est pas particulièrement fiable.

Le premier problème est que vous devez spécifier chaque robot que vous voulez bloquer, mais qui peut suivre tous les robots d’intelligence artificielle qui arrivent sur le marché ? Le problème suivant est que les commandes de votre robots.txt sont des instructions non obligatoires. Si Common Crawl, ChatGPT et de nombreux autres robots respectent ces instructions, ce n’est pas le cas de tous les robots.

L’autre grande mise en garde est que vous pouvez uniquement empêcher les robots d’IA d’effectuer des recherches ultérieures. Vous ne pouvez pas supprimer les données des explorations précédentes ou envoyer des demandes à des entreprises comme OpenAI pour qu’elles effacent toutes vos données.


Faut-il empêcher les outils d’IA d’accéder à votre site web ?

Malheureusement, il n’existe pas de moyen simple d’empêcher tous les robots d’intelligence artificielle d’accéder à votre site web, et il est pratiquement impossible de bloquer manuellement chacun d’entre eux. Même si vous vous tenez au courant des derniers robots d’intelligence artificielle qui se promènent sur le Web, il n’est pas garanti qu’ils respectent tous les commandes de votre site Web. robots.txt fichier.

La vraie question est de savoir si les résultats en valent la peine, et la réponse courte est (presque certainement) non.

Le blocage des robots d’intelligence artificielle sur votre site web présente également des inconvénients potentiels. Avant tout, vous ne serez pas en mesure de collecter des données significatives pour prouver que des outils comme Bard profitent ou nuisent à votre stratégie de marketing de recherche.

Oui, vous pouvez supposer qu’un manque de citations est préjudiciable, mais vous ne faites que deviner si vous manquez de données parce que vous avez empêché les robots d’IA d’accéder à votre contenu. La situation était similaire lorsque Google a introduit pour la première fois les featured snippets dans le moteur de recherche.

Capture d'écran montrant un exemple de featured snippet dans Google Search.

Pour les requêtes pertinentes, Google affiche sur la page de résultats un extrait de contenu de pages web répondant à la question de l’utilisateur. Cela signifie que les utilisateurs n’ont pas besoin de cliquer sur un site web pour obtenir la réponse qu’ils recherchent. Cela a semé la panique parmi les propriétaires de sites web et les experts en référencement qui comptent sur la génération de trafic à partir de requêtes de recherche.

Cependant, les requêtes qui déclenchent les featured snippets sont généralement des recherches de faible valeur comme « qu’est-ce que X » ou « quel temps fait-il à New York ». Quiconque souhaite obtenir des informations approfondies ou un bulletin météorologique complet continuera à cliquer, et ceux qui ne le font pas n’ont jamais eu beaucoup de valeur au départ.

Il se peut que vous trouviez que l’histoire est similaire avec les outils d’IA générative, mais vous aurez besoin de données pour le prouver.


Ne vous précipitez pas

Les propriétaires de sites web et les éditeurs sont à juste titre préoccupés par la technologie de l’IA et frustrés par l’idée que des robots utilisent leur contenu pour générer des réponses instantanées. Toutefois, ce n’est pas le moment de se précipiter dans des contre-offensives. La technologie de l’IA est un domaine en pleine évolution, et les choses continueront à évoluer rapidement. Profitez de cette occasion pour voir comment les choses se déroulent et pour analyser les menaces et les opportunités potentielles que l’IA apporte sur la table.

Le système actuel, qui consiste à s’appuyer sur le travail des créateurs de contenu pour les remplacer, n’est pas viable. Que des entreprises comme Google et OpenAI changent leur approche ou que les gouvernements introduisent de nouvelles réglementations, quelque chose doit changer. Dans le même temps, les implications négatives des chatbots d’IA sur la création de contenu deviennent de plus en plus évidentes, ce que les propriétaires de sites web et les créateurs de contenu peuvent utiliser à leur avantage.

Leave your vote

0 0 votes
Évaluation de l'article
S’abonner
Notification pour
guest
0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
Commentaires en ligne
Afficher tous les commentaires

Log In

Forgot password?

Don't have an account? Register

Forgot password?

Enter your account data and we will send you a link to reset your password.

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Here you'll find all collections you've created before.

0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x

Newsletter

inscrivez vous pour recevoir nos actualités

Actualités, astuces, bons plans et cadeaux !