1

Laisser l'IA apprendre : une position éthique

This commit is contained in:
2025-04-02 00:31:53 +02:00
parent 9649f26e6f
commit b9af94ebbd
3 changed files with 216 additions and 0 deletions

View File

@@ -0,0 +1,4 @@
title: "Illustration de l'article"
attribution: "ChatGPT 4o"
#description: ""
prompt: "This digital illustration showcases an AI concept featuring a glowing, neon-green neural network resembling a brain, set against a dark, textured, circuit-inspired backdrop. A simplified neon-green laptop sits to the left, with the entire composition emphasizing clean lines, modern minimalism, and a glow effect that highlights the neural network and its connections."

Binary file not shown.

After

Width:  |  Height:  |  Size: 2.0 MiB

View File

@@ -0,0 +1,212 @@
---
title: "Laisser l'IA apprendre : une position éthique"
date: 2025-04-02T00:21:05+02:00
cover: "images/header.png"
---
## Introduction
Je constate ces derniers mois une augmentation de la fréquence des appels au blocage des robots de diverses entreprises (en particulier OpenAI ou Anthropic).
Cela me fait réagir et sortir un peu de ma torpeur sur le sujet de l'[informatique](/interets/informatique/), que je n'ai plus traité depuis près d'un an.
Alors que j'étais initialement [très hostile](/interets/informatique/2023/08/16/reflexion-ia-et-licences/) aux pratiques effectives ou supposées de ces entreprises, et à l'usage fait des données collectées (notamment leur transformation ou leur réutilisation), j'ai fini par devenir un utilisateur relativement [convaincu](/interets/informatique/2024/03/10/j-ai-pris-un-abonnement-a-chatgpt/) de ChatGPT.
Dans le présent article, je souhaite interroger la pratique du blocage de l'IA, ses intentions et ses conséquences, tant techniques qu'éthiques.
Mon expérience personnelle m'a conduit à réévaluer [certains arguments](/interets/informatique/2023/05/26/reflexion-ia-et-moteurs-de-recherche/) que j'ai pu invoquer par le passé, tandis que d'[autres](/interets/informatique/2022/12/24/l-ia-pose-la-question-de-l-identite/) sont toujours valides (et le resteront sûrement).
J'espère donc apporter une réflexion plus nuancée et moins sanguine que d'habitude.
## Le phénomène du blocage : doù vient-il ?
Depuis plusieurs mois, une vague de tutoriels, de billets de blog et même de solutions clé en main visent à bloquer les robots d'indexation des modèles d'intelligence artificielle.
Ces initiatives ciblent spécifiquement les bots des entreprises les plus en vue dans ce domaine.
Le principe est simple : empêcher ces robots d'accéder aux contenus disponibles publiquement, au même titre qu'on empêche déjà certains [spiders](https://fr.wikipedia.org/wiki/Robot_d%27indexation) malveillants ou [scrapers](https://fr.wikipedia.org/wiki/Web_scraping) agressifs.
Les méthodes couramment proposées incluent :
- Modification du fichier `robots.txt`
Cette approche est détaillée dans des articles tels que celui de [Velcomeseo.fr](https://velcomeseo.fr/blog-seo/pourquoi-et-comment-bloquer-lacces-de-chatgpt-a-son-site).
Il est intéressant de noter que ce lien m'a été proposé par ChatGPT.
Cette méthode est connue depuis longtemps et utilisée avec plus ou moins de succès.
On compte ici sur la bonne foi du robot (et surtout, de ses créateurs) qui peut totalement ou partiellement ignorer le fichier `robots.txt` placé à la racine du site concerné.
- Configuration du serveur web
L'utilisation de fichiers de configuration comme `.htaccess` pour les serveurs Apache permet de bloquer des `User-Agents` spécifiques.
Ethersys propose un [guide](https://www.ethersys.fr/actualites/20240918-bloquer-les-bots-ia/) assez détaillé pour y parvenir.
- Utilisation de pare-feu applicatifs (_WAF_)
Des services comme Cloudflare offrent des [fonctionnalités](https://blog.cloudflare.com/fr-fr/declaring-your-aindependence-block-ai-bots-scrapers-and-crawlers-with-a-single-click/) pour <q>bloquer facilement les bots IA en un clic</q>.
- Pare-feu réseau
Pour ceux qui auto-hébergent chez eux (comme moi), il est également possible de bloquer les robots au niveau du réseau, par exemple en _blacklistant_ les adresses IP de ces robots.
---
Ces pratiques s'inscrivent dans un réflexe ancien : celui de se protéger contre laspiration automatisée de contenu.
Le scraping est aussi vieux quinternet lui-même, mais il a longtemps été perçu comme un outil technique neutre — utilisé autant pour le référencement, la veille, que pour des pratiques moins éthiques.
Ce nest que récemment, avec la montée en puissance des IA génératives, que laspiration de contenu public est (re)devenue, dans lesprit de beaucoup (dont je fais encore plus ou moins partie), une menace à la fois économique, morale et identitaire.
Il nest donc pas étonnant de voir resurgir, dans un contexte de défiance généralisée, ces méthodes pour bloquer des robots qui ne demandent pas toujours la permission.
## Mon rapport personnel à lIA : de la méfiance à lusage réfléchi
Je ne suis pas arrivé à ce sujet par enthousiasme.
Mon premier réflexe, face aux IA génératives, a été le rejet.
Je voyais dans ces outils une forme dappropriation illégitime des productions humaines, un détournement à grande échelle du contenu librement partagé — en particulier lorsque les modèles dIA se montraient incapables de citer leurs sources ou restituaient des propos imprécis, voire fallacieux.
Mes inquiétudes nétaient pas que théoriques : elles touchaient autant au droit dauteur quà la transformation des usages numériques.
LIA me semblait amplifier les tendances déjà observées sur le web — banalisation du contenu médiocre, effacement des auteurs, centralisation du savoir.
Ce rejet sest toutefois heurté à lexpérience.
À mesure que je testais ces outils, jai découvert une autre facette : celle de lIA comme outil, au sens strict.
Non pas une menace en soi, mais un accélérateur dusages — bon ou mauvais selon lintention de lutilisateur.
Progressivement, jai commencé à utiliser ChatGPT dans un cadre personnel, puis technique, et aussi intellectuel.
Loutil sest révélé plus robuste, plus nuancé, plus utile que je ne le supposais.
Ce changement ne signifie pas que je souscris à tout.
Je reste sceptique sur les modèles économiques, les choix techniques, lopacité des jeux de données et lincapacité chronique à garantir la traçabilité des sources.
Mais jai cessé de voir lIA comme un parasite, pour commencer à la considérer comme une sorte de bibliothèque aveugle : elle répond sans toujours pouvoir dire doù vient linformation, mais elle répond — souvent bien.
Cest à partir de ce parcours, et non dune posture idéologique, que jinterroge aujourdhui la logique du blocage.
## Pourquoi se pose-t-on cette question ?
Dans labsolu, bloquer ou non les robots dIA ne devrait pas être un dilemme existentiel.
Ce nest, techniquement, quune ligne dans un fichier `robots.txt`, une règle de pare-feu ou un filtre sur le `User-Agent`.
Pourtant, la multiplication des articles sur le sujet, fréquemment épidermiques, trahit une inquiétude plus profonde.
Il ne sagit pas seulement de technique, mais de confiance : envers les IA, envers les entreprises qui les développent, et plus généralement envers lidée même de partage à lère numérique.
Les motivations affichées pour bloquer les IA sont variées :
- éviter que son contenu soit réutilisé sans consentement,
- empêcher lentraînement de modèles commerciaux à partir de données gratuites,
- lutter contre la perte de visibilité (lIA répond à la place du moteur de recherche, sans rediriger lutilisateur),
- et plus généralement, reprendre le contrôle sur la circulation de sa production intellectuelle.
Mais la question mérite dêtre retournée : <q>Pourquoi autoriser les humains à accéder à un contenu et pas une machine ?</q>
Lintention reste la même : lire, comprendre, transmettre.
La différence, souvent invoquée, est que lhumain peut citer, contextualiser, interagir — tandis que lIA est accusée dabsorber sans reconnaissance, de synthétiser sans paternité, de trahir la neutralité du propos.
Ce grief est réel, quoique l'on se doit de constater des progrès.
La plupart des IA génératives, aujourdhui, ne citent pas leurs sources de manière systématique, ni même vérifiable.
On leur reproche de sapproprier sans créditer.
Mais on pourrait tout aussi bien retourner ce reproche vers une majorité dinternautes qui, chaque jour, copient, collent, résument ou paraphrasent sans jamais faire référence.
Si lIA a une faute, cest surtout celle de _léchelle_.
Enfin, se pose une autre question, plus gênante : <q>Pourquoi se bat-on pour interdire laccès à une machine, alors quon laisse librement nimporte quel humain — bien ou mal intentionné — consulter ce même contenu ?</q>
## Les limites techniques du blocage
Même en supposant quil soit légitime de bloquer les IA, encore faut-il que ce blocage fonctionne.
Or, dun point de vue purement technique, il est illusoire de croire que lon peut réellement empêcher un robot déterminé daccéder à un contenu publié sur le web.
La plupart des méthodes proposées reposent sur lidentification du robot, généralement à travers son `User-Agent`.
Mais rien noblige un _scraper_ à sannoncer honnêtement.
Nimporte quel script peut se faire passer pour un navigateur classique, ou usurper lidentité dun robot bienveillant.
Certains vont plus loin encore, en combinant rotation dadresses IP, contournement des captchas, usage de navigateurs headless ou dinfrastructures distribuées (CDN, proxy, cloud).
Aucune de ces techniques n'est fondamentalement malveillante.
Au contraire : sans elles, il serait impossible d'avoir le web que l'on connait aujourd'hui.
Le fichier `robots.txt`, lui, repose entièrement sur la bonne foi de lexplorateur.
Cest un accord de façade, un pacte moral sans pouvoir contraignant.
Les robots qui respectent ce fichier sont, justement, les plus respectueux — autrement dit, ceux quon devrait peut-être éviter de bloquer si lon veut préserver une relation de confiance.
Autre donnée souvent ignorée : la majorité du trafic web est déjà générée par des bots.
Selon [différentes](https://web.developpez.com/actu/359598/Les-bots-representent-42-pourcent-du-trafic-web-mondial-en-2024-et-les-deux-tiers-sont-malveillants-ils-menent-des-actions-de-Web-scraping-qui-ont-un-impact-majeur-sur-le-e-commerce-selon-une-etude-d-Akamai/) [estimations](https://www.thalesgroup.com/fr/monde/securite/press_release/bots-representent-desormais-pres-moitie-du-trafic-internet-mondial) [récentes](https://www.techzine.eu/news/infrastructure/130039/bots-now-generate-majority-web-traffic/), près de la moitié du trafic mondial nest pas humain, avec une part croissante de bots dits « bons » (indexation, surveillance, sécurité) et une part majoritaire de bots malveillants (scraping abusif, attaque par déni de service, etc.).
Le web est déjà massivement exploré par des machines.
Ce que change lIA, **cest moins le volume que la finalité** de cette exploration.
En somme, bloquer une poignée de robots identifiables revient à poser un verrou sur une porte restée grande ouverte.
On protège lintention visible, mais on ne fait rien contre les méthodes opaques.
Cest un geste symbolique, pas une stratégie de protection sérieuse.
## Limpasse éthique du blocage
L'argument technique a ses limites.
Mais cest surtout sur le plan éthique que le blocage pose problème.
Si votre contenu est pensé pour être lu, compris, partagé, alors le refuser à une IA revient à en restreindre l'accès à une forme dintelligence qui, justement, pourrait le rendre utile à dautres.
On peut débattre des modèles économiques, critiquer lopacité des jeux de données ou les usages faits des contenus aspirés.
Mais à la base, il faut rappeler une chose : **une IA ne lit pas pour elle-même**.
**Elle lit pour nous**.
Son objectif, sa fonction, sa raison dêtre, cest de transformer un savoir existant en une réponse intelligible à une question posée par un humain.
**Refuser cette lecture, cest donc refuser la transmission.**
Et ce refus a un effet pervers évident : les contenus les plus riches, nuancés ou utiles sont souvent ceux quon bloque, au nom de leur valeur, de leur qualité ou de leur effort de création, tandis que les contenus générés à la chaîne, approximatifs, orientés SEO ou produits par des fermes à clics, restent disponibles — et donc scrappés.
Ce qui revient à nourrir lIA avec ce quil y a de pire, puis à sindigner de ses réponses.
Autrement dit : en bloquant, on favorise lappauvrissement de loutil censé nous aider à mieux comprendre.
**On introduit un biais par appauvrissement** : seuls les contenus laissés libres, souvent les moins exigeants, sont utilisés.
Et les meilleurs deviennent invisibles — ou réservés aux humains, à condition quils aient le lien.
Il ne sagit pas de naïveté.
LIA nest pas neutre.
Ses réponses peuvent être biaisées, mal formulées, mal comprises.
Mais la seule manière daméliorer cette situation, cest de **lui fournir un contenu de qualité, pas de len priver**.
La tentation du blocage est compréhensible.
Mais elle revient à punir loutil pour les abus de ses concepteurs.
Ce nest pas seulement inefficace : cest une erreur stratégique, et une **faute intellectuelle**.
## Et la question des licences ?
Lun des arguments les plus courants pour justifier le blocage des bots dIA concerne la protection juridique du contenu.
On avance que, si une page est placée sous une licence spécifique — quelle soit restrictive, commerciale, ou simplement [Creative Commons](https://creativecommons.org) avec mention obligatoire — alors toute ingestion par une IA constitue une violation de cette licence.
Cest un sujet sérieux, et je ne le minimise pas.
Jy ai dailleurs consacré [un article entier](/interets/informatique/2023/08/16/reflexion-ia-et-licences/), dans lequel je détaille les tensions entre scraping, droit dauteur, et usages dérivés.
Mais dans le cadre présent, il faut prendre un peu de recul : les licences ne sont pas des murs techniques, ce sont des cadres légaux.
Et ce que lon cherche à bloquer ici nest pas une exploitation commerciale ou une reproduction abusive : cest une simple lecture automatisée.
Un contenu sous licence restrictive reste protégé, que le robot (ou un humain) le lise ou non.
Le fait dempêcher en amont un accès technique nest pas forcément plus dissuasif quune licence explicite — et cela déplace le problème vers la sphère de la surveillance, du filtrage, et de la méfiance généralisée.
En dautres termes : si lobjectif est juridique, alors utilisons les outils juridiques.
Bloquer un bot ne garantit rien, et ne protège pas mieux.
Ce nest pas parce quun scraper ne voit pas votre `robots.txt` quil est dans son droit.
Et ce nest pas parce quil le respecte quil est automatiquement légitime.
À vouloir contrôler laccès, on risque doublier lessentiel : **le cadre légal existe déjà, et il est plus robuste quune règle de pare-feu**, même en prenant en compte le "flou juridique".
Cela dit, je ne méconnais pas les contraintes techniques qui pèsent sur les créateurs de contenu.
Quand on héberge son site soi-même, sur une connexion domestique (c'est encore mon cas), chaque requête compte, même quand on a la fibre optique.
Larrivée dun robot dIA peut engendrer un pic de trafic non négligeable, parfois difficile à filtrer proprement sans outillage adapté (inspection de paquets, IDS, limiteurs de débit…).
Mais là encore, il faut garder en tête que ce type de trafic est omniprésent, et que limmense majorité des bots qui sollicitent un site personnel ne sont pas des IA.
Il sagit souvent de crawlers commerciaux, de scrapers peu discrets, ou dactivités malveillantes bien plus consommatrices de ressources.
Se focaliser sur les IA visibles, cest risquer de négliger ce qui ronge réellement linfrastructure.
## Conclusion : laisser les IA lire, pour mieux nous servir
Nous navons pas attendu les IA pour nous faire scraper.
Le web est un espace daccès, pas un coffre-fort.
Cest à la fois sa force et sa fragilité.
Depuis les débuts dinternet, nous savons que publier en ligne, cest rendre visible.
Et que cette visibilité est exploitée, transformée, parfois trahie.
Rien de nouveau.
Ce qui change aujourdhui, cest que ces lectures automatisées peuvent déboucher sur une synthèse utile, produite par une machine, mais destinée à un humain.
Et cest précisément là que se pose le choix : souhaitons-nous que cette synthèse sappuie sur du contenu riche, nuancé, humainement réfléchi ?
Ou préférons-nous quelle se nourrisse exclusivement de contenus creux, standardisés, souvent générés eux-mêmes par des machines ?
En bloquant les IA, on ne les empêche pas dexister.
On ne les stoppe pas.
On les redirige.
Vers autre chose.
Vers ailleurs.
Et bien souvent, vers moins bien.
**Cest une forme de nivellement par le bas** que lon provoque soi-même, au nom dune protection symbolique.
Je ne prétends pas que lIA soit neutre, ni que son usage soit toujours acceptable.
Je dis simplement que si lon veut quelle nous soit utile, alors **elle doit pouvoir apprendre de ce que nous faisons de mieux**.
Et si ce que je publie peut servir, ne serait-ce quen partie, à rendre ses réponses plus fiables, plus humaines, plus pertinentes, alors je préfère quelle le lise.
Laisser les IA apprendre, ce nest pas renoncer à ses droits.
Cest choisir de **contribuer à lintelligence collective**, sous toutes ses formes.