Laisser l'IA apprendre : une position éthique

2025-04-02 00:31:53 +02:00
parent 9649f26e6f
commit b9af94ebbd
3 changed files with 216 additions and 0 deletions
--- a/content/interets/informatique/2025/04/02/laisser-l-ia-apprendre-une-position-ethique/data/images/header.yaml
+++ b/content/interets/informatique/2025/04/02/laisser-l-ia-apprendre-une-position-ethique/data/images/header.yaml
@@ -0,0 +1,4 @@
+title: "Illustration de l'article"
+attribution: "ChatGPT 4o"
+#description: ""
+prompt: "This digital illustration showcases an AI concept featuring a glowing, neon-green neural network resembling a brain, set against a dark, textured, circuit-inspired backdrop. A simplified neon-green laptop sits to the left, with the entire composition emphasizing clean lines, modern minimalism, and a glow effect that highlights the neural network and its connections."
--- a/content/interets/informatique/2025/04/02/laisser-l-ia-apprendre-une-position-ethique/images/header.png
+++ b/content/interets/informatique/2025/04/02/laisser-l-ia-apprendre-une-position-ethique/images/header.png
--- a/content/interets/informatique/2025/04/02/laisser-l-ia-apprendre-une-position-ethique/index.md
+++ b/content/interets/informatique/2025/04/02/laisser-l-ia-apprendre-une-position-ethique/index.md
@@ -0,0 +1,212 @@
+---
+title: "Laisser l'IA apprendre : une position éthique"
+date: 2025-04-02T00:21:05+02:00
+cover: "images/header.png"
+---
+
+## Introduction
+
+Je constate ces derniers mois une augmentation de la fréquence des appels au blocage des robots de diverses entreprises (en particulier OpenAI ou Anthropic).
+Cela me fait réagir et sortir un peu de ma torpeur sur le sujet de l'[informatique](/interets/informatique/), que je n'ai plus traité depuis près d'un an.
+
+Alors que j'étais initialement [très hostile](/interets/informatique/2023/08/16/reflexion-ia-et-licences/) aux pratiques effectives ou supposées de ces entreprises, et à l'usage fait des données collectées (notamment leur transformation ou leur réutilisation), j'ai fini par devenir un utilisateur relativement [convaincu](/interets/informatique/2024/03/10/j-ai-pris-un-abonnement-a-chatgpt/) de ChatGPT.
+
+Dans le présent article, je souhaite interroger la pratique du blocage de l'IA, ses intentions et ses conséquences, tant techniques qu'éthiques.
+Mon expérience personnelle m'a conduit à réévaluer [certains arguments](/interets/informatique/2023/05/26/reflexion-ia-et-moteurs-de-recherche/) que j'ai pu invoquer par le passé, tandis que d'[autres](/interets/informatique/2022/12/24/l-ia-pose-la-question-de-l-identite/) sont toujours valides (et le resteront sûrement).
+
+J'espère donc apporter une réflexion plus nuancée et moins sanguine que d'habitude.
+
+## Le phénomène du blocage : d’où vient-il ?
+
+Depuis plusieurs mois, une vague de tutoriels, de billets de blog et même de solutions clé en main visent à bloquer les robots d'indexation des modèles d'intelligence artificielle.
+Ces initiatives ciblent spécifiquement les bots des entreprises les plus en vue dans ce domaine.
+
+Le principe est simple : empêcher ces robots d'accéder aux contenus disponibles publiquement, au même titre qu'on empêche déjà certains [spiders](https://fr.wikipedia.org/wiki/Robot_d%27indexation) malveillants ou [scrapers](https://fr.wikipedia.org/wiki/Web_scraping) agressifs.
+Les méthodes couramment proposées incluent :
+
+- Modification du fichier `robots.txt`
+
+Cette approche est détaillée dans des articles tels que celui de [Velcomeseo.fr](https://velcomeseo.fr/blog-seo/pourquoi-et-comment-bloquer-lacces-de-chatgpt-a-son-site).
+Il est intéressant de noter que ce lien m'a été proposé par ChatGPT.
+
+Cette méthode est connue depuis longtemps et utilisée avec plus ou moins de succès.
+On compte ici sur la bonne foi du robot (et surtout, de ses créateurs) qui peut totalement ou partiellement ignorer le fichier `robots.txt` placé à la racine du site concerné.
+
+- Configuration du serveur web
+
+L'utilisation de fichiers de configuration comme `.htaccess` pour les serveurs Apache permet de bloquer des `User-Agents` spécifiques.
+Ethersys propose un [guide](https://www.ethersys.fr/actualites/20240918-bloquer-les-bots-ia/) assez détaillé pour y parvenir.
+
+- Utilisation de pare-feu applicatifs (_WAF_)
+
+Des services comme Cloudflare offrent des [fonctionnalités](https://blog.cloudflare.com/fr-fr/declaring-your-aindependence-block-ai-bots-scrapers-and-crawlers-with-a-single-click/) pour <q>bloquer facilement les bots IA en un clic</q>.
+
+- Pare-feu réseau
+
+Pour ceux qui auto-hébergent chez eux (comme moi), il est également possible de bloquer les robots au niveau du réseau, par exemple en _blacklistant_ les adresses IP de ces robots.
+
+---
+
+Ces pratiques s'inscrivent dans un réflexe ancien : celui de se protéger contre l’aspiration automatisée de contenu.
+Le scraping est aussi vieux qu’internet lui-même, mais il a longtemps été perçu comme un outil technique neutre — utilisé autant pour le référencement, la veille, que pour des pratiques moins éthiques.
+Ce n’est que récemment, avec la montée en puissance des IA génératives, que l’aspiration de contenu public est (re)devenue, dans l’esprit de beaucoup (dont je fais encore plus ou moins partie), une menace à la fois économique, morale et identitaire.
+
+Il n’est donc pas étonnant de voir resurgir, dans un contexte de défiance généralisée, ces méthodes pour bloquer des robots qui ne demandent pas toujours la permission.
+
+## Mon rapport personnel à l’IA : de la méfiance à l’usage réfléchi
+
+Je ne suis pas arrivé à ce sujet par enthousiasme.
+Mon premier réflexe, face aux IA génératives, a été le rejet.
+Je voyais dans ces outils une forme d’appropriation illégitime des productions humaines, un détournement à grande échelle du contenu librement partagé — en particulier lorsque les modèles d’IA se montraient incapables de citer leurs sources ou restituaient des propos imprécis, voire fallacieux.
+
+Mes inquiétudes n’étaient pas que théoriques : elles touchaient autant au droit d’auteur qu’à la transformation des usages numériques.
+L’IA me semblait amplifier les tendances déjà observées sur le web — banalisation du contenu médiocre, effacement des auteurs, centralisation du savoir.
+
+Ce rejet s’est toutefois heurté à l’expérience.
+À mesure que je testais ces outils, j’ai découvert une autre facette : celle de l’IA comme outil, au sens strict.
+Non pas une menace en soi, mais un accélérateur d’usages — bon ou mauvais selon l’intention de l’utilisateur.
+Progressivement, j’ai commencé à utiliser ChatGPT dans un cadre personnel, puis technique, et aussi intellectuel.
+L’outil s’est révélé plus robuste, plus nuancé, plus utile que je ne le supposais.
+
+Ce changement ne signifie pas que je souscris à tout.
+Je reste sceptique sur les modèles économiques, les choix techniques, l’opacité des jeux de données et l’incapacité chronique à garantir la traçabilité des sources.
+Mais j’ai cessé de voir l’IA comme un parasite, pour commencer à la considérer comme une sorte de bibliothèque aveugle : elle répond sans toujours pouvoir dire d’où vient l’information, mais elle répond — souvent bien.
+
+C’est à partir de ce parcours, et non d’une posture idéologique, que j’interroge aujourd’hui la logique du blocage.
+
+## Pourquoi se pose-t-on cette question ?
+
+Dans l’absolu, bloquer ou non les robots d’IA ne devrait pas être un dilemme existentiel.
+Ce n’est, techniquement, qu’une ligne dans un fichier `robots.txt`, une règle de pare-feu ou un filtre sur le `User-Agent`.
+Pourtant, la multiplication des articles sur le sujet, fréquemment épidermiques, trahit une inquiétude plus profonde.
+Il ne s’agit pas seulement de technique, mais de confiance : envers les IA, envers les entreprises qui les développent, et plus généralement envers l’idée même de partage à l’ère numérique.
+
+Les motivations affichées pour bloquer les IA sont variées :
+
+- éviter que son contenu soit réutilisé sans consentement,
+- empêcher l’entraînement de modèles commerciaux à partir de données gratuites,
+- lutter contre la perte de visibilité (l’IA répond à la place du moteur de recherche, sans rediriger l’utilisateur),
+- et plus généralement, reprendre le contrôle sur la circulation de sa production intellectuelle.
+
+Mais la question mérite d’être retournée : <q>Pourquoi autoriser les humains à accéder à un contenu et pas une machine ?</q>
+L’intention reste la même : lire, comprendre, transmettre.
+La différence, souvent invoquée, est que l’humain peut citer, contextualiser, interagir — tandis que l’IA est accusée d’absorber sans reconnaissance, de synthétiser sans paternité, de trahir la neutralité du propos.
+
+Ce grief est réel, quoique l'on se doit de constater des progrès.
+La plupart des IA génératives, aujourd’hui, ne citent pas leurs sources de manière systématique, ni même vérifiable.
+On leur reproche de s’approprier sans créditer.
+Mais on pourrait tout aussi bien retourner ce reproche vers une majorité d’internautes qui, chaque jour, copient, collent, résument ou paraphrasent sans jamais faire référence.
+Si l’IA a une faute, c’est surtout celle de _l’échelle_.
+
+Enfin, se pose une autre question, plus gênante : <q>Pourquoi se bat-on pour interdire l’accès à une machine, alors qu’on laisse librement n’importe quel humain — bien ou mal intentionné — consulter ce même contenu ?</q>
+
+## Les limites techniques du blocage
+
+Même en supposant qu’il soit légitime de bloquer les IA, encore faut-il que ce blocage fonctionne.
+Or, d’un point de vue purement technique, il est illusoire de croire que l’on peut réellement empêcher un robot déterminé d’accéder à un contenu publié sur le web.
+
+La plupart des méthodes proposées reposent sur l’identification du robot, généralement à travers son `User-Agent`.
+Mais rien n’oblige un _scraper_ à s’annoncer honnêtement.
+N’importe quel script peut se faire passer pour un navigateur classique, ou usurper l’identité d’un robot bienveillant.
+Certains vont plus loin encore, en combinant rotation d’adresses IP, contournement des captchas, usage de navigateurs headless ou d’infrastructures distribuées (CDN, proxy, cloud).
+
+Aucune de ces techniques n'est fondamentalement malveillante.
+Au contraire : sans elles, il serait impossible d'avoir le web que l'on connait aujourd'hui.
+
+Le fichier `robots.txt`, lui, repose entièrement sur la bonne foi de l’explorateur.
+C’est un accord de façade, un pacte moral sans pouvoir contraignant.
+Les robots qui respectent ce fichier sont, justement, les plus respectueux — autrement dit, ceux qu’on devrait peut-être éviter de bloquer si l’on veut préserver une relation de confiance.
+
+Autre donnée souvent ignorée : la majorité du trafic web est déjà générée par des bots.
+Selon [différentes](https://web.developpez.com/actu/359598/Les-bots-representent-42-pourcent-du-trafic-web-mondial-en-2024-et-les-deux-tiers-sont-malveillants-ils-menent-des-actions-de-Web-scraping-qui-ont-un-impact-majeur-sur-le-e-commerce-selon-une-etude-d-Akamai/) [estimations](https://www.thalesgroup.com/fr/monde/securite/press_release/bots-representent-desormais-pres-moitie-du-trafic-internet-mondial) [récentes](https://www.techzine.eu/news/infrastructure/130039/bots-now-generate-majority-web-traffic/), près de la moitié du trafic mondial n’est pas humain, avec une part croissante de bots dits « bons » (indexation, surveillance, sécurité) et une part majoritaire de bots malveillants (scraping abusif, attaque par déni de service, etc.).
+Le web est déjà massivement exploré par des machines.
+Ce que change l’IA, **c’est moins le volume que la finalité** de cette exploration.
+
+En somme, bloquer une poignée de robots identifiables revient à poser un verrou sur une porte restée grande ouverte.
+On protège l’intention visible, mais on ne fait rien contre les méthodes opaques.
+C’est un geste symbolique, pas une stratégie de protection sérieuse.
+
+## L’impasse éthique du blocage
+
+L'argument technique a ses limites.
+Mais c’est surtout sur le plan éthique que le blocage pose problème.
+Si votre contenu est pensé pour être lu, compris, partagé, alors le refuser à une IA revient à en restreindre l'accès à une forme d’intelligence qui, justement, pourrait le rendre utile à d’autres.
+
+On peut débattre des modèles économiques, critiquer l’opacité des jeux de données ou les usages faits des contenus aspirés.
+Mais à la base, il faut rappeler une chose : **une IA ne lit pas pour elle-même**.
+**Elle lit pour nous**.
+Son objectif, sa fonction, sa raison d’être, c’est de transformer un savoir existant en une réponse intelligible à une question posée par un humain.
+
+**Refuser cette lecture, c’est donc refuser la transmission.**
+
+Et ce refus a un effet pervers évident : les contenus les plus riches, nuancés ou utiles sont souvent ceux qu’on bloque, au nom de leur valeur, de leur qualité ou de leur effort de création, tandis que les contenus générés à la chaîne, approximatifs, orientés SEO ou produits par des fermes à clics, restent disponibles — et donc scrappés.
+Ce qui revient à nourrir l’IA avec ce qu’il y a de pire, puis à s’indigner de ses réponses.
+
+Autrement dit : en bloquant, on favorise l’appauvrissement de l’outil censé nous aider à mieux comprendre.
+**On introduit un biais par appauvrissement** : seuls les contenus laissés libres, souvent les moins exigeants, sont utilisés.
+Et les meilleurs deviennent invisibles — ou réservés aux humains, à condition qu’ils aient le lien.
+
+Il ne s’agit pas de naïveté.
+L’IA n’est pas neutre.
+Ses réponses peuvent être biaisées, mal formulées, mal comprises.
+Mais la seule manière d’améliorer cette situation, c’est de **lui fournir un contenu de qualité, pas de l’en priver**.
+
+La tentation du blocage est compréhensible.
+Mais elle revient à punir l’outil pour les abus de ses concepteurs.
+Ce n’est pas seulement inefficace : c’est une erreur stratégique, et une **faute intellectuelle**.
+
+## Et la question des licences ?
+
+L’un des arguments les plus courants pour justifier le blocage des bots d’IA concerne la protection juridique du contenu.
+On avance que, si une page est placée sous une licence spécifique — qu’elle soit restrictive, commerciale, ou simplement [Creative Commons](https://creativecommons.org) avec mention obligatoire — alors toute ingestion par une IA constitue une violation de cette licence.
+
+C’est un sujet sérieux, et je ne le minimise pas.
+J’y ai d’ailleurs consacré [un article entier](/interets/informatique/2023/08/16/reflexion-ia-et-licences/), dans lequel je détaille les tensions entre scraping, droit d’auteur, et usages dérivés.
+Mais dans le cadre présent, il faut prendre un peu de recul : les licences ne sont pas des murs techniques, ce sont des cadres légaux.
+Et ce que l’on cherche à bloquer ici n’est pas une exploitation commerciale ou une reproduction abusive : c’est une simple lecture automatisée.
+
+Un contenu sous licence restrictive reste protégé, que le robot (ou un humain) le lise ou non.
+Le fait d’empêcher en amont un accès technique n’est pas forcément plus dissuasif qu’une licence explicite — et cela déplace le problème vers la sphère de la surveillance, du filtrage, et de la méfiance généralisée.
+
+En d’autres termes : si l’objectif est juridique, alors utilisons les outils juridiques.
+Bloquer un bot ne garantit rien, et ne protège pas mieux.
+Ce n’est pas parce qu’un scraper ne voit pas votre `robots.txt` qu’il est dans son droit.
+Et ce n’est pas parce qu’il le respecte qu’il est automatiquement légitime.
+
+À vouloir contrôler l’accès, on risque d’oublier l’essentiel : **le cadre légal existe déjà, et il est plus robuste qu’une règle de pare-feu**, même en prenant en compte le "flou juridique".
+
+Cela dit, je ne méconnais pas les contraintes techniques qui pèsent sur les créateurs de contenu.
+Quand on héberge son site soi-même, sur une connexion domestique (c'est encore mon cas), chaque requête compte, même quand on a la fibre optique.
+L’arrivée d’un robot d’IA peut engendrer un pic de trafic non négligeable, parfois difficile à filtrer proprement sans outillage adapté (inspection de paquets, IDS, limiteurs de débit…).
+
+Mais là encore, il faut garder en tête que ce type de trafic est omniprésent, et que l’immense majorité des bots qui sollicitent un site personnel ne sont pas des IA.
+Il s’agit souvent de crawlers commerciaux, de scrapers peu discrets, ou d’activités malveillantes bien plus consommatrices de ressources.
+Se focaliser sur les IA visibles, c’est risquer de négliger ce qui ronge réellement l’infrastructure.
+
+## Conclusion : laisser les IA lire, pour mieux nous servir
+
+Nous n’avons pas attendu les IA pour nous faire scraper.
+Le web est un espace d’accès, pas un coffre-fort.
+C’est à la fois sa force et sa fragilité.
+Depuis les débuts d’internet, nous savons que publier en ligne, c’est rendre visible.
+Et que cette visibilité est exploitée, transformée, parfois trahie.
+Rien de nouveau.
+
+Ce qui change aujourd’hui, c’est que ces lectures automatisées peuvent déboucher sur une synthèse utile, produite par une machine, mais destinée à un humain.
+Et c’est précisément là que se pose le choix : souhaitons-nous que cette synthèse s’appuie sur du contenu riche, nuancé, humainement réfléchi ?
+Ou préférons-nous qu’elle se nourrisse exclusivement de contenus creux, standardisés, souvent générés eux-mêmes par des machines ?
+
+En bloquant les IA, on ne les empêche pas d’exister.
+On ne les stoppe pas.
+On les redirige.
+Vers autre chose.
+Vers ailleurs.
+Et bien souvent, vers moins bien.
+**C’est une forme de nivellement par le bas** que l’on provoque soi-même, au nom d’une protection symbolique.
+
+Je ne prétends pas que l’IA soit neutre, ni que son usage soit toujours acceptable.
+Je dis simplement que si l’on veut qu’elle nous soit utile, alors **elle doit pouvoir apprendre de ce que nous faisons de mieux**.
+Et si ce que je publie peut servir, ne serait-ce qu’en partie, à rendre ses réponses plus fiables, plus humaines, plus pertinentes, alors je préfère qu’elle le lise.
+
+Laisser les IA apprendre, ce n’est pas renoncer à ses droits.
+C’est choisir de **contribuer à l’intelligence collective**, sous toutes ses formes.