Consentement et IA : Pourquoi la Loi Ne Vous Protège Plus [2026]

Tu pensais que le RGPD te protégeait ? Que ton « droit à l'image » empêchait qu'on utilise ta photo sans permission ? J'ai une mauvaise nouvelle : pendant que tu lisais les CGU d'Instagram (non, tu ne les as pas lues), des entreprises ont aspiré 5,8 milliards d'images pour entraîner leurs IA. Ta photo de profil est probablement dedans. Et légalement ? C'est le Far West.

5,8 milliards d'images : l'ampleur du scraping

Commençons par les chiffres, parce qu'ils donnent le vertige.

Stable Diffusion, l'un des générateurs d'images IA les plus populaires, a été entraîné sur le dataset LAION-5B. Selon une analyse de Waxy.org, ce dataset contient 5,8 milliards de paires image-texte — une collection massive scrapée directement depuis Internet.

D'où viennent ces images ?

Une analyse tierce sur un échantillon de 12 millions d'images révèle :

Pinterest : 8,5% de l'échantillon, soit environ 155 millions d'images
Shopify : 2,4%, soit 140 millions de photos de produits
47% des images proviennent de seulement 100 domaines
Le reste : Flickr, WordPress, DeviantArt, et... tes réseaux sociaux

⚠️ Le coût de l'entraînement : 600 000 $

Selon Wikipedia, Stable Diffusion a été entraîné sur 256 GPU Nvidia A100 pendant 150 000 heures, pour un coût de 600 000 dollars. Ces GPU ont digéré TES photos pour créer un modèle qui vaut aujourd'hui des milliards.

Et LAION-5B n'est pas un cas isolé. Midjourney, DALL-E, Adobe Firefly... tous ont leurs propres datasets, souvent encore plus opaques.

Pourquoi le consentement traditionnel ne fonctionne plus

Le droit français est clair : selon l'Article 9 du Code civil, tu as un droit exclusif sur ton image. Personne ne peut l'utiliser sans ton consentement explicite.

Sauf que ce consentement était pensé pour un monde où :

Un photographe te demandait de signer une autorisation
Un magazine t'envoyait un contrat avant publication
Tu pouvais identifier QUI utilisait ta photo et POURQUOI

Aujourd'hui ?

Le problème de l'échelle

Comment donner ton consentement quand :

5,8 milliards d'images sont traitées en quelques semaines
Tu ne sais même pas que ta photo est dans le dataset
Aucun humain ne regarde ces images — ce sont des robots qui scrapent
Les entreprises sont basées aux États-Unis, hors juridiction européenne

💡 Le cas Clearview AI : l'exemple qui fait froid dans le dos

Clearview AI a aspiré plus de 3 milliards de photos depuis les réseaux sociaux pour créer une base de reconnaissance faciale. La CNIL l'a mis en demeure et plusieurs pays européens ont infligé des amendes (jusqu'à 30,5 millions d'euros en Italie). Mais les photos sont toujours dans leur système.

Le consentement « enfoui » dans les CGU

Quand tu postes sur Instagram, tu acceptes des conditions qui permettent à Meta d'utiliser tes contenus. Selon l'ONG noyb (none of your business), Meta a annoncé en mai 2025 qu'il utiliserait les données des utilisateurs européens pour entraîner ses modèles IA — sans demander de consentement explicite, en se basant sur un prétendu « intérêt légitime ».

Le vide juridique entre RGPD et AI Act

On nous vend le RGPD comme le bouclier ultime de la vie privée. L'AI Act comme la régulation qui va tout changer. La réalité est plus nuancée.

Ce que dit le RGPD

Principe RGPD	Application à l'IA	Problème pratique
Consentement explicite	Requis pour traiter des données personnelles	Les entreprises invoquent « l'intérêt légitime »
Droit à l'effacement	Tu peux demander la suppression de tes données	Impossible de « désapprendre » une IA entraînée
Droit d'opposition	Tu peux refuser l'utilisation de tes données	Le mal est fait AVANT que tu saches
Transparence	Les entreprises doivent informer	Les datasets sont souvent opaques

La position ambiguë de la CNIL (juin 2025)

Selon les recommandations de la CNIL publiées le 19 juin 2025, l'entraînement de modèles IA sur des données personnelles issues de sources publiques peut être licite sous certaines conditions, en utilisant la base légale de « l'intérêt légitime ».

Traduction : si une entreprise peut démontrer que son « intérêt légitime » à entraîner son IA l'emporte sur tes droits fondamentaux, elle peut utiliser tes photos sans te demander. La CNIL admet que c'est « licite sous certaines conditions ».

⚠️ L'EDPB va encore plus loin (août 2025)

Selon CSO Online, le Comité européen de la protection des données (EDPB) a indiqué être « ouvert à potentiellement autoriser les données personnelles, sans le consentement du propriétaire, pour entraîner des modèles, tant que l'application finale ne révèle pas ces informations privées. »

Ce que promet l'AI Act (2026)

L'AI Act européen, applicable progressivement depuis août 2025, impose :

Divulgation des sources : les entreprises doivent révéler d'où viennent leurs données d'entraînement
Respect des opt-outs : obligation de vérifier si un contenu a une réservation de droits
Étiquetage : les contenus générés par IA doivent être marqués comme tels

Les sanctions peuvent atteindre 30 millions d'euros ou 6% du chiffre d'affaires mondial. C'est dissuasif sur le papier.

Mais selon Scalevise, les obligations de conformité aux droits d'auteur pour les modèles GPAI ne s'appliquent pleinement qu'en août 2025 pour les nouveaux modèles — et août 2027 pour les modèles existants. Stable Diffusion, Midjourney et DALL-E ont deux ans de répit.

Pourquoi le « droit à l'oubli » est quasi impossible avec l'IA

C'est peut-être le point le plus troublant de cette situation. Tu découvres que ta photo a servi à entraîner une IA. Tu veux exercer ton droit à l'effacement prévu par le RGPD. Bonne chance.

Le problème technique

Selon We Demain : « Un modèle d'IA ne peut pas "désapprendre" une information déjà intégrée. » L'oubli de tes données passe de la simple suppression d'une ligne dans un tableau à une opération s'approchant plus de la neurochirurgie sur des « cerveaux » artificiels.

Selon Cercle K2, isoler exactement l'impact d'une donnée sur un modèle est aussi coûteux que de réentraîner le modèle de zéro. Pour Stable Diffusion, ça représente 600 000 dollars et des centaines de tonnes de CO2.

💡 Le « Deep Unlearning » : une piste de recherche

Selon The Conversation, le « deep unlearning » est un domaine émergent qui vise à permettre aux IA d'effacer sélectivement des informations. Google et JPMorgan Chase s'y intéressent. Mais aucune application industrielle n'a été rendue publique à ce jour.

La position réaliste de la CNIL

Selon la CNIL, « l'exercice des droits sur le modèle d'IA lui-même présente des difficultés particulières et inédites. Cela doit conduire à l'adoption de solutions réalistes et proportionnées. » Traduction : on ne peut pas forcer les entreprises à faire l'impossible.

En pratique : une fois que tes données sont dans un modèle, elles y restent.

L'opt-out : une solution bancale

« Mais je peux refuser ! » Oui, tu peux techniquement t'opposer à l'utilisation de tes données. Voici comment — et pourquoi c'est souvent insuffisant.

Les options d'opt-out par plateforme

Meta (Instagram, Facebook)

Selon Metricool, tu peux :

Aller dans les paramètres de ton profil
Accéder au « Centre de confidentialité »
Cliquer sur le lien « opposer » et remplir le formulaire

Problème : ça ne s'applique qu'aux futurs contenus. Ce qui a déjà été scrapé est perdu.

OpenAI (ChatGPT)

Dans les paramètres : Settings → Data controls → décocher « Chat history & training ». Pour bloquer le crawler GPTBot sur ton site : modifier le fichier robots.txt.

Solutions techniques pour les sites web

Selon le Cabinet TLMR Avocats :

robots.txt : indique aux robots quelles pages ne pas explorer
Balises HTML : noindex, noarchive, noai, noimageai
Métadonnées IPTC : champ « Data Mining » pour préciser les droits
TDMRep : protocole standardisé de réservation de droits

Les limites de l'opt-out

Limite	Conséquence
Non rétroactif	Les contenus déjà absorbés ne peuvent pas être retirés
Pas de standard universel	Chaque plateforme a sa propre procédure
Aucune obligation légale	Rien ne force les entreprises à respecter robots.txt
Complexité technique	Inaccessible pour le commun des mortels

⚠️ La vérité qui fait mal

Selon Protégez-Vous : « Les politiques reliées à l'utilisation de photos peuvent varier dans le temps, et rien ne force les entreprises à respecter les mécanismes d'opt-out. Si vous tenez vraiment à ce que des photos ne soient pas utilisées, la meilleure solution consiste à les effacer. »

Les procès en cours : qu'est-ce qu'on peut en attendre ?

Plusieurs batailles juridiques majeures sont en cours. Leurs résultats pourraient redéfinir les règles du jeu.

Getty Images vs Stability AI

Getty Images accuse Stability AI d'avoir utilisé illégalement 12 millions de ses photos protégées pour entraîner Stable Diffusion. Selon PetaPixel, Getty demande 1,8 trillion de dollars de dommages.

Verdict UK (novembre 2025) : selon ABC News, le juge a rejeté l'argument de Getty sur la violation de copyright, estimant que Stable Diffusion « ne stocke ni ne reproduit aucune œuvre protégée ». Cependant, Getty a gagné sur la question de la violation de marque (watermarks distordus dans les outputs).

Disney/Universal vs Midjourney

Selon Jones Walker, Disney et Universal ont déposé une plainte de 110 pages contre Midjourney, l'accusant d'être « le quintessence du free-rider du copyright et un puits sans fond de plagiat ». La plainte inclut des dizaines d'exemples d'images générées représentant Darth Vader, Homer Simpson, Shrek et les Minions.

Class action des artistes

Selon Artnet News, des artistes visuels ont déposé une action collective contre Stability AI, Midjourney et DeviantArt en janvier 2023. En août 2024, le tribunal a rejeté plusieurs demandes mais a maintenu les accusations de contrefaçon directe et d'incitation à la contrefaçon.

Anthropic : un règlement à 1,5 milliard

Selon IAPP, Anthropic a accepté de payer 1,5 milliard de dollars pour régler une class action d'auteurs qui accusaient la société d'avoir utilisé des copies piratées de leurs livres pour entraîner Claude.

Comment te protéger concrètement ?

Face à ce Far West juridique, tu n'es pas totalement démuni. Voici les stratégies qui fonctionnent — par ordre d'efficacité.

1. Limiter l'exposition de tes photos

Passer tes comptes en privé (empêche le scraping public)
Réduire la résolution des images publiées
Ajouter des filigranes visibles

2. Utiliser des outils anti-IA

Selon Pixsy, des outils comme Glaze ou Nightshade (développés par l'Université de Chicago) modifient subtilement les images de façon invisible à l'œil humain mais qui « perturbent » les modèles IA.

3. Créer une preuve d'antériorité

C'est là que la situation devient intéressante. Si tu ne peux pas empêcher le scraping, tu peux au moins prouver que tu es l'auteur original de tes images.

L'horodatage certifié RFC 3161, conforme au règlement eIDAS (Article 41), crée une preuve d'antériorité avec présomption de validité. Ça ne te protège pas du scraping, mais ça te donne une arme juridique si une IA génère des images basées sur les tiennes.

🛡️ La solution CONSENTRY

CONSENTRY te permet de certifier tes photos avec un horodatage RFC 3161 via DigiCert. Chaque image reçoit une empreinte cryptographique (SHA-256, pHash) et un certificat d'antériorité opposable juridiquement.

En cas de litige avec une entreprise d'IA, tu peux prouver que :

Tu possédais l'image AVANT qu'elle soit scrapée
Tu n'as jamais consenti à son utilisation pour l'entraînement
Ton consentement (ou son absence) est documenté de façon vérifiable

Protège tes images maintenant →

4. Activer tous les opt-outs disponibles

Même si c'est imparfait, c'est mieux que rien :

Formulaire d'opposition Meta
Paramètres ChatGPT : Data controls
Fichier robots.txt sur ton site avec directive GPTBot, CCBot, etc.

Questions fréquentes

L'IA a-t-elle le droit d'utiliser mes photos ?

En théorie, non — pas sans ton consentement ou une base légale valide. En pratique, les entreprises invoquent « l'intérêt légitime » pour justifier le scraping de données publiques. La CNIL a reconnu que cette approche peut être licite sous certaines conditions, ce qui crée une zone grise.

Comment savoir si mes photos ont été scrapées ?

C'est quasi impossible à vérifier. Les datasets comme LAION-5B ne sont pas facilement consultables. Tu peux utiliser Have I Been Trained? pour chercher dans certains datasets, mais la couverture est partielle.

Puis-je faire supprimer mes données d'un modèle IA ?

Techniquement, c'est quasi impossible. Une fois qu'un modèle est entraîné, isoler et supprimer l'influence d'une image spécifique coûterait aussi cher que de réentraîner le modèle entier. La CNIL reconnaît ces « difficultés particulières et inédites ».

Quels recours si je découvre mes photos dans une IA ?

Tu peux :

Déposer une plainte auprès de la CNIL (gratuit)
Envoyer une mise en demeure à l'entreprise
Rejoindre une class action si tu es aux États-Unis
Saisir le juge des référés pour faire cesser l'utilisation (coûteux)

Dans tous les cas, avoir une preuve d'antériorité certifiée renforce considérablement ta position.

Que va changer l'AI Act en 2026 ?

L'AI Act impose la transparence sur les sources de données et le respect des opt-outs. Mais les modèles existants (Stable Diffusion, Midjourney, DALL-E) ont jusqu'à août 2027 pour se conformer. D'ici là, le statu quo continue.

Ce qu'il faut retenir

La vérité qui pique : le consentement tel qu'on le connaissait est mort. Le RGPD et l'AI Act offrent des protections théoriques, mais face à 5,8 milliards d'images scrapées et l'impossibilité technique du « désapprentissage », les recours sont limités.

Ce que tu peux faire :

Accepter que le scraping passé est fait — tes photos publiques sont probablement dans des datasets
Limiter l'exposition future — comptes privés, opt-outs, outils anti-IA
Créer une trace vérifiable — certifier tes images avec CONSENTRY pour avoir une preuve juridique opposable
Suivre les évolutions juridiques — les procès en cours pourraient changer la donne

Le Far West de l'IA ne durera pas éternellement. Mais en attendant que la loi rattrape la technologie, la meilleure protection reste de documenter tes droits de façon vérifiable.

Sources : CNIL - Fiches pratiques IA, Waxy.org, noyb, We Demain, Scalevise, IAPP, Pixsy