Droit

Consentement et IA : Pourquoi la Loi Ne Vous Protège Plus [2026]

5,8 milliards d'images scrapées pour entraîner Stable Diffusion, sans aucun consentement. Le RGPD et l'AI Act sont-ils vraiment efficaces ? Analyse du vide juridique et des solutions qui existent.

C
CONSENTRY
Équipe éditoriale
21 janvier 2026
14 min de lecture
consentementintelligence-artificiellergpdai-actscrapingstable-diffusionmidjourneydroit-oubliopt-outlaion

Tu pensais que le RGPD te protégeait ? Que ton « droit à l'image » empêchait qu'on utilise ta photo sans permission ? J'ai une mauvaise nouvelle : pendant que tu lisais les CGU d'Instagram (non, tu ne les as pas lues), des entreprises ont aspiré 5,8 milliards d'images pour entraîner leurs IA. Ta photo de profil est probablement dedans. Et légalement ? C'est le Far West.

5,8 milliards d'images : l'ampleur du scraping

Commençons par les chiffres, parce qu'ils donnent le vertige.

Stable Diffusion, l'un des générateurs d'images IA les plus populaires, a été entraîné sur le dataset LAION-5B. Selon une analyse de Waxy.org, ce dataset contient 5,8 milliards de paires image-texte — une collection massive scrapée directement depuis Internet.

D'où viennent ces images ?

Une analyse tierce sur un échantillon de 12 millions d'images révèle :

  • Pinterest : 8,5% de l'échantillon, soit environ 155 millions d'images
  • Shopify : 2,4%, soit 140 millions de photos de produits
  • 47% des images proviennent de seulement 100 domaines
  • Le reste : Flickr, WordPress, DeviantArt, et... tes réseaux sociaux

⚠️ Le coût de l'entraînement : 600 000 $

Selon Wikipedia, Stable Diffusion a été entraîné sur 256 GPU Nvidia A100 pendant 150 000 heures, pour un coût de 600 000 dollars. Ces GPU ont digéré TES photos pour créer un modèle qui vaut aujourd'hui des milliards.

Et LAION-5B n'est pas un cas isolé. Midjourney, DALL-E, Adobe Firefly... tous ont leurs propres datasets, souvent encore plus opaques.

Pourquoi le consentement traditionnel ne fonctionne plus

Le droit français est clair : selon l'Article 9 du Code civil, tu as un droit exclusif sur ton image. Personne ne peut l'utiliser sans ton consentement explicite.

Sauf que ce consentement était pensé pour un monde où :

  • Un photographe te demandait de signer une autorisation
  • Un magazine t'envoyait un contrat avant publication
  • Tu pouvais identifier QUI utilisait ta photo et POURQUOI

Aujourd'hui ?

Le problème de l'échelle

Comment donner ton consentement quand :

  • 5,8 milliards d'images sont traitées en quelques semaines
  • Tu ne sais même pas que ta photo est dans le dataset
  • Aucun humain ne regarde ces images — ce sont des robots qui scrapent
  • Les entreprises sont basées aux États-Unis, hors juridiction européenne

💡 Le cas Clearview AI : l'exemple qui fait froid dans le dos

Clearview AI a aspiré plus de 3 milliards de photos depuis les réseaux sociaux pour créer une base de reconnaissance faciale. La CNIL l'a mis en demeure et plusieurs pays européens ont infligé des amendes (jusqu'à 30,5 millions d'euros en Italie). Mais les photos sont toujours dans leur système.

Le consentement « enfoui » dans les CGU

Quand tu postes sur Instagram, tu acceptes des conditions qui permettent à Meta d'utiliser tes contenus. Selon l'ONG noyb (none of your business), Meta a annoncé en mai 2025 qu'il utiliserait les données des utilisateurs européens pour entraîner ses modèles IA — sans demander de consentement explicite, en se basant sur un prétendu « intérêt légitime ».

Le vide juridique entre RGPD et AI Act

On nous vend le RGPD comme le bouclier ultime de la vie privée. L'AI Act comme la régulation qui va tout changer. La réalité est plus nuancée.

Ce que dit le RGPD

Principe RGPD Application à l'IA Problème pratique
Consentement explicite Requis pour traiter des données personnelles Les entreprises invoquent « l'intérêt légitime »
Droit à l'effacement Tu peux demander la suppression de tes données Impossible de « désapprendre » une IA entraînée
Droit d'opposition Tu peux refuser l'utilisation de tes données Le mal est fait AVANT que tu saches
Transparence Les entreprises doivent informer Les datasets sont souvent opaques

La position ambiguë de la CNIL (juin 2025)

Selon les recommandations de la CNIL publiées le 19 juin 2025, l'entraînement de modèles IA sur des données personnelles issues de sources publiques peut être licite sous certaines conditions, en utilisant la base légale de « l'intérêt légitime ».

Traduction : si une entreprise peut démontrer que son « intérêt légitime » à entraîner son IA l'emporte sur tes droits fondamentaux, elle peut utiliser tes photos sans te demander. La CNIL admet que c'est « licite sous certaines conditions ».

⚠️ L'EDPB va encore plus loin (août 2025)

Selon CSO Online, le Comité européen de la protection des données (EDPB) a indiqué être « ouvert à potentiellement autoriser les données personnelles, sans le consentement du propriétaire, pour entraîner des modèles, tant que l'application finale ne révèle pas ces informations privées. »

Ce que promet l'AI Act (2026)

L'AI Act européen, applicable progressivement depuis août 2025, impose :

  • Divulgation des sources : les entreprises doivent révéler d'où viennent leurs données d'entraînement
  • Respect des opt-outs : obligation de vérifier si un contenu a une réservation de droits
  • Étiquetage : les contenus générés par IA doivent être marqués comme tels

Les sanctions peuvent atteindre 30 millions d'euros ou 6% du chiffre d'affaires mondial. C'est dissuasif sur le papier.

Mais selon Scalevise, les obligations de conformité aux droits d'auteur pour les modèles GPAI ne s'appliquent pleinement qu'en août 2025 pour les nouveaux modèles — et août 2027 pour les modèles existants. Stable Diffusion, Midjourney et DALL-E ont deux ans de répit.

Pourquoi le « droit à l'oubli » est quasi impossible avec l'IA

C'est peut-être le point le plus troublant de cette situation. Tu découvres que ta photo a servi à entraîner une IA. Tu veux exercer ton droit à l'effacement prévu par le RGPD. Bonne chance.

Le problème technique

Selon We Demain : « Un modèle d'IA ne peut pas "désapprendre" une information déjà intégrée. » L'oubli de tes données passe de la simple suppression d'une ligne dans un tableau à une opération s'approchant plus de la neurochirurgie sur des « cerveaux » artificiels.

Selon Cercle K2, isoler exactement l'impact d'une donnée sur un modèle est aussi coûteux que de réentraîner le modèle de zéro. Pour Stable Diffusion, ça représente 600 000 dollars et des centaines de tonnes de CO2.

💡 Le « Deep Unlearning » : une piste de recherche

Selon The Conversation, le « deep unlearning » est un domaine émergent qui vise à permettre aux IA d'effacer sélectivement des informations. Google et JPMorgan Chase s'y intéressent. Mais aucune application industrielle n'a été rendue publique à ce jour.

La position réaliste de la CNIL

Selon la CNIL, « l'exercice des droits sur le modèle d'IA lui-même présente des difficultés particulières et inédites. Cela doit conduire à l'adoption de solutions réalistes et proportionnées. » Traduction : on ne peut pas forcer les entreprises à faire l'impossible.

En pratique : une fois que tes données sont dans un modèle, elles y restent.

L'opt-out : une solution bancale

« Mais je peux refuser ! » Oui, tu peux techniquement t'opposer à l'utilisation de tes données. Voici comment — et pourquoi c'est souvent insuffisant.

Les options d'opt-out par plateforme

Meta (Instagram, Facebook)

Selon Metricool, tu peux :

  1. Aller dans les paramètres de ton profil
  2. Accéder au « Centre de confidentialité »
  3. Cliquer sur le lien « opposer » et remplir le formulaire

Problème : ça ne s'applique qu'aux futurs contenus. Ce qui a déjà été scrapé est perdu.

OpenAI (ChatGPT)

Dans les paramètres : Settings → Data controls → décocher « Chat history & training ». Pour bloquer le crawler GPTBot sur ton site : modifier le fichier robots.txt.

Solutions techniques pour les sites web

Selon le Cabinet TLMR Avocats :

  • robots.txt : indique aux robots quelles pages ne pas explorer
  • Balises HTML : noindex, noarchive, noai, noimageai
  • Métadonnées IPTC : champ « Data Mining » pour préciser les droits
  • TDMRep : protocole standardisé de réservation de droits

Les limites de l'opt-out

Limite Conséquence
Non rétroactif Les contenus déjà absorbés ne peuvent pas être retirés
Pas de standard universel Chaque plateforme a sa propre procédure
Aucune obligation légale Rien ne force les entreprises à respecter robots.txt
Complexité technique Inaccessible pour le commun des mortels

⚠️ La vérité qui fait mal

Selon Protégez-Vous : « Les politiques reliées à l'utilisation de photos peuvent varier dans le temps, et rien ne force les entreprises à respecter les mécanismes d'opt-out. Si vous tenez vraiment à ce que des photos ne soient pas utilisées, la meilleure solution consiste à les effacer. »

Les procès en cours : qu'est-ce qu'on peut en attendre ?

Plusieurs batailles juridiques majeures sont en cours. Leurs résultats pourraient redéfinir les règles du jeu.

Getty Images vs Stability AI

Getty Images accuse Stability AI d'avoir utilisé illégalement 12 millions de ses photos protégées pour entraîner Stable Diffusion. Selon PetaPixel, Getty demande 1,8 trillion de dollars de dommages.

Verdict UK (novembre 2025) : selon ABC News, le juge a rejeté l'argument de Getty sur la violation de copyright, estimant que Stable Diffusion « ne stocke ni ne reproduit aucune œuvre protégée ». Cependant, Getty a gagné sur la question de la violation de marque (watermarks distordus dans les outputs).

Disney/Universal vs Midjourney

Selon Jones Walker, Disney et Universal ont déposé une plainte de 110 pages contre Midjourney, l'accusant d'être « le quintessence du free-rider du copyright et un puits sans fond de plagiat ». La plainte inclut des dizaines d'exemples d'images générées représentant Darth Vader, Homer Simpson, Shrek et les Minions.

Class action des artistes

Selon Artnet News, des artistes visuels ont déposé une action collective contre Stability AI, Midjourney et DeviantArt en janvier 2023. En août 2024, le tribunal a rejeté plusieurs demandes mais a maintenu les accusations de contrefaçon directe et d'incitation à la contrefaçon.

Anthropic : un règlement à 1,5 milliard

Selon IAPP, Anthropic a accepté de payer 1,5 milliard de dollars pour régler une class action d'auteurs qui accusaient la société d'avoir utilisé des copies piratées de leurs livres pour entraîner Claude.

Comment te protéger concrètement ?

Face à ce Far West juridique, tu n'es pas totalement démuni. Voici les stratégies qui fonctionnent — par ordre d'efficacité.

1. Limiter l'exposition de tes photos

  • Passer tes comptes en privé (empêche le scraping public)
  • Réduire la résolution des images publiées
  • Ajouter des filigranes visibles

2. Utiliser des outils anti-IA

Selon Pixsy, des outils comme Glaze ou Nightshade (développés par l'Université de Chicago) modifient subtilement les images de façon invisible à l'œil humain mais qui « perturbent » les modèles IA.

3. Créer une preuve d'antériorité

C'est là que la situation devient intéressante. Si tu ne peux pas empêcher le scraping, tu peux au moins prouver que tu es l'auteur original de tes images.

L'horodatage certifié RFC 3161, conforme au règlement eIDAS (Article 41), crée une preuve d'antériorité avec présomption de validité. Ça ne te protège pas du scraping, mais ça te donne une arme juridique si une IA génère des images basées sur les tiennes.

🛡️ La solution CONSENTRY

CONSENTRY te permet de certifier tes photos avec un horodatage RFC 3161 via DigiCert. Chaque image reçoit une empreinte cryptographique (SHA-256, pHash) et un certificat d'antériorité opposable juridiquement.

En cas de litige avec une entreprise d'IA, tu peux prouver que :

  • Tu possédais l'image AVANT qu'elle soit scrapée
  • Tu n'as jamais consenti à son utilisation pour l'entraînement
  • Ton consentement (ou son absence) est documenté de façon vérifiable

Protège tes images maintenant →

4. Activer tous les opt-outs disponibles

Même si c'est imparfait, c'est mieux que rien :

Questions fréquentes

L'IA a-t-elle le droit d'utiliser mes photos ?

En théorie, non — pas sans ton consentement ou une base légale valide. En pratique, les entreprises invoquent « l'intérêt légitime » pour justifier le scraping de données publiques. La CNIL a reconnu que cette approche peut être licite sous certaines conditions, ce qui crée une zone grise.

Comment savoir si mes photos ont été scrapées ?

C'est quasi impossible à vérifier. Les datasets comme LAION-5B ne sont pas facilement consultables. Tu peux utiliser Have I Been Trained? pour chercher dans certains datasets, mais la couverture est partielle.

Puis-je faire supprimer mes données d'un modèle IA ?

Techniquement, c'est quasi impossible. Une fois qu'un modèle est entraîné, isoler et supprimer l'influence d'une image spécifique coûterait aussi cher que de réentraîner le modèle entier. La CNIL reconnaît ces « difficultés particulières et inédites ».

Quels recours si je découvre mes photos dans une IA ?

Tu peux :

  1. Déposer une plainte auprès de la CNIL (gratuit)
  2. Envoyer une mise en demeure à l'entreprise
  3. Rejoindre une class action si tu es aux États-Unis
  4. Saisir le juge des référés pour faire cesser l'utilisation (coûteux)

Dans tous les cas, avoir une preuve d'antériorité certifiée renforce considérablement ta position.

Que va changer l'AI Act en 2026 ?

L'AI Act impose la transparence sur les sources de données et le respect des opt-outs. Mais les modèles existants (Stable Diffusion, Midjourney, DALL-E) ont jusqu'à août 2027 pour se conformer. D'ici là, le statu quo continue.


Ce qu'il faut retenir

La vérité qui pique : le consentement tel qu'on le connaissait est mort. Le RGPD et l'AI Act offrent des protections théoriques, mais face à 5,8 milliards d'images scrapées et l'impossibilité technique du « désapprentissage », les recours sont limités.

Ce que tu peux faire :

  1. Accepter que le scraping passé est fait — tes photos publiques sont probablement dans des datasets
  2. Limiter l'exposition future — comptes privés, opt-outs, outils anti-IA
  3. Créer une trace vérifiablecertifier tes images avec CONSENTRY pour avoir une preuve juridique opposable
  4. Suivre les évolutions juridiques — les procès en cours pourraient changer la donne

Le Far West de l'IA ne durera pas éternellement. Mais en attendant que la loi rattrape la technologie, la meilleure protection reste de documenter tes droits de façon vérifiable.


Sources : CNIL - Fiches pratiques IA, Waxy.org, noyb, We Demain, Scalevise, IAPP, Pixsy

Articles liés

Protégez vos images dès maintenant

Ne laissez pas vos photos être utilisées sans votre consentement. CONSENTRY vous permet de créer une preuve horodatée et certifiée de vos droits.