Midjourney Utilise Vos Photos : Est-ce Légal ? [Guide 2026]

Tu postes une photo sur Instagram. Deux semaines plus tard, quelqu'un génère une image « dans ton style » avec Midjourney. Coïncidence ? Probablement pas. Tes photos ont été aspirées par des robots, digérées par des algorithmes, et recrachées sous forme de « créations originales ». La question qui brûle : est-ce légal ? La réponse est plus nuancée que tu ne le penses.

Comment fonctionne le scraping de vos images

Avant de parler de légalité, comprenons le mécanisme. Le scraping (ou « moissonnage ») est la collecte automatisée de données sur Internet par des robots.

Le parcours de votre photo

Publication : Tu postes ta photo sur Instagram, ton site, ou Flickr
Crawling : Des robots (GPTBot, CCBot, Meta-ExternalAgent) parcourent le web et téléchargent tout ce qu'ils trouvent
Dataset : Ta photo rejoint un dataset massif comme LAION-5B (5,8 milliards d'images)
Entraînement : Le dataset sert à entraîner Stable Diffusion, Midjourney, DALL-E...
Génération : L'IA peut maintenant créer des images « inspirées » de ton style

💡 Les chiffres du scraping en 2025

Selon Cloudflare, le trafic des crawlers IA a explosé : GPTBot est passé de 5% à 30% de part de marché entre mai 2024 et mai 2025. Le scraping pour l'entraînement représente désormais 80% de toute l'activité des bots IA.

Les principaux crawlers IA

Crawler	Entreprise	Usage	Respecte robots.txt ?
GPTBot	OpenAI	Entraînement ChatGPT/DALL-E	✅ Officiellement oui
ClaudeBot	Anthropic	Entraînement Claude	✅ Officiellement oui
CCBot	Common Crawl	Dataset open source (LAION)	⚠️ Variable
Meta-ExternalAgent	Meta	Entraînement Llama/IA Meta	⚠️ Controversé
Google-Extended	Google	Entraînement Bard/Gemini	✅ Officiellement oui

Le problème ? Selon Paul Calvano, 13,26% des requêtes IA ignorent les directives robots.txt au Q2 2025, contre seulement 3,3% fin 2024. Les règles existent, mais pas tout le monde ne les respecte.

Le cadre juridique européen : ce que dit vraiment la loi

C'est là que ça devient intéressant. L'Europe a deux textes majeurs qui encadrent le scraping : la Directive DSM (Digital Single Market) et l'AI Act.

L'exception Text and Data Mining (TDM)

La Directive DSM (2019/790) a créé deux exceptions au droit d'auteur :

Article	Qui peut l'utiliser	Conditions
Article 3	Recherche scientifique non commerciale	Accès légal au contenu
Article 4	Tout le monde (y compris commercial)	Sauf si le titulaire a fait opt-out

Traduction concrète : le scraping de tes photos pour entraîner une IA commerciale (Midjourney, Stable Diffusion) est légal par défaut en Europe... sauf si tu as explicitement refusé via un mécanisme « lisible par machine ».

⚠️ Le problème de l'opt-out

La directive exige un opt-out « par des moyens appropriés, notamment par des procédés lisibles par machine ». Mais il n'existe aucun standard harmonisé. Robots.txt ? TDMRep ? Métadonnées IPTC ? Chaque entreprise choisit ce qu'elle reconnaît — ou pas.

L'AI Act (2024) : nouvelles obligations

Selon IAPP, l'AI Act impose aux fournisseurs de modèles GPAI (General Purpose AI) :

Transparence : publier un résumé des données d'entraînement utilisées
Conformité copyright : respecter les opt-outs et l'exception TDM
Politique documentée : avoir une procédure de conformité au droit d'auteur

Les sanctions ? Jusqu'à 15 millions d'euros ou 3% du CA mondial.

Mais attention : selon Scalevise, les modèles existants (Stable Diffusion, Midjourney, DALL-E) ont jusqu'à août 2027 pour se conformer. D'ici là, le statu quo continue.

La jurisprudence récente : qui gagne les procès ?

Les tribunaux commencent à trancher. Voici les décisions clés.

Allemagne : LAION gagne contre un photographe (2024-2025)

Le photographe Robert Kneschke a poursuivi LAION pour avoir scrapé ses photos. Selon Morrison Foerster, le tribunal de Hambourg (septembre 2024) a jugé que LAION pouvait invoquer l'exception TDM de l'Article 3 (recherche scientifique non commerciale).

La Cour d'appel de Hambourg (décembre 2025) a confirmé, précisant que l'opt-out doit être « lisible par machine » pour être opposable.

💡 Ce que ça signifie pour toi

Si tes photos sont sur un site sans robots.txt bloquant CCBot, elles peuvent légalement être scrapées pour la recherche. Pour l'usage commercial, c'est plus flou — l'affaire ne portait que sur l'Article 3 (non commercial).

France : Meta attaqué par les éditeurs (2025)

Selon TechCrunch, le Syndicat national de l'édition (SNE), la SGDL et le SNAC ont assigné Meta devant le Tribunal judiciaire de Paris en mars 2025. L'accusation : violation de l'Article L.122-4 du Code de la propriété intellectuelle pour avoir utilisé des œuvres littéraires sans consentement pour entraîner ses modèles IA.

C'est le premier procès majeur IA/copyright en France. Le verdict pourrait créer un précédent pour les images.

USA : Getty vs Stability AI — résultat mitigé

Getty Images a poursuivi Stability AI pour avoir utilisé 12 millions de ses photos. Selon ABC News, le juge britannique (novembre 2025) a :

❌ Rejeté l'accusation de violation de copyright (Stable Diffusion ne « stocke » pas les images)
✅ Accepté l'accusation de violation de marque (watermarks Getty visibles dans les outputs)

Les deux parties ont revendiqué la victoire. Le droit américain du « fair use » reste un terrain de bataille.

USA : Anthropic paie 1,5 milliard $ aux auteurs

Selon IAPP, Anthropic a réglé une class action à 1,5 milliard de dollars avec des auteurs dont les livres (parfois piratés) avaient servi à entraîner Claude. Un signal que le scraping sans permission peut coûter cher.

Comment vérifier si vos photos ont été scrapées

Tu veux savoir si tes images sont dans les datasets d'entraînement ? Voici les outils disponibles.

Have I Been Trained

Have I Been Trained est un outil gratuit créé par Spawning AI qui permet de rechercher tes images dans le dataset LAION-5B (utilisé pour Stable Diffusion et Google Imagen).

Comment ça marche :

Va sur haveibeentrained.com
Upload une image ou cherche par mot-clé
Le site compare avec les 5,85 milliards d'images de LAION-5B
Si ta photo apparaît, tu peux l'ajouter au Do Not Train Registry

✅ Bonne nouvelle

Stability AI (créateur de Stable Diffusion) a promis de respecter les opt-outs du Do Not Train Registry pour Stable Diffusion 3. C'est une victoire concrète pour les artistes.

Limites de la vérification

LAION-5B seulement : Midjourney, DALL-E et d'autres utilisent des datasets propriétaires non consultables
Pas de recherche inversée complète : depuis décembre 2023, la fonction « more like this » est désactivée
Dataset gelé : LAION-5B a été temporairement retiré fin 2023 après la découverte de contenus illicites

Comment bloquer le scraping de vos images

Tu ne peux pas récupérer ce qui a déjà été scrapé, mais tu peux protéger tes futures publications.

1. Robots.txt (pour les sites web)

Le fichier robots.txt indique aux crawlers quelles pages ne pas explorer. Selon Playwire, voici comment bloquer les principaux bots IA :

# Bloquer les crawlers IA
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: PerplexityBot
Disallow: /

Statistiques : selon Paul Calvano, 5,6 millions de sites bloquent maintenant GPTBot (+70% depuis juillet 2025). CCBot est le crawler le plus bloqué parmi les 1000 sites les plus populaires.

2. Balises HTML meta

Pour plus de granularité, tu peux ajouter des balises dans le <head> de tes pages :

<!-- Bloquer l'indexation IA -->
<meta name="robots" content="noai, noimageai">

<!-- Bloquer spécifiquement GPTBot -->
<meta name="GPTBot" content="noindex, nofollow">

3. Glaze et Nightshade (pour les images)

Développés par l'Université de Chicago, ces outils modifient tes images de façon invisible à l'œil humain mais qui « perturbe » les modèles IA :

Outil	Fonction	Téléchargements
Glaze	Protège contre l'imitation de style	8,5 millions+
Nightshade	« Empoisonne » les données d'entraînement	2,5 millions+

Selon MIT Technology Review, Nightshade fonctionne ainsi : l'humain voit une vache dans un champ, mais l'IA voit « un sac à main en cuir marron avec des poches ». Entraînée sur assez d'images « empoisonnées », l'IA devient confuse.

⚠️ Limites de Glaze/Nightshade

Selon MIT Technology Review (juillet 2025), un outil appelé « LightShed » prétend pouvoir contourner ces protections. Ben Zhao, créateur de Glaze, reconnaît que c'est « une solution temporaire » — l'objectif est de créer assez d'obstacles pour que les entreprises IA préfèrent négocier avec les artistes.

4. Métadonnées IPTC et TDMRep

Pour une protection conforme à la directive DSM :

IPTC 2023.1 : ajoute un champ « Data Mining » dans les métadonnées pour préciser les droits
TDMRep : protocole standardisé de réservation de droits (fichier tdmrep.json)
C2PA : standard d'Adobe pour l'authenticité des contenus

5. Comptes privés sur les réseaux sociaux

La solution la plus simple : passer tes comptes en privé. Les crawlers ne peuvent pas scraper ce qu'ils ne peuvent pas voir. Sur Instagram, ça empêche aussi Meta d'utiliser tes posts pour entraîner ses IA (selon leurs propres CGU).

Que faire si vos photos ont déjà été scrapées ?

Mauvaise nouvelle : tu ne peux pas « désapprendre » une IA. Mais tu as quand même des recours.

Recours administratifs

Plainte CNIL : si tes données personnelles (visage) ont été traitées sans base légale
Signalement PHAROS : si le contenu généré est illicite (deepfake, diffamation)
Do Not Train Registry : pour empêcher l'utilisation future (respecté par Stability AI)

Recours juridiques

Mise en demeure : demander le retrait de tes images du dataset et du modèle
Plainte pénale : Article 226-1 du Code pénal (atteinte à la vie privée) si ton visage est concerné
Action civile : violation du droit d'auteur (L.122-4 CPI) ou droit à l'image (Art. 9 Code civil)
Class action : rejoindre une action collective (plusieurs en cours aux USA)

La solution préventive : prouver l'antériorité

Le scraping est souvent indétectable. Mais si une IA génère une image « dans ton style » ou utilisant tes éléments distinctifs, tu dois pouvoir prouver que TU es l'auteur original.

🛡️ La solution CONSENTRY

CONSENTRY te permet de certifier tes photos avec un horodatage RFC 3161 avant de les publier. Tu obtiens :

Une empreinte cryptographique unique (SHA-256, pHash)
Un certificat d'antériorité avec présomption de validité (eIDAS Art. 41)
Une documentation de tes droits opposable juridiquement

Si une entreprise IA utilise tes images sans permission, tu as la preuve que tu possédais l'original AVANT le scraping.

Certifie tes images maintenant →

Questions fréquentes

Le scraping de mes photos est-il légal en France ?

Oui, par défaut — grâce à l'exception TDM de la Directive DSM (Article 4). C'est légal sauf si tu as fait un opt-out explicite par des moyens « lisibles par machine » (robots.txt, métadonnées). Sans opt-out technique, ton refus verbal ou dans tes CGU n'est pas opposable.

Midjourney et Stable Diffusion ont-ils utilisé mes photos ?

Probablement, si tes photos étaient publiques sur Internet. Stable Diffusion utilise LAION-5B (5,8 milliards d'images scrapées). Midjourney ne révèle pas ses sources, mais utilise vraisemblablement des datasets similaires. Tu peux vérifier sur Have I Been Trained pour LAION-5B.

Est-il trop tard pour bloquer le scraping ?

Pour le passé, oui. Les modèles déjà entraînés ne peuvent pas « oublier » tes images (sauf réentraînement complet). Mais tu peux protéger tes futures publications avec robots.txt, Glaze/Nightshade, et le Do Not Train Registry.

Puis-je poursuivre Midjourney ou Stable Diffusion ?

C'est possible mais complexe :

Tu dois prouver que TES images spécifiques ont été utilisées
Tu dois démontrer un préjudice (difficile si l'IA ne reproduit pas tes images à l'identique)
Les entreprises sont souvent basées aux USA (juridiction différente)
Les class actions en cours (Getty, artistes) pourraient créer des précédents

Avoir une preuve d'antériorité certifiée renforce considérablement ta position.

Que va changer l'AI Act ?

À partir d'août 2025 (nouveaux modèles) et août 2027 (modèles existants), les fournisseurs d'IA devront :

Publier un résumé de leurs données d'entraînement
Respecter les opt-outs de la directive DSM
Avoir une politique de conformité au copyright documentée

Les sanctions peuvent atteindre 15 millions € ou 3% du CA mondial.

Ce qu'il faut retenir

Le scraping de tes photos par les IA génératives est légal par défaut en Europe, grâce à l'exception TDM. La seule protection efficace est l'opt-out technique (robots.txt, métadonnées, Glaze).

Les procès en cours pourraient changer la donne, mais d'ici là :

Vérifie si tes photos sont dans LAION-5B via Have I Been Trained
Bloque les crawlers IA avec robots.txt et les balises meta
Protège tes nouvelles images avec Glaze/Nightshade
Certifie tes photos avec CONSENTRY pour prouver ton antériorité
Inscris-toi au Do Not Train Registry de Spawning

Le Far West du scraping IA ne durera pas éternellement. Mais en attendant que les tribunaux et l'AI Act clarifient les règles, ta meilleure arme reste la preuve vérifiable de tes droits.

Sources : Cloudflare, IAPP, Morrison Foerster, TechCrunch, Glaze Project, Have I Been Trained, MIT Technology Review