Trainen van generatieve AI en auteursrecht: – Stand van zaken Europese rechtspraak anno 2025
In deze blog bespreken wij o.m. een tweetal recente uitspraken in Duitsland en het Verenigd Koninkrijk over de vraag of men met het trainen van generatieve AI-modellen door middel van zogeheten ‘memorisatie’ auteursrechtinbreuk pleegt.
Met dank aan mr. Rik Groteboer.
Welke rol spelen auteursrechten bij het trainen van een AI-model?
Auteursrechtelijk bezien zijn er aan de inputkant – bij het trainen van AI-modellen - twee vragen relevant:
- 1) is er sprake van een ‘zuivere’ training van het AI-model op basis van de tekst- en datamining (TDM)-uitzondering in het auteursrecht zonder dat er (vervolg)kopieën in het model worden opgeslagen en zonder dat er in de output kopieën worden ‘uitgespuugd/opgehoest’?
- 2) is er sprake van zogeheten ‘memorisatie’ waarbij permanente kopieën in een AI-model worden opgeslagen?
In de Duitse kwestie GEMA/ OpenAI staan de Duitse artiesten Helene Fischer (bekend van het nummer Atemlos) en Reinhard Mey (Über den Wolken) centraal. GEMA is de belangenorganisatie van Duitse artiesten (vergelijkbaar met BumaStemra) en stelt dat OpenAI inbreuk maakt op hun auteursrechten. Wat bleek: gebruikers van de populaire chatbot ChatGPT (OpenAI) konden door middel van korte prompts complete songteksten opvragen. GEMA was van mening dat deze output inbreuk maakte op de auteursrechten en dat er sprake was van een onderliggende verveelvoudiging in het AI-model zelf. De rechtbank in München gaf GEMA gelijk.
Een week voor de uitspraak van de Duitse rechter in GEMA v. OpenAI verscheen een uitspraak in Engeland in de zaak Getty Images v. Stability AI. Hierin oordeelde de rechter dat het AI-model van Stability AI géén kopie is of bevat. Nu deze uitspraak Engels recht betreft en aan deze zaak andere aspecten kleefden is het de vraag of deze Engelse uitspraak bredere betekenis heeft voor de EU. De EU – waarvan Engeland geen deel meer uitmaakt – kent immers een ander juridisch auteursrechtelijk kader.
In de Duitse zaak Kneschke v. LAION is eerder al bevestigd dat het voorbereiden van datasets die bestaan uit auteursrechtelijk beschermde werken, met als uiteindelijke doel dat daarmee AI-systemen worden getraind, op grond van de TDM-uitzondering is toegestaan (mits aan de wettelijke voorwaarden is voldaan). In hoger beroep oordeelde de Duitse rechter eind 2025 hetzelfde.
In dat geval werd het auteursrechtelijk beschermde materiaal niet opgeslagen in het AI-model, maar werd slechts onbeschermde informatie uit het auteursrechtelijk beschermde materiaal gehaald. Deze onbeschermde informatie werd vervolgens in parameters van het model vastgelegd. Om die reden vond de rechter dat deze werkwijze is toegestaan onder de TDM- exceptie. Omwille van de innovatie moet het ‘zuivere’ trainen op grond van de TDM-exceptie mogelijk zijn. De uitspraak in OpenAI/GEMA bevestigt daarnaast dat trainen van AI-modellen met behulp van auteursrechtelijk beschermd materiaal mag zolang er geen permanente kopieën in het AI-model worden opgeslagen.
Alvorens wij deze uitspraken nader bespreken volgt hierna eerst een toelichting op generatieve AI en auteursrechtelijke aspecten aan de inputkant.
Waar komt de ophef over auteursrechten aan de inputkant van (generatieve) AI-systemen vandaan?
Sinds de opkomst van (generatieve) AI-systemen is de samenleving ingrijpend veranderd. De nieuwheid van deze technologie brengt daarom voor veel organisaties (rechts)onzekerheid met zich mee over wat wel en niet is toegestaan. Wij volgen de juridische ontwikkelingen rondom (generatieve) AI daarom op de voet en bloggen daar regelmatig over in deze blogreeks. Deze laagdrempelige blogreeks is bij uitstek geschikt voor organisaties die op welke manier dan ook te maken hebben met AI-systemen, en die geïnteresseerd zijn naar hoe deze zich verhouden tot het geldende recht.
In deze blog leggen wij uit hoe het trainen van generatieve AI-systemen (zoals ChatGPT) zich verhoudt tot het auteursrecht. Dit onderwerp zorgt al jaren voor discussie, vooral in de creatieve en nieuwssector. Hoewel deze vraag nog grotendeels onbeantwoord blijft, zijn er wel aanwijzingen dat zonder toestemming trainen van generatieve AI-systemen op beschermd materiaal, inderdaad tot auteursrechtinbreuk zou kunnen leiden. Deze analyse is met name relevant voor organisaties die AI-systemen trainen, rechthebbenden, en bedrijven die willen begrijpen welke risico’s gelden bij het gebruik van generatieve AI.
Generatieve AI en auteursrechten aan de inputkant
Mocht u deze reeks al langer volgen, herinnert u zich wellicht nog een eerdere blog over de vraag of AI-bedrijven inbreuk maken op auteursrechten, wanneer zij beschermd materiaal gebruiken om hun modellen te trainen. Deze blog is hier te vinden.
Daar bespraken wij de inputkant van generatieve AI. Wanneer een organisatie auteursrechtelijk beschermd materiaal wil gebruiken om een model mee te trainen, dan kan dat niet zomaar, want er is dan sprake van een zogeheten ‘verveelvoudiging’ van dat materiaal. Daarvoor is toestemming van de auteursrechthebbende nodig, want anders is er sprake van auteursrechtinbreuk, tenzij de wet in een uitzondering voorziet. Lange tijd werd aangenomen (zie ook onze vorige blog) dat generatieve AI-aanbieders zich konden beroepen op de TDM-uitzondering. In de praktijk zou dit toch genuanceerder kunnen liggen.
Wat is tekst- en datamining? (TDM)
De TDM-uitzondering ziet op het toestaan van technische processen om (grote hoeveelheden) data te analyseren, óók al is deze data auteursrechtelijk beschermd. Er moet dan uiteraard wel aan de overige voorwaarden om zich rechtsgeldig te kunnen beroepen op de TDM-uitzondering worden voldaan. Zie daarover onze eerdere blog. Kortgezegd voorziet deze uitzondering in de mogelijkheid om automatisch gegevens te analyseren en hieruit nieuwe informatie te genereren, zoals onderlinge patronen en verbanden.
Dat lijkt nauw aan te sluiten bij de techniek achter veel generatieve AI-modellen. Zo’n model analyseert ook trainingsdata, waaruit deze vervolgens patronen herkent. Op basis van deze gevonden patronen (‘dit woord wordt gebruikt in die context’, ‘na duizend afbeeldingen van een kat, weet ik hoe deze eruit ziet’), kan het model output genereren die aansluit bij een opdracht die de gebruiker geeft.
Verhouding tussen TDM en generatieve AI
Als het voor generatieve AI-modellen enkel bleef bij patronen op het niveau van ‘hoe ziet een kat er ongeveer uit’, dan zou de TDM-uitzondering van toepassing kunnen zijn (als verder ook aan alle voorwaarden is voldaan). Of generatieve AI-aanbieders daaraan voldoen, voert in dit kader te ver om te bespreken. Echter, medio 2025 verscheen er een Europees rapport dat concludeert dat de TDM-uitzondering niet goed aansluit bij de wijze waarop generatieve AI-systemen worden getraind en dat zelfs als de TDM-uitzondering van toepassing is, deze aanbieders hiervoor niet in aanmerking komen.
De manier waarop generatieve AI-systemen patronen herkennen gaat namelijk verder dan waar de uitzondering in eerste instantie voor was bedoeld. Dat heeft te maken met het fenomeen ‘memorisatie’, wat wij hieronder verder toelichten. Het is een belangrijk begrip: ‘memorisatie’ raakt de kern van een aantal recente Europese uitspraken over generatieve AI en het auteursrecht.
Memorisatie (=opslag van een kopie?) in generatieve AI-modellen
‘Memorisatie’ treedt op, opnieuw vrij plat gezegd, wanneer een generatief model patronen zó sterk herkent, dat dit ‘patroon’ in feite neerkomt op een volledig stukje trainingsdata. Het gevolg is dat er een nauwgelijkende kopie van trainingsdata in het model zit verscholen. Het kan gaan om allerlei soorten trainingsdata, zoals foto’s, liedjes, en teksten. Memorisatie is niet per se by design, en kan een onbedoeld gevolg zijn van het trainingsproces.
Memorisatie gaat dus verder dan TDM, wat alleen ziet op het maken van kopieën voor pure automatische analytische doeleinden. Een voorbeeld van een situatie waar sprake lijkt van memorisatie is volgt.Een AI-model wordt getraind op een foto van een kat. Het model onthoudt vervolgens niet alleen de basiskarakteristieken waar een kat aan moet voldoen (vier poten, snorharen en een staart), maar juist de gehele foto op detailniveau. Wanneer een AI-model slechts deze basiskarakteristieken onthoudt, zou er wellicht sprake kunnen zijn van TDM (al zijn de wetenschappers het daar ook nog niet over eens). Memorisatie ziet dus ook op de opslag van o.a. de positie, de expressie, lichtinval, de kleur en details van de vacht, en wellicht overige elementen. Bij het invoeren van een bepaalde prompt kan het model vervolgens de oorspronkelijke foto (de ‘trainingsfoto’) nagenoeg in zijn geheel teruggeven. Als dat gebeurt zonder een soort ‘cirkelprompt’ (‘Stuur me deze foto opnieuw’), dan is dat een zeer sterk signaal dat er in het onderliggende model een kopie van de foto ligt opgeslagen.
Of er daadwerkelijk sprake is van memorisatie binnen een bepaald AI-model (en zo ja, om welk percentage van de trainingsdata het gaat), is niet op voorhand te zeggen. Daarnaast is de scheidslijn tussen wat memorisatie zou zijn, en wat niet, ook dun en moeilijk concreet te krijgen. Hier wordt momenteel veel onderzoek naar gedaan.
Auteursrechtelijke gevolgen van memorisatie
Uitzonderingen (zoals de TDM-uitzondering) daargelaten, geldt als hoofdregel dat het maken van kopieën van auteursrechtelijk beschermd materiaal niet is toegestaan. Binnen generatieve AI komt de vraag dan neer op wat onder een ‘kopie’ moet worden verstaan. Terug naar ons fotovoorbeeld waarbij een bestaande trainingsfoto bij wijze van een prompt nagenoeg exact kan worden ‘teruggegeven’ door het onderliggende AI-model. In dat geval is de outputfoto vrijwel zeker een kopie van de oorspronkelijke foto. Maar de kopie in het model dan?
Hoewel de foto eigenlijk is teruggebracht tot ‘parameters’ (statistische en wiskundige verwezenlijkingen van de gevonden patronen) als gevolg van de training, zouden deze wellicht ook een kopie kunnen zijn. Daarvoor maakt het in principe niet uit dat de mens deze niet als ‘het oorspronkelijke materiaal’ waarneemt. Als het recht inderdaad zegt dat het hier gaat om kopieën, dan kan dat een inbreuk op het auteursrecht vormen.
In Europa zijn er nu twee rechtszaken geweest waar deze vraag min of meer speelde. Eén in Duitsland en één in het Verenigd Koninkrijk, met uiteenlopende resultaten. Daarnaast loopt er ook een procedure bij het Europese Hof van Justitie naar aanleiding van prejudiciële vragen (vragen van uitleg) van de Hongaarse rechter. Hieronder gaan wij deze kort bij langs.
Duitsland: GEMA v. OpenAI
In deze zaak staan Duitse artiesten als Helene Fischer (Atemlos) en Reinhard Mey (Über den Wolken) centraal. GEMA is de belangenorganisatie van Duitse artiesten (vergelijkbaar met BumaStemra) en stelt dat OpenAI inbreuk maakt op hun auteursrechten. Wat bleek: gebruikers van de populaire chatbot ChatGPT konden heel eenvoudig complete songteksten opvragen. Deze teksten zijn auteursrechtelijk beschermd. De rechter moest vervolgens oordelen zowel over de vraag of de outputkopie inbreuk maakte (oordeel: ja), als of de ‘kopie’, gerepresenteerd in de parameters van het AI-model, dat deed (oordeel: eveneens ja).
Het model had de songteksten aantoonbaar gememoriseerd. Dat de mens zelf de kopie binnen het model niet kan zien, maakt daarvoor niet uit. Het was voldoende dat een mens door middel van ChatGPT (ook nog eens heel eenvoudig) de songteksten uit het model kon opvragen. Volgens de rechter was de TDM-uitzondering ook niet van toepassing. Gevolg: OpenAI maakt inbreuk op het auteursrecht op twee niveaus,
1. door het opslaan van een kopie binnen de parameters van het AI-model en
2. door het openbaar maken van de teksten via de output, en.
OpenAI heeft al aangekondigd dat zij in hoger beroep wil gaan.
Verenigd Koninkrijk: Getty Images v. Stability AI
Aan de andere kant van het kanaal oordeelde de rechter in een vergelijkbare kwestie anders. In een langverwachte uitspraak (in onze blog over TDM al kort beschreven) tussen stockfotobedrijf Getty Images en Stability AI, de aanbieder van afbeeldingsgenerator Stable Diffusion, werd geen auteursrechtinbreuk aangenomen. De uitspraak besloeg maar liefst 205 pagina’s (!). Dat had voornamelijk te maken met de omstandigheid dat Stable Diffusion , nadat zij waren gesommeerd, extra maatregelen had genomen om ervoor te zorgen dat gebruikers geen kopieën van Getty-foto’s konden genereren.
Anders dan bij GEMA v. OpenAI kon Getty Images in deze zaak vervolgens niet (meer) aantonen dat er sprake was van individuele kopieën van Getty Images-foto’s binnen het model, en welke dat dan zouden zijn. De rechter legt uit dat Getty niet bewezen heeft dat de parameters van het Stable Diffusion-model haar auteursrechtelijk beschermde werken bevatten.
Het verschil met GEMA v. OpenAI hangt, naast de hier genomen maatregelen en verschillende rechtssystemen, mogelijk samen met de techniek achter Stable Diffusion. Dit model werkt namelijk fundamenteel anders dan ChatGPT. Voor organisaties waarvoor deze vragen spelen, is dan ook belangrijk dat de feiten en onderliggende omstandigheden altijd van belang blijven bij zulke kwesties.
Europa: Like Company v. Google
Ten slotte heeft een Hongaarse rechter vragen gesteld aan het Europese Hof (de hoogste Europese rechter) over het trainingsproces van Google’s chatbot Gemini. Het Europese Hof moet gaan kijken naar de volgende vragen:
- Of er sprake is van kopieën van de trainingsdata;
- Zo ja, of de TDM-uitzondering op deze kopieën van toepassing is; en
- Of Google aansprakelijk is voor eventuele auteursrechtelijk beschermde output die de gebruiker met Gemini genereert.
Deze vragen zijn allemaal nauw verwant aan de discussie of er in een generatief AI-model kopieën van auteursrechtelijk beschermde trainingsdata verborgen zitten, en wat daarvan de auteursrechtelijke gevolgen zijn. Wij zullen deze ontwikkelingen op de voet blijven volgen.
Conclusie: wellicht onrechtmatige kopieën in AI-modellen
Onzekerheid of memorisatie leidt tot auteursrechtinbreuk
Er zijn nu in korte tijd twee belangrijke rechtszaken geweest over de vraag of ‘memorisatie’ van trainingsmateriaal in het AI-model tot auteursrechtinbreuk kan leiden, en zo ja, wanneer er van memorisatie sprake is. Uit GEMA v. OpenAI halen we dat dit inderdaad het geval kan zijn, als de eiser memorisatie kan aantonen. OpenAI kon zich daardoor ook niet beroepen op de TDM-uitzondering. Echter, in Engeland is nu ook een zaak bekend waar geen memorisatie kon worden aangetoond. Het zal interessant zijn om te volgen hoe rechters in het vervolg naar zulke vragen kijken, in het bijzonder de Europese zaak Like v. Google, omdat dit de hoogste Europese rechter betreft.
Wat betekenen de uitspraken voor betrokken organisaties?
Omdat OpenAI heeft aangekondigd hoger beroep in te stellen, is nog onzeker wat de daadwerkelijke gevolgen van de Duitse uitspraak zullen zijn. De uitkomst van de zaak voor het Europese Hof van Justitie kan wat dat betreft wellicht sneller verandering teweegbrengen. Wat de uitkomst ook moge zijn, er wordt verwacht dat er sowieso nieuwe wetten nodig zijn om ofwel de TDM-uitzondering te laten aansluiten op generatieve AI, ofwel om het makkelijker te maken voor rechthebbenden om licenties af te sluiten met AI-bedrijven. De conclusie is dat het Europese auteursrecht nog zoekende is naar een passende oplossing voor AI-modellen.
Overige vragen over AI en auteursrecht
Los van de vraag of ‘memorisatie’ een kopie van de trainingsdata inhoudt, zijn er nog verdere vragen waar wij nu niet op in zijn gegaan. Bijvoorbeeld de zeer wezenlijke vraag welk rechtssysteem eigenlijk van toepassing is bij het trainen van AI-modellen. Als de training in Amerika plaatsvindt, is dan niet eigenlijk het Amerikaanse auteursrecht (dat over het algemeen soepeler omgaat met auteursrechten wanneer het gaat om innovatie) van toepassing? Dit is in de Duitse zaak bijvoorbeeld kort aangehaald. Ook hierover bestaat vooralsnog onduidelijkheid. Zo zijn er nog veel meer onduidelijkheden.
Elferink & Kortier als kennisdelers m.b.t. AI en auteursrecht
Zowel voor onze praktijk als voor geïnteresseerde professionals vinden wij het belangrijk de ontwikkelingen over AI en nauw verwante rechtsgebieden (zoals auteursrecht) nauwlettend in de gaten te houden. Of u nu zelf AI-systemen ontwikkelt, rechthebbende bent van gebruikte trainingsdata, of juist AI-systemen gebruikt op een manier waarbij auteursrechten kunnen spelen, wij delen onze kennis graag met u. Zo geven wij onder andere cursussen over Europese AI-wetgeving, waarbij wij ook uitgebreid ingaan op de vraag hoe AI zich verhoudt tot auteursrechten. Voor maatwerksessies kunt u ons ook uitnodigen als spreker of gespreksleider. Indien geïnteresseerd denken wij graag met u mee.
Zie voor een compleet overzicht van onze blogs over AI en recht:
- AI-verordening (#1) – Definities en werking; (UPDATE)
- AI-verordening (#2) – Verplichtingen AI-aanbieders en gebruiksverantwoordelijken; (UPDATE)
- AI-verordening (#3) – Auteursrecht
- AI-verordening (#4) – AI en privacy
- AI-verordening (#5) – Tekst- en datamining
- AI-verordening (#6) – Duitse rechter: geen auteursrechtinbreuk voor maken database t.b.v. generatieve AI-systemen