In deze miniserie binnen onze blogserie over AI behandelen we enkele aspecten van het bredere onderwerp AI in samenhang met het auteursrecht. In een aantal opeenvolgende blogs over AI en auteursrecht lichten wij enkele onderwerpen uit, waarbij wij onderscheid maken in de zogeheten ‘inputkant’ van de AI en de ‘outputkant’ van de AI. Waar in deel 3 auteursrechtvragen aan bod kwamen die zagen op de AI als vervaardiger (output) en de vraag of daarop auteursrechten kunnen rusten, staat in het huidige deel (deel 5) de inputkant centraal. De volgende vragen komen aan de orde: - Mag een AI-systeem / een robot ‘getraind’ worden met werken die beschermd zijn onder het auteursrecht? - Maakt het AI-systeem / de robot daarbij in het (voorbereidende) samenstellingsproces – bij de ontwikkeling van een AI-model – inbreuk op auteursrechten van anderen? - Voor de training van een AI-model / robot maken veel ontwikkelaars gebruik van materialen die zij op het internet vinden door middel van bijvoorbeeld ‘webscraping’. Op deze materialen rusten vaak intellectuele eigendomsrechten van derden. Is het uitvoeren van webscraping juridisch toegestaan? Mogen AI-/robotontwikkelaars voor de training van datasets ten behoeve van een AI-model / robot zomaar gebruikmaken van auteursrechtelijk beschermde werken van derden? - Kunnen AI-/robotontwikkelaars daarbij een beroep doen op de uitzondering voor tekst- en datamining ex art. 15o Auteurswet?
Door Mirjam Elferink & Rik Groteboer
LET OP: Op 12 juli 2024 is de AI-verordening officieel gepubliceerd. Na een lang discussietraject zijn veranderingen doorgevoerd in de officiële wettekst, ten opzichte van de eerdere wetsvoorstellen waarop wij blogs van hebben gebaseerd. De tekst in deze blog is nog gebaseerd op eerdere wetsvoorstellen en is in die zin niet geheel up to date.
Een belangrijke aanpassing in de officiële wettekst is bijvoorbeeld het vervangen van de veelvoorkomende term ‘AI-exploitant’ door de term ‘AI-gebruiksverantwoordelijke’. In de praktijk blijven deze begrippen echter dezelfde betekenis houden. In plaats van de term ‘AI-exploitant’ kan men dus de term ‘AI-gebruiksverantwoordelijke’ lezen.
Om onze blogs volledig in lijn te brengen met de officiële wettekst, schreven wij een tweetal updateblogs om de juistheid en continuïteit van onze eerdere AI-blogs te kunnen waarborgen. Daarin benoemen wij specifiek de punten waarop onze eerdere blogs verouderd zijn, en werken wij deze bij. Updateblog #1 vindt u [hier].
Tekst- en datamining is een geautomatiseerde computeranalysetechniek waarmee tekst en gegevens in digitale vorm (zoals beeld en geluid) ontleed kunnen worden. Hierdoor kunnen grote hoeveelheden informatie worden verwerkt om zo nieuwe informatie te creëren, zoals patronen, trends en onderlinge verbanden. Dit is van belang voor onderzoek, innovatie, opleiding en behoud van cultureel erfgoed. Dit is in wezen wat er gebeurt bij het trainen van AI-modellen/systemen. Tekst- en datamining kan echter handelingen inhouden die onder het auteursrecht en/of het databankenrecht vallen. Denk bijvoorbeeld aan het reproduceren van werken of andere materialen, of aan het opvragen van content uit databanken. In principe geldt daarvoor dat er toestemming van de auteursrechthebbende vereist is. Dat betekent dat men – logischerwijs - niet zonder meer gebruik mag maken van auteursrechtelijk beschermde werken bij het trainen van AI-modellen/-systemen.
Maar: de AI-Verordening in combinatie met de Auteurswet biedt mogelijkheden om tóch gebruik te maken van auteursrechtelijk beschermde werken zonder toestemming te hoeven vragen aan de auteursrechthebbende, zij het onder bepaalde voorwaarden. Die bespreken wij in deze blog.
Allereerst geven wij hierna een overzicht van enkele lopende rechtszaken waarbij een van de rechtsvragen die voorligt de vraag is of het trainen van AI-modellen/-systemen met auteursrechtelijk beschermde werken geoorloofd is.
Generatieve AI-modellen onder vuur
Als u een generatief AI-model zoals ChatGPT of Dall-E hebt gebruikt of de resultaten hebt gezien, is het niet gek om verwonderd te zijn door de mogelijkheden die deze techniek te bieden heeft. Men voert een opdracht in, vaak in tekstvorm (de ‘prompt’), en kan op basis daarvan output verwachten die over het algemeen redelijk aansluit bij de gegeven tekstopdracht. Ter illustratie: bij Dall-E, een systeem waarmee afbeeldingen gegenereerd kunnen worden, heeft ontwikkelaar OpenAI door middel van het invoeren van de prompt ‘een avocadofauteuil’ aangetoond dat het systeem in staat is erg treffende, nog niet eerder bestaande afbeeldingen te creëren die voldoen aan die omschrijving, zoals hieronder geïllustreerd.
Om zulke resultaten te kunnen bereiken is een enorme hoeveelheid data nodig. Het – inmiddels verouderde – model GPT 3.5, waarop de gratis versie van ChatGPT runt, is naar schatting getraind op 500 miljard tokens.[1] Een ander model, Stable Diffusion, waarmee eveneens afbeeldingen kunnen worden gegenereerd, is getraind op afbeeldingen en omschrijvingen afkomstig uit de LAION-5B dataset, waarin meer dan 5,8 miljard van zulke combinaties zijn opgenomen. Al sinds deze modellen hun intrede hebben gedaan eind 2022 bestaat er grote controverse over de manier waarop deze modellen worden getraind. Want is er niet sprake van een inbreuk op het auteursrecht wanneer die teksten die worden gebruikt om ChatGPT te voeden, of afbeeldingen in het geval van Stable Diffusion, auteursrechtelijk beschermd zijn?
In de Verenigde Staten staat deze discussie momenteel onder absolute hoogspanning. Er lopen in de VS momenteel meerdere rechtszaken l tegen verschillende AI-ontwikkelaars waarbij artiesten, programmeurs en nieuwsplatformen aanvoeren recht te hebben op een vergoeding, aangezien hun auteursrechtelijk beschermde werken worden gebruikt voor trainingsdoeleinden door grote AI-ontwikkelaars zonder hun toestemming. Een aantal voorbeelden: striptekenaar Sarah Andersen ontdekte dat een groot deel van haar oeuvre in de LAION-datasets terecht is gekomen waar Stable Diffusion op getraind is, en voegde zich samen met andere artiesten in een collectieve actie tegen het bedrijf. Verder heeft The New York Times een procedure gestart tegen OpenAI wegens het gebruiken van haar nieuwsartikelen bij het trainen van het model van OpenAI. Als bewijs heeft The New York Times een document bijgevoegd met daarin honderd voorbeelden waar ChatGPT het voor elkaar kreeg nagenoeg exacte kopieën van bestaande artikelen te produceren. Buiten de Verenigde Staten is ook in het Verenigd Koninkrijk een rechtszaak omtrent dit onderwerp aangespannen: Getty Images, eigenaar van een enorme database aan zogenaamde ‘stockfoto’s’, beschuldigt Stable Diffusion ervan haar foto’s te gebruiken zonder toestemming. Dat blijkt voornamelijk uit het feit dat creaties gegenereerd door Stable Diffusion in veel gevallen een vervaagd watermerk vertonen van Getty Images. Dat betekent niet alleen dat de stockfoto’s door Stable Diffusion zijn gebruikt ter training van het model, maar ook dat zowel Stable Diffusion als LAION-5B geen licentie heeft afgesloten met Getty Images om deze afbeeldingen te mogen gebruiken (anders zou het watermerk namelijk niet zichtbaar zijn).
Training van AI is vrijwel gelijk aan tekst- en datamining
Oók in de EU is de vraag óf het gebruik van auteursrechtelijk beschermde werken om een AI-model te trainen / ontwikkelen inbreuk maakt op de auteursrechten van de rechthebbende interessant. Het trainen van AI-modellen valt onder het juridische begrip ‘tekst- en datamining’ (TDM). Hierover schreven wij al in een eerdere nieuwsbrief. Nog sterker: in de AI-Verordening wordt een rechtstreekse koppeling gemaakt naar de TDM-uitzondering zoals deze is vastgelegd in artikel 4, lid 3, van Richtlijn (EU) 2019/790 (DSM-richtlijn).
Artikel 53 lid 1 sub c van de AI-verordening luidt als volgt:
[Aanbieders van AI-modellen voor algemene doeleinden hebben de verplichting om:]
“een beleid in te voeren om te voldoen aan het Unierecht inzake auteursrechten en naburige rechten, en met name om, onder meer door middel van de modernste technologieën, een voorbehoud van rechten uit hoofde van artikel 4, lid 3, van Richtlijn (EU) 2019/790 vast te stellen en na te leven, onder meer door middel van de modernste technologieën;”
De TDM-uitzondering is vervolgens geïmplementeerd in artikel 15n resp. 15o van de Nederlandse Auteurswet.[2]
Wat wordt onder tekst- en datamining verstaan?
Tekst- en dataminingtechnieken (TDM) worden door zowel private als publieke entiteiten veelvuldig gebruikt om grote hoeveelheden gegevens te analyseren. Deze technieken worden onder andere toegepast in medische onderzoeken naar ziekten en geneesmiddelen, in het kader van kunstmatige intelligentie (zoals zelfrijdende auto’s of spraakgestuurde navigatiesystemen), ter ontwikkeling van instrumenten om cyberdreigingen het hoofd te bieden en in het kader van onderzoeksjournalistiek.
TDM is dus een proces waarbij grote hoeveelheden (on)gestructureerde tekst en data worden geanalyseerd om waardevolle informatie te genereren, bijvoorbeeld in de vorm van patronen, trends en onderlinge verbanden. Dit is het gericht zoeken naar (statistische) verbanden tussen verschillende gegevensverzamelingen met als doel profielen op te stellen voor wetenschappelijk, journalistiek of commercieel gebruik. Nieuwe technologieën maken het mogelijk om informatie in digitale vorm – zoals tekst, geluid, beeld en data – geautomatiseerd te doorzoeken om zo bepaalde onderlinge verbanden of patronen te kunnen identificeren. In wezen is dit wat er óók gebeurt bij het trainen van een AI-model/-systeem. Op tekst, geluid, beeld en data rust in beginsel auteursrecht. Zomaar tekst- en datamining toepassen op auteursrechtelijk beschermde werken kan in beginsel dan ook niet zonder toestemming van de auteursrechthebbende.
In het hiernavolgende gaan wij nader in op de hierboven benoemde TDM-uitzonderingen, neergelegd in artikel 15n en 15o Aw.
TDM voor onderzoeksorganisaties zonder winstoogmerk
In artikel 15n Aw is de TDM-uitzondering opgenomen die ziet op onderzoek. Lid 1 van deze bepaling luidt als volgt:
“Als inbreuk op het auteursrecht op een werk van letterkunde, wetenschap of kunst wordt niet beschouwd de reproductie door onderzoeksorganisaties en cultureel erfgoedinstellingen om met het oog op wetenschappelijk onderzoek tekst- en datamining te verrichten op het werk waartoe zij rechtmatige toegang hebben.”
Dit artikel biedt mogelijkheden voor onderzoeksorganisaties zoals universiteiten en/of hogescholen, inclusief de bibliotheken ervan, een onderzoeksinstelling of een andere entiteit die hoofdzakelijk tot doel heeft wetenschappelijk onderzoek te verrichten of onderwijsactiviteiten te verrichten die ook de verrichting van wetenschappelijk onderzoek omvatten. Denk bijvoorbeeld aan onderzoeksinstituten als de KNAW. Belangrijkste criterium is dat het gaat om onderzoeksorganisaties zonder winstoogmerk dan wel organisaties die alle winst in haar wetenschappelijk onderzoek investeren. Daarnaast kunnen culturele erfgoedinstellingen met een voor het publiek toegankelijke bibliotheek of een voor het publiek toegankelijk museum, een archief of een instelling voor cinematografisch of audio(visueel) erfgoed zich op deze uitzondering beroepen.
Voorwaarde voor een rechtsgeldig beroep op TDM is dat de partij die TDM wenst toe te passen rechtmatige toegang heeft tot de auteursrechtelijk beschermde werken. Dit houdt in dat er bijvoorbeeld sprake moet zijn van rechtsgeldige abonnementen gesloten tussen de betreffende onderzoeksorganisaties en de auteursrechthebbenden (denk bv. aan abonnementen op wetenschappelijke tijdschriften e.d.); of er moet sprake zijn van vrij toegankelijke werken op het internet, of voorafgaande toestemming van de rechthebbende (bv door middel van een licentie en/of via algemene voorwaarden).
Het grote voordeel dat onderzoeksinstanties en culturele erfgoedinstellingen hebben tegenover commerciële partijen, is dat niet van deze uitzondering kan worden afgeweken. Het is dus niet mogelijk voor auteursrechthebbenden om de hiervoor benoemde onderzoeksinstanties uit te sluiten van het uitvoeren van TDM op hun werken, tenzij deze instanties hier geen rechtmatige toegang toe hadden.
TDM voor commerciële organisaties/doeleinden: ja, tenzij…
Artikel 15o Aw behandelt de mogelijkheid voor commerciële organisaties om TDM toe te passen op content, mits wordt voldaan aan de daarvoor geldende voorwaarden. Artikel 15o Aw luidt als volgt:
“Onverminderd het bepaalde in artikel 15n wordt een reproductie in het kader van tekst- en datamining niet als inbreuk op het auteursrecht op een werk van letterkunde, wetenschap of kunst beschouwd mits degene die de tekst- en datamining verricht rechtmatig toegang heeft tot het werk en het auteursrecht door de maker of zijn rechtverkrijgenden niet uitdrukkelijk op passende wijze is voorbehouden, zoals door middel van machinaal leesbare middelen bij een online ter beschikking gesteld werk.”
Allereerst is ook hier vereist dat de ontwikkelaar rechtmatige toegang heeft tot de informatie waarop hij TDM wil toepassen. Als dat het geval is, kan hij in beginsel gebruikmaken van de TDM-uitzondering, tenzij een auteursrechthebbende een uitdrukkelijk auteursrechtvoorbehoud heeft gemaakt. Indien de auteursrechthebbende zich het recht om zijn werken te gebruiken voor TDM-doeleinden namelijk uitdrukkelijk voorbehoudt, mag er geen TDM worden toegepast. Doet een AI-ontwikkelaar dat dan toch, dan pleegt hij auteursrechtinbreuk.
Hoe moet dit auteursrechtvoorbehoud worden gemaakt?
In artikel 15o Aw staat dat dit op uitdrukkelijke en gepaste wijze moet gebeuren, waarbij als voorbeeld machinaal leesbare middelen worden genoemd. In de praktijk wordt veel gebruik gemaakt van een bestand genaamd ‘robots.txt’, wat op de root-map van websites kan worden geplaatst. Dit bestand vormt een soort ‘gedragscode’ voor bots die aangeeft welke van hen wel of niet welkom zijn op de website. Deze bestanden zijn machinaal leesbaar en daarmee een gepaste wijze voor auteursrechthebbenden om uit TDM te treden. Of het voorbehoud kan worden gemaakt door middel van algemene voorwaarden is onzeker, aangezien deze waarschijnlijk nog niet machinaal leesbaar zijn.
Verdere onduidelijkheden zien op de gevolgen voor de AI-ontwikkelaar indien de auteursrechthebbende zich het recht op TDM heeft voorbehouden. De AI-ontwikkelaar zal in dat geval vóórafgaande toestemming moeten verkrijgen om gebruik te mogen maken van de auteursrechtelijk beschermde werken/ daarop TDM te mogen toepassen. Bijvoorbeeld al dan niet door middel van het afsluiten van een licentieovereenkomst.
Webscraping
Veel AI-ontwikkelaars komen aan hun data door middel van ‘webscraping’. Er zijn meerdere definities van webscraping in omloop. Volgens een recente handreiking van de Autoriteit Persoonsgegevens betekent ‘scraping’: “het geautomatiseerde proces waarmee informatie van websites kan worden verzameld en opgeslagen.”[3] Overigens geldt dat als bij scraping (ook) persoonsgegevens worden verzameld de Algemene verordening gegevensbescherming (AVG) van toepassing. Daarover informeren wij u in een andere blog.
Webscraping refereert aldus aan de techniek waarbij geautomatiseerde softwareprogramma’s, vaak aangeduid als ‘(ro)bots’, systematisch het geïndexeerde internet doorzoeken om bruikbare data te extraheren. Er is nog weinig duidelijkheid over de rechtmatigheid van webscraping in zijn algemeenheid. Niet alleen het auteursrecht, maar ook aspecten van privacy- en contractenrecht kunnen hierbij een rol spelen.
In het kader van AI kan ‘gescrapete’ data dan vervolgens worden gebruikt voor trainingsdoeleinden. Bij het extraheren van informatie uit deze datasets wordt een reproductie gemaakt van hetgeen dat wordt ‘gescraped’, waardoor het auteursrecht meteen in het gedrang komt indien het gescrapete materiaal auteursrechtelijk beschermd is. Het is de vraag of dat zomaar mag. Hier is het laatste woord nog niet over gezegd.
Conclusie
In deze blog hebben wij de TDM-uitzondering uit de Auteurswet behandeld, zowel voor onderzoeksorganisaties als voor commerciële organisaties. De TDM-uitzondering biedt zeker mogelijkheden om AI-modellen/-systemen te ontwikkelen, zij het onder voorwaarden. Daarnaast hebben aanbieders van AI-modellen voor algemene doeleinden de verplichting om beleid in te voeren om te voldoen aan de TDM-uitzondering in de Auteurswet en dan met name ten aanzien van de naleving van het auteursvoorbehoud.
What ‘s next? Volgende blog AI en Auteursrecht
In het laatste onderdeel van deze ‘miniserie’ over AI en auteursrecht zullen wij ingaan op de inbreuken op het auteursrecht die generatieve AI kan opleveren op ‘output-niveau’. Met andere woorden: hoe kunnen de creaties die voortkomen uit AI-systemen als Dall-E en ChatGPT inbreuk maken op het auteursrecht van een derde partij. Meer specifiek gaan we in op de volgende auteursrecht gerelateerde vragen:
Via deze links kunt u naar deel 1 (AI-verordening: definities; toepassingsgebied; handhaving), deel 2 (AI-verordening: verplichtingen AI-aanbieders, -exploitanten en -gebruikers), deel 3 (AI-verordening en auteursrecht, AI als auteur), en deel 4 (AI en Privacy, algemene beginselen) van onze AI-blogserie.
Meer weten? Neemt u gerust contact met ons op.
Noten
[1] Kleine tekstdelen/lettergrepen van ongeveer vier leestekens. Een trainingstekst wordt als het ware in tokens gehakt.
[2] Implementatie van artikel 3 en 4 van Richtlijn (EU) 2019/790 (DSM).
[3] ‘Handreiking scraping door particulieren en private organisaties’, 1 mei 2024, raadpleegbaar op AP: scraping bijna altijd illegaal | Autoriteit Persoonsgegevens.
Artificiële intelligentie (AI)-verordening: verplichtingen AI-aanbieders en -exploitanten - UPDATE deel 2
Artificiële intelligentie (AI)-verordening: definities en werking – UPDATE deel 1
Artificiële intelligentie (AI)-verordening: auteursrecht (deel 5) – TDM-uitzondering Auteurswet biedt mogelijkheid voor het trainen van AI