Členové Sdružení pro internetový rozvoj vytvořili návrh komunikace, s jejíž pomocí mohou majitelé práv nastavit takzvaný opt-out proti vytěžování dat AI.
Sdružení pro internetový rozvoj (SPIR), které zastupuje největší české online vydavatele a také vyhledávač Seznam.cz, vytvořil návrh standardizované komunikace, pomocí které se mohou majitelé práv automatizovaně vymezit (nastavit takzvaný opt-out) proti vytěžování svých textů a dalších dat. Cílem je nastavit transparentnější a předvídatelnější obchodní prostředí pro vývojáře umělé inteligence, provozovatele webových stránek i samotné autory.
Návrh učinili členové SPIR v souvislosti se stále rostoucím využíváním umělé inteligence (AI). Ta ke svému učení potřebuje tréninková data, která slouží k vývoji převážné většiny velkokapacitních modelů umělé inteligence (například velké jazykové modely či generativní AI). K vytěžování dat, která vytvořil člověk, autor, a jsou chráněna autorským právem, nicméně dochází zpravidla bez poskytování jakékoliv formy kompenzace.
SPIR upozorňuje, že článek 4 směrnice Evropského parlamentu a Rady (EU) 2019/790 ze dne 17. dubna 2019 o autorském právu a právech s ním souvisejících na jednotném digitálním trhu a o změně směrnic 96/9/ES a 2001/29/ES obsahuje pravidla pro výjimky a omezení pro vytěžování textů a dat (v širokém slova smyslu – textových, obrazových či zvukových děl). Vůči tomuto vytěžování se však dle čl. 4 odst. 3) směrnice lze z pozice nositele práv vymezit (nastavit takzvaný opt-out): „Výjimka nebo omezení podle odstavce 1 se použijí pod podmínkou, že si nositelé práv výslovně nevyhradili užití děl a jiných předmětů ochrany podle uvedeného odstavce vhodným způsobem, jako jsou strojově čitelné prostředky v případě obsahu zpřístupněného veřejnosti online.“
Vzhledem k tomu, že k vytěžování textů dochází celoevropsky i celosvětově, je podle SPIR vhodné nalézt jednotný standard, díky kterému bude snadné určit, zda provozovatel dané internetové stránky opt-out nastavil. Aby bylo možné efektivně, transparentně a automaticky komunikovat s internetovými crawlery – programy, které systematicky procházejí internet a vytvářejí index dat – a dalšími formami automatizovaného sběru dat, navrhuje SPIR upravit soubor robots.txt („Robots Exclusion Protocol“, IETF RFC 9309, poslední aktualizace standardu v září 2022), který se pro obdobnou automatizovanou komunikaci již používá. Tím dojde k vytvoření transparentnějšího a předvídatelnějšího obchodní prostředí pro vývojáře umělé inteligence a zdroje dat, která AI vytěžuje, a autoři tím získají větší kontrolu nad obsahem, který vytvářejí.
Co SPIR navrhuje:
Doplnění do souboru robots.txt:
User-agent: MachineLearning
Disallow: /
Vzorový text do patičky internetové stránky:
Automatické vytěžování textů a dat z této internetové stránky ve smyslu čl. 4 směrnice 2019/790/EU je bez souhlasu <majitel autorských práv> zakázáno.