SPIR navrhuje, jak se bránit vytěžování dat umělou inteligencí

Členové Sdružení pro internetový rozvoj vytvořili návrh komunikace, s jejíž pomocí mohou majitelé práv nastavit takzvaný opt-out proti vytěžování dat AI.

Sdružení pro internetový rozvoj (SPIR), které zastupuje největší české online vydavatele a také vyhledávač Seznam.cz, vytvořil návrh standardizované komunikace, pomocí které se mohou majitelé práv automatizovaně vymezit (nastavit takzvaný opt-out) proti vytěžování svých textů a dalších dat. Cílem je nastavit transparentnější a předvídatelnější obchodní prostředí pro vývojáře umělé inteligence, provozovatele webových stránek i samotné autory.

Návrh učinili členové SPIR v souvislosti se stále rostoucím využíváním umělé inteligence (AI). Ta ke svému učení potřebuje tréninková data, která slouží k vývoji převážné většiny velkokapacitních modelů umělé inteligence (například velké jazykové modely či generativní AI). K vytěžování dat, která vytvořil člověk, autor, a jsou chráněna autorským právem, nicméně dochází zpravidla bez poskytování jakékoliv formy kompenzace. 

SPIR upozorňuje, že článek 4 směrnice Evropského parlamentu a Rady (EU) 2019/790 ze dne 17. dubna 2019 o autorském právu a právech s ním souvisejících na jednotném digitálním trhu a o změně směrnic 96/9/ES a 2001/29/ES obsahuje pravidla pro výjimky a omezení pro vytěžování textů a dat (v širokém slova smyslu – textových, obrazových či zvukových děl). Vůči tomuto vytěžování se však dle čl. 4 odst. 3) směrnice lze z pozice nositele práv vymezit (nastavit takzvaný opt-out): „Výjimka nebo omezení podle odstavce 1 se použijí pod podmínkou, že si nositelé práv výslovně nevyhradili užití děl a jiných předmětů ochrany podle uvedeného odstavce vhodným způsobem, jako jsou strojově čitelné prostředky v případě obsahu zpřístupněného veřejnosti online.“

Vzhledem k tomu, že k vytěžování textů dochází celoevropsky i celosvětově, je podle SPIR vhodné nalézt jednotný standard, díky kterému bude snadné určit, zda provozovatel dané internetové stránky opt-out nastavil. Aby bylo možné efektivně, transparentně a automaticky komunikovat s internetovými crawlery – programy, které systematicky procházejí internet a vytvářejí index dat – a dalšími formami automatizovaného sběru dat, navrhuje SPIR upravit soubor robots.txt („Robots Exclusion Protocol“, IETF RFC 9309, poslední aktualizace standardu v září 2022), který se pro obdobnou automatizovanou komunikaci již používá. Tím dojde k vytvoření transparentnějšího a předvídatelnějšího obchodní prostředí pro vývojáře umělé inteligence a zdroje dat, která AI vytěžuje, a autoři tím získají větší kontrolu nad obsahem, který vytvářejí.

Co SPIR navrhuje:

Doplnění do souboru robots.txt:

User-agent: MachineLearning

Disallow: /

Vzorový text do patičky internetové stránky: 

Automatické vytěžování textů a dat z této internetové stránky ve smyslu čl. 4 směrnice 2019/790/EU je bez souhlasu <majitel autorských práv> zakázáno.

MAM_SOME_800x1068_cover_2026-13

Týdně vám přinášíme exkluzivní obsah z oboru a shrnujeme pro vás to podstatné. Staňte se součástí komunity, která nepřestává hledat cesty, jak lépe a efektivněji komunikovat.

Ipsos

AKTUÁLNÍ VYDÁNÍ

MAM_SOME_800x1068_cover_2026-13

Týdně vám přinášíme exkluzivní obsah z oboru a shrnujeme pro vás to podstatné. Staňte se součástí komunity, která nepřestává hledat cesty, jak lépe a efektivněji komunikovat.

MAM Téma čísla

a blue background with lines and networks illustration
6G sítě iStock
Matěj Hušek1

MAM Exkluzivně v časopise

Jahňáková Lego
tau6640-2
Omniconnect
Ipsos

MAM Další zajímavé čtení

Untitled design (4)
Dentsu ČRo
3_Kofola reaguje na aktuální trendy a uvádí originální novinku Nulku
Souboj-spotu_02-unor_1440x400
Untitled design (4)
Dentsu ČRo
3_Kofola reaguje na aktuální trendy a uvádí originální novinku Nulku
Souboj-spotu_02-unor_1440x400