SPIR navrhuje, jak se bránit vytěžování dat umělou inteligencí

Členové Sdružení pro internetový rozvoj vytvořili návrh komunikace, s jejíž pomocí mohou majitelé práv nastavit takzvaný opt-out proti vytěžování dat AI.

Sdružení pro internetový rozvoj (SPIR), které zastupuje největší české online vydavatele a také vyhledávač Seznam.cz, vytvořil návrh standardizované komunikace, pomocí které se mohou majitelé práv automatizovaně vymezit (nastavit takzvaný opt-out) proti vytěžování svých textů a dalších dat. Cílem je nastavit transparentnější a předvídatelnější obchodní prostředí pro vývojáře umělé inteligence, provozovatele webových stránek i samotné autory.

Návrh učinili členové SPIR v souvislosti se stále rostoucím využíváním umělé inteligence (AI). Ta ke svému učení potřebuje tréninková data, která slouží k vývoji převážné většiny velkokapacitních modelů umělé inteligence (například velké jazykové modely či generativní AI). K vytěžování dat, která vytvořil člověk, autor, a jsou chráněna autorským právem, nicméně dochází zpravidla bez poskytování jakékoliv formy kompenzace. 

SPIR upozorňuje, že článek 4 směrnice Evropského parlamentu a Rady (EU) 2019/790 ze dne 17. dubna 2019 o autorském právu a právech s ním souvisejících na jednotném digitálním trhu a o změně směrnic 96/9/ES a 2001/29/ES obsahuje pravidla pro výjimky a omezení pro vytěžování textů a dat (v širokém slova smyslu – textových, obrazových či zvukových děl). Vůči tomuto vytěžování se však dle čl. 4 odst. 3) směrnice lze z pozice nositele práv vymezit (nastavit takzvaný opt-out): „Výjimka nebo omezení podle odstavce 1 se použijí pod podmínkou, že si nositelé práv výslovně nevyhradili užití děl a jiných předmětů ochrany podle uvedeného odstavce vhodným způsobem, jako jsou strojově čitelné prostředky v případě obsahu zpřístupněného veřejnosti online.“

Vzhledem k tomu, že k vytěžování textů dochází celoevropsky i celosvětově, je podle SPIR vhodné nalézt jednotný standard, díky kterému bude snadné určit, zda provozovatel dané internetové stránky opt-out nastavil. Aby bylo možné efektivně, transparentně a automaticky komunikovat s internetovými crawlery – programy, které systematicky procházejí internet a vytvářejí index dat – a dalšími formami automatizovaného sběru dat, navrhuje SPIR upravit soubor robots.txt („Robots Exclusion Protocol“, IETF RFC 9309, poslední aktualizace standardu v září 2022), který se pro obdobnou automatizovanou komunikaci již používá. Tím dojde k vytvoření transparentnějšího a předvídatelnějšího obchodní prostředí pro vývojáře umělé inteligence a zdroje dat, která AI vytěžuje, a autoři tím získají větší kontrolu nad obsahem, který vytvářejí.

Co SPIR navrhuje:

Doplnění do souboru robots.txt:

User-agent: MachineLearning

Disallow: /

Vzorový text do patičky internetové stránky: 

Automatické vytěžování textů a dat z této internetové stránky ve smyslu čl. 4 směrnice 2019/790/EU je bez souhlasu <majitel autorských práv> zakázáno.

MAM_SOME_800x1068_cover_2026-21

Týdně vám přinášíme exkluzivní obsah z oboru a shrnujeme pro vás to podstatné. Staňte se součástí komunity, která nepřestává hledat cesty, jak lépe a efektivněji komunikovat.

Ipsos

AKTUÁLNÍ VYDÁNÍ

MAM_SOME_800x1068_cover_2026-21

Týdně vám přinášíme exkluzivní obsah z oboru a shrnujeme pro vás to podstatné. Staňte se součástí komunity, která nepřestává hledat cesty, jak lépe a efektivněji komunikovat.

MAM Téma čísla

Portrait Of Caucasian Handsome Man Using Smartphone in 3D Cyberspace With Animated Social Media Interfaces, Video Games, Viral Videos, Internet Content. Visualization Of Blockchain Technology Concept
Ice hockey sports tournament modern poster template
Big data Network Abstract concept

MAM Exkluzivně v časopise

Kovy
Aneta_Martinek-rijen-24
Photo by Jan SchejbalPrague 31. 3
Ipsos

MAM Další zajímavé čtení

056_26_Digihive+marek_foto
Welker - Obluk_nový web-otvírák - 2025-06-23T093718
MAM Souboj spotů duben
Timplich
056_26_Digihive+marek_foto
Welker - Obluk_nový web-otvírák - 2025-06-23T093718
MAM Souboj spotů duben
Timplich