V rámci experimentu s umělou inteligencí to vyzkoušeli porotci cen Epica. Spoiler: novináři jsou tvrdší a přísnější. Autory článku jsou redaktoři Epica Press Clubu. Článek zveřejňujeme v rámci partnerské spolupráce členů platformy AdForum.
V rámci iniciativy vytvořili porotci cen Epica, které jsou již více než 30 let známé jako ceny za kreativitu udělované novináři, experiment s umělou inteligencí „AIJE“. Cílem projektu bylo prozkoumat potenciál umělé inteligence při posuzování a chápání kreativních nápadů. Výsledky jsou k dispozici zde.
Metodologie
Experiment probíhal souběžně se soutěží v roce 2023 a jeho výsledky nebyly zahrnuty do posuzování kampaní, které hodnotí porota složená z více než 150 lidských novinářů.
Mark Tungate, ředitel redakce cen Epica, uvedl: „Naše novinářská porota, která ráda píše o aktuálních tématech, rozpoznala umělou inteligenci jako velice aktuální. To nás vedlo k tomu, abychom se zapojili do konverzace s odlehčeným, ale podnětným experimentem.“
V této první verzi se pracovalo pouze s textovými popisy kampaní, které poskytli sami autoři, účastníci soutěže. Experiment se omezil na kampaně z užšího výběru v kategoriích, které umožňovaly textové vysvětlení. Účastníkům byl poskytnut standardizační nástroj, který jim pomáhal převést kreativní koncepty do stručných popisů, jež by mohla umělá inteligence snadno zpracovat.
Nicolas Huvé, provozní ředitel cen Epica a tvůrce AIJE, k tomu řekl: „Spoléhat se pouze na textový popis má své výhody, protože je to poněkud demokratičtější. Koneckonců, dobrý nápad by se měl dát shrnout jako ‚elevator pitch‘, tedy rychlé a jednoduché představení.“
Popisy všech přihlášených projektů byly sdruženy podle kategorií a vloženy do nejnovějšího rozhraní GPT-4 Turbo API spolu s výzvou, která obsahovala popis kategorie a také bodovací stupnici cen Epica, jež se pohybuje od 1 (nejhorší) do 10 (světová kvalita). Tím bylo zajištěno, že hodnocení umělé inteligence odpovídá kritériím používaným lidskými porotci.
Umělá inteligence poté vygenerovala skóre a textové zdůvodnění svého hodnocení každé položky. Tento proces neproběhl pouze jednou, ale 80krát, přičemž všechny údaje byly zprůměrovány pomocí interkvartilového rozpětí (IQR), což je metoda, která eliminuje odlehlé hodnoty a zachycuje centrální tendenci skóre. Osmdesát textových hodnocení bylo rovněž syntetizováno, aby vznikl souhrnný komentář umělé inteligence ke každé kampani.
Výsledky
Experiment AIJE odhalil mírnou korelaci s lidskými hlasovacími zvyklostmi, což potvrzuje korelační koeficient přibližně 0,25.
Nicolas Huvé k tomu řekl: „Naše první testy ukázaly slibnou korelaci s lidskými výsledky, zejména v nižších úrovních. V živém experimentu jsme se však zaměřili pouze na užší výběr, což vedlo k pozoruhodnému rozdílu, který však není překvapivý, protože všechny tyto příspěvky již byly lidskou porotou považovány za vysoce kvalitní.“
Skóre umělé inteligence bylo vyšší, v průměru 7,45, na rozdíl od lidského skóre, které v průměru činilo 6,60. Tento trend poukazuje na zásadní rozdíl v přístupu k hodnocení.
„Novináři, kteří jsou známí svou kritickou analýzou, jsou obecně přísnější ve svém hodnocení. Naopak AIJE má tendenci být snadněji ovlivnitelná. V porotní místnosti dokázali novináři identifikovat nápady, které již byly nějakým způsobem realizovány dříve, zatímco AIJE je považovala za úplné novinky,“ poznamenává Huvé.
Tento rozdíl podtrhuje hlubší porozumění, které mají novináři při identifikaci originality. AIJE však byla naopak nestrannější.
Huvé dodává: „AIJE se zdála být efektivnější při hodnocení kampaně výhradně v rámci její kategorie. Na rozdíl od lidských porotců, kteří mohou udělit vyšší nebo nižší hodnocení na základě vlastních preferencí či obliby, AIJE nebyla ovlivněna takovými lidskými předsudky.“
Pro ilustraci lidského faktoru v hodnocení uvádí Huvé jako příklad práci „The X-Tinction Timeline“ od McCann Worldgroup Germany, která chytrou hrou se slovy připodobňuje přeměnu loga sociální sítě Twitter v „X“ k vymírání zvířat.
Komentář AI byl následující: „Silná a na trhu rezonující kampaň, která se chytře veze na vlně aktuálních událostí, řeší naléhavý globální problém. Kreativní paralela mezi rebrandingem Twitteru a vymíráním divokých zvířat účinně spojuje popkulturu s ekologickým aktivismem.“
Lidský porotce byl v rámci hodnocení více zaujatý: „Velmi chytrý způsob, jak využít a přesměrovat rozhořčení. Pokud žádné PR není špatné PR, pak z toho bohužel profitoval i X. Doufejme, že se kampaň promítne v dary pro WWF (Světový fond na ochranu přírody, pozn. redakce) a nejen v pozornost k Muskově nadutosti.“
Zmíněná práce nakonec získala stříbro v kategorii „Topical & Real Time“.
Experiment nabízí cenné poznatky o potenciální roli umělé inteligence při hodnocení kreativity. Další verze AIJE budou zahrnovat více kategorií a také vizuální prvky. „Nyní ji můžeme nechat, aby se dívala nejen na obrázky, ale sledovala a interpretovala celá videa z případových studií, což jí otevírá slibné možnosti do budoucna,“ řekl Huvé. „I když nevylučujeme trénování modelu výhradně na výsledcích soutěže, raději bychom nechali AIJE spoléhat na obecnou umělou inteligenci, k čemuž podle mého názoru obor směřuje, a což je také více v souladu s outsiderským duchem cen Epica, který se drží stranou od „smyčky zpětné vazby“ kreativního odvětví.“
Účastníci soutěže Epica Awards 2024 budou mít automaticky nárok na účast v příštím ročníku AIJE.