A mesterséges intelligencia által generált Ghibli képek problematikájáról

Kép: ChatGPT

A közösségi médiát a közelmúltban ellepték olyan képek, amelyek úgy néznek ki, mintha a  Ghibli Stúdió filmjeihez tartoznának. A Hayao Miyazaki által alapított japán animációs cégre jellemző lágy pasztell palettával újragondoltak szelfiket, családi fényképeket és mémeket is.

A Ghibli Stúdió hazánkban is ismert, sok filmjüket vetítették moziban, illetve DVD-n is megjelent közülük több. Legutóbbi filmjük A fiú és a szürke gém volt a vásznon, de Budapesten azóta például újra vetítették A vándorló palotát.

Az OpenAI ChatGPT legújabb frissítése jelentősen javította a ChatGPT képgenerálási képességeit, így a felhasználók pillanatok alatt meggyőző Ghibli-stílusú képeket hozhatnak létre. A funkció óriási népszerűségnek örvend – olyannyira, hogy a rendszer összeomlott a felhasználói igények miatt.

A generatív mesterséges intelligencia rendszerei, mint például a ChatGPT, leginkább „stílusmotorokként” értelmezhetők. És most azt látjuk, hogy ezek a rendszerek minden eddiginél nagyobb pontosságot kínálnak a felhasználóknak.

Ez azonban teljesen új kérdéseket is felvet a szerzői joggal és a kreatív tulajdonjoggal kapcsolatban.

A generatív mesterséges intelligencia programok úgy működnek, hogy a felhasználói utasításokra válaszul kimeneteket állítanak elő, beleértve a kép létrehozására vonatkozó utasításokat is.

A képgenerátorok korábbi generációi diffúziós modelleket használtak. Ezek a modellek fokozatosan finomítják a véletlenszerű, zajos adatokat koherens képpé. A ChatGPT legújabb frissítése azonban az úgynevezett „autoregresszív algoritmust” használ.

Ez az algoritmus a képeket inkább nyelvként kezeli. Ahogy a ChatGPT előre jelzi a mondat legvalószínűbb szavait, most már képes előre jelezni a kép különböző vizuális elemeit.

Ez lehetővé teszi az algoritmus számára, hogy jobban elkülönítse a kép egyes jellemzőit – és ezek kapcsolatát a promptban szereplő szavakkal. Ennek eredményeként a ChatGPT pontosabban tud képeket készíteni precíz felhasználói utasításokból, mint a képgenerátorok korábbi generációi. Megváltoztathat bizonyos funkciókat, miközben megőrzi a kép többi részét.

A nagy nyelvi modelleken belüli képek generálásának különösen nagy előnye az a képesség, hogy a rendszerben már kódolt összes tudást felhasználhatjuk. Ez azt jelenti, hogy a felhasználóknak nem kell részletesen leírniuk a kép minden aspektusát. Egyszerűen hivatkozhatnak olyan fogalmakra, mint a Ghibli Stúdió , és a mesterséges intelligencia megérti a hivatkozást.

A generatív mesterséges intelligencia rendszerek hagyományos értelemben nem tárolnak információkat. Ehelyett szöveget, tényeket vagy képrészleteket kódolnak mintákként – vagy „stílusokként” – neurális hálózataikon belül.

A hatalmas mennyiségű adatra kiképzett modellek több szinten megtanulják felismerni a mintákat. Az alacsonyabb hálózati rétegek olyan alapvető funkciókat rögzíthetnek, mint a szókapcsolatok vagy a vizuális textúrák. A magasabb rétegek bonyolultabb fogalmakat vagy vizuális elemeket kódolnak.

Amikor a mesterséges intelligencia tudomást szerez Miyazaki munkáiról, nem tárol tényleges Ghibli Stúdió képkockákat (bár a képgenerátorok néha közeli utánzatokat készíthetnek a bemeneti képekről). Ehelyett a „Ghibliséget” matematikai mintaként kódolja – ez a stílus alkalmazható új képekre.

Bár a stílusokkal való munka képessége az, ami a generatív mesterséges intelligenciát olyan erőssé teszi, ez vitákat szül. Sok művész számára van valami nyugtalanító abban, hogy sajátos művészi megközelítését egy „stílusra” redukálják, amelyet bárki alkalmazhat egy egyszerű szöveges felszólítással.

Mindez teljesen új kérdéseket vet fel a szerzői joggal és a kreatív tulajdonjoggal kapcsolatban.

Hagyományosan a szerzői jogi törvény nem védi a stílusokat – csak a konkrét kifejezéseket. Nem lehet szerezni szerzői jogot zenei műfajra, mint a „ska”. Ez a korlátozás jó okkal létezik. Ha valaki monopolizálhatna egy egész stílust, az mindenki más számára elfojtaná a kreatív kifejezésmódot.

De van különbség az általános stílusok és a rendkívül jellegzetes stílusok között, amelyek szinte szinonimájává válnak valaki identitásának. Amikor egy mesterséges intelligencia „Greg Rutkowski” stílusában tud alkotást generálni – egy lengyel művész, akinek a nevét állítólag több mint 93 000 felszólításban használták a Stable Diffusion AI képgenerátorban –, az potenciálisan veszélyezteti megélhetését és művészi örökségét.

Egyes alkotók már jogi lépéseket is tettek.

Egy 2022 végén benyújtott ügyben három művész csoportot alkotott, hogy több mesterségesintelligencia-céget pereljenek, azzal érvelve, hogy képgenerátoraikat engedély nélkül képezték ki, és most lehetővé teszik a felhasználók számára, hogy sajátos stílusukat utánzó alkotásokat hozzanak létre.

Mivel a technológia a törvényeknél gyorsabban fejlődik, folyamatban van egy új jogszabály kidolgozása annak érdekében, hogy egyensúlyba hozza a technológiai innovációt a művészek kreatív identitásának védelmével.

Bármi is legyen az eredmény, ezek a viták rávilágítanak a mesterséges intelligencia motorok átalakító természetére – és arra, hogy figyelembe kell venni mind a kiaknázatlan kreatív potenciáljukat, mind a jellegzetes művészi stílusok védelmét.

Forrás: The Conversation

Exit mobile version