Mesterséges Intelligencia és Művészet

Írta: Varga Zsuzsa, fotók: Farkas Norber. Megjelent: 2023. január 29. 24.hu link: https://24.hu/kultura/2023/01/29/mesterseges-intelligencia-muveszet-kepalkoto-szoftver-ai-krizbai-gergely/

A mesterséges intelligencia jelenléte már nem újdonság a képzőművészetben, a bárki által elérhető képalkotó programok azonban igen. Legyőzhetetlen konkurenciát vagy szupererőt jelentenek ezek az alkotók számára? És vajon mindent elárasztanak-e majd a high-tech plágiumok? Krizbai Gergely grafikust kérdeztük.

Mostanában sokszor kerül a figyelem középpontjába a mesterséges intelligencia (MI) és annak művészeti ágakban való használata: lehet már zenét vagy kisregényt íratni különböző programokkal, és egyre lenyűgözőbb képeket is létrehozhatunk ezek segítségével.

A mesterséges intelligenciával működő képalkotó programok már évek óta jelen vannak a művészeti szférában, az idén megjelent szoftverek azonban, mint a Dall-E 2, a Stable Diffusion vagy a Midjourney eddig sohasem látott minőségben képesek elképesztően részletes és egészen profi képeket, grafikákat előállítani. A Dall-E nevet viselő (Salvador Dalí és WALL-E nevének keresztezéséből) programot a mesterséges intelligenciával foglalkozó, Elon Musk alapításával létrejött OpenAI nevű cég mutatta be még 2021-ben, idén áprilisban pedig megjelent a sokkal profibb második verziója is, aminek butított változata, a Dall-E Mini online is kipróbálható. 2022-ben debütált a két rivális: egy független kutatólaboratórium saját fejlesztésű, egyelőre egy Discord szerveren kipróbálható Midjourney nevű programja, és a forráskódját elsőként nyilvánosság elé táró Stable Diffusion. Akadnak, akik attól tartanak, hogy ezeknek a programoknak a nagyközönség elé tárása egyet jelentett Pandora szelencéjének kinyitásával, és olyan fékezhetetlen erőket szabadított el, amelyek az általunk ismert művészet felszámolásával fenyegetnek.

Művész-e a mesterséges intelligencia?

Nemrég mi is megírtuk, hogy heves vitát váltott ki az alkotók körében, amikor egy coloradói állami vásáron egy mesterséges intelligencia által generált kép nyerte el a digitális művészeknek kiírt versenyt. Az ellenzők szerint a mesterséges intelligencia egyszerűen nem képes emberi érzelmeket visszaadni, nem tud úgy megalkotni képeket, vagy animációkat, ahogy egy ember alkotná meg ezeket, így a segítségével alkotott termékek nem is érdemesek a művészet címre (amit ugye általában az emberi lélek kreatív önkifejezésével szoktunk definiálni).

Guillermo del Torónak például, aki új, stop-motion technikával készült filmje, a Pinokkió kapcsán nyilatkozott, megvan a véleménye a mesterséges intelligenciával készült animációról: „Úgy gondolom, hogy a művészet a lélek kifejeződése. A legjobb esetben magában foglalja mindazt, ami vagy. Én az emberek által alkotott művészetet szeretem és fogyasztom, az teljesen meg tud hatni. A gépek által készített illusztrációk nem érdekelnek. A mesterséges intelligencia képes adott információk alapján újat alkotni, de rajzolni nem tud. Nem tud megragadni egy érzést, egy arckifejezést vagy az emberi arc finomságát.” Korábban Mijazaki Hajao, Oscar-díjas japán rajzfilmkészítő is elég sarkosan fogalmazott a témában, amikor mutattak neki egy mesterséges intelligencia által létrehozott animációt egy zombiszerű lényről: „Bárki csinálta ezt az izét, fogalma sincs róla, hogy mi a fájdalom. Undorodom tőle. […] Szerintem ez magával az élettel szembeni sértés.”

A kérdés azonban, hogy nevezhetjük-e művészetnek az MI által készített alkotásokat, egyelőre elég félrevezető, a fent említett programok ugyanis emberi utasítások alapján készítenek képeket, nem pedig maguktól. A mesterséges intelligenciával működő, text-to-image, azaz „szövegből kép” szoftverek lényege, hogy a felhasználónak meg kell adnia egy leírást („promptot”) az előállítani kívánt képről, az MI pedig „kiköpi” a megadott szavaknak megfelelően generált alkotásokat.

Az alábbi kép például a leírás szerint ezzel a prompttal készült a Midjourneyben: „Warhammer stílusú légifelvétel, golden hour, az idők hajnalán, arany világítás, rémálom, szimbolikus stílusban, sötét fantasy város, vízesés”.

A generatív MI-programok gépi tanulással (machine learning) működnek. Nagyon leegyszerűsítve egy hatalmas tanuló adatbázis mintái alapján megtanulnak bizonyos alakzatokat, képeket, vizuális kódokat konkrét szavakhoz társítani, szabályszerűségeket felismerni, és ezek alapján új tartalmakat létrehozni. Ebből következik, hogy az MI segítségével dolgozó alkotók leginkább kooperációként írják le ezt a tevekénységet, az emberi tényező ugyanis egyelőre nem elhanyagolható a működésükben. Szükség van a célt meghatározó promptokra, sőt, a Midjourney-ben például lehetőség van a program által kidobott képek továbbfejlesztésére, tökéletesítésére, így egyfajta folyamatos párbeszédre az alkotó és az MI között. A mesterséges intelligencia tehát – egyelőre legalábbis – nem tetszeleg a művész szerepében. Alapvetően emberek által készített munkákon tanul, azokban fedez fel és sajátít el mintákat, így egyelőre még nem érdemes azon vitatkozni, hogy rendelkezhet-e kreativitással vagy művészi identitással.

"A tucat most már legenerálható. Ha művész akarsz lenni, akkor viszont nem elég tucatot csinálni, és ez nem biztos, hogy baj"

– mondta a 24.hu-nak Krizbai Gergely (művésznevén Krizbo) grafikus. Szerinte annyi változást azért hozhat az MI megjelenése a művészvilágban, hogy aki igazán ki akar tűnni a tömegből, annak valóban egyedit kell alkotnia, olyan képeket, amiket nem lehet csak úgy reprodukálni az MI segítségével. „Végül úgyis a közönség dönt, hogy elfogadják-e, mint művészeti alkotást […], de azt mutatja a tapasztalat, hogy nem szokott elég lenni a konzerv az embereknek. Van millió mód arra, hogy otthoni körülmények között főzzünk kávét, mégis kávézókba járunk.”

Korábban is előfordult már a történelem során, hogy egy-egy eszköz megjelenését vagy térnyerését a művészetre gyakorolt (vélt vagy valós) káros hatásai miatt elítélték. Charles Baudelaire-nek például meggyőződése volt, hogy a fényképezés nem művészet, és nem is tekinthető művészetnek: „azáltal, hogy behatolt a művészet területére, a művészet leghalálosabb ellenségévé vált”. A művészet fogalma folyamatosan változik, a definíció állandóan megújul. A képzőművészek egyik fő ambíciója évszázadokon át a valóság minél pontosabb ábrázolása volt, amikor pedig a kamera megjelenésével lehetségessé vált egy gombnyomással megörökíteni a látványt, sokan az absztrakció felé fordultak.

"A fotográfia tehát visszavonhatatlanul újraírta a művészet fogalmát, és nagy valószínűséggel az MI is egy ilyen mérföldkő."

Tükröt tart a grafikusok elé

A programokat áruló cégek jellemzően a művészet demokratizálását hirdetik, hiszen ezek segítségével bárki könnyedén alkothat lenyűgöző képeket anélkül, hogy értene az ecset forgatásához vagy a Photoshop bűvöléséhez. Az egyik valós fenyegetés tehát, amit ezek a programok jelenthetnek az, hogy általuk a grafikai eszközöket nem ismerők is bekapcsolódhatnak a képalkotásba, akár kiszorítva onnan a digitális művészeket.

A stockfotók helyett például remekül lehet mesterséges intelligencia által generált képeket használni, a Shutterstock képgyűjtemény nemrég meg is állapodott az OpenAI-al a Dall-E beépítéséről a gyűjteménybe. Az illusztrációk lehetnek a legnagyobb veszélyben: előfordulhat, hogy cikkek, könyvek, lemezborítók képeit nemsokára már programok készítik a grafikusok helyett, hiszen összemérhetetlenül gyorsabb és olcsóbb megoldást jelentenek.

Krizbo szerint azonban egyelőre felesleges a vészharangokat kongatni: az MI pont olyan, mint a többi grafikai eszköz, meg kell tanulni használni, fel kell térképezni, hogy hogyan építhető be az alkotási folyamatba, és ki kell használni az általa nyújtott lehetőségeket.

"Azt látom, hogy ezzel baromira kell foglalkozni, minél többféle kísérletet, minél több felhasználási módot ki kell vele próbálni, mert az MI már itt van."

Kísérletezgetésének egyik eredménye az alábbi kép is, ahol az MI csak a grafika koncepcióját, alapját biztosította: a Midjourney kb. 20 másodperc alatt gyártotta le a képet, a végeredményen aztán Krizbo 8 órát dolgozott. „Attól nem félek, hogy az MI kiváltja a művészeket, mert ami így létrejön, az nem egy műalkotás, hanem egy adathalmazból, generatív eszközökkel létrehozott kép. A kép fogalma pedig nagyon más, mint a műalkotásé.”

Szerinte az, ahogy az MI szabadon nyúl az interneten található képekhez, és szabadon használja fel azokat új képek létrehozására, tulajdonképpen tükröt tart a grafikusok elé, akik pontosan ugyanezt csinálják. „Ez a kontroll most kicsúszott a tervezők kezéből, ezért most mindenki borzasztóan meg van rémülve. De aztán eltelik egy pár év, rájövünk, hogy hogyan lehet ezt használni, és megtalálja a helyét az alkotásban.” Míg látványtervek készítésére például tökéletesen alkalmazhatóak ezek a programok, azért komolyabb grafikák, tervek elkészítésére egyelőre nem képesek: a vonalrajzokkal, apró részletekkel vagy mondjuk betűk összekapcsolásával még meggyűlik a bajuk.

High-tech plagizálás

Az már fogósabb kérdés, hogy kit nevezünk meg művészként a fent említett, szövegből képet alkotó programok műveinél. Az „alkotót”, akinek (akár több) leírása és utasítása nyomán megszületik a mű? Vagy esetleg a fejlesztőket, akik nemcsak létrehozták magát a mesterséges intelligenciát, de annak is kapuőrei voltak, hogy milyen anyagokon tanuljon a program? Esetleg azokat a művészeket, fotográfusokat, akiknek alkotásai alapján a program megtanult alkotni?

A Stable Diffusion nemcsak forráskódját tette közzé, de azt is megosztotta, milyen képi adatbázisokkal tanították a mesterséges intelligenciát. Ezek között szerepel a LAION-5B adatbázis, ami az interneten szabadon elérhető, de egyébként jogdíjas képeket is tartalmaz. Így kerülhettek ismert művészek alkotásainak ezrei is az MI által használt tanuló adatbázisba, anélkül, hogy az alkotók egyáltalán tudtak volna azok felhasználásáról, ez pedig érdekes jogi és etikai kérdéseket vethet fel a szoftverek működését illetően. A felhasználók ugyanis a minél profibb és stílusosabb képek generálásához előszeretettel jelölnek meg alkotókat a képek leírására szolgáló promptokban. A legnépszerűbb nevek természetesen a különleges stílussal alkotó nagy klasszikusok, mint Van Gogh, Picasso vagy Edvard Munch, de még élő művészek is sokszor előkerülnek. Az egyik leggyakrabban használt név például egy lengyel digitális művészé, Greg Rutkowskié. Az ő munkái nem csak hogy nagy számban és jó minőségben megtalálhatóak az interneten, hála az olyan, portfóliókat felsorakoztató weboldalaknak, mint az ArtStation, de rengeteg képéhez leírásokat is csatolt a látássérültek és a keresőmotorok kedvéért, ez pedig az MI betanításakor is nagy segítséget jelentett.

A művészek nevével kiegészítve a képleírásunkat az ő munkáikat idéző képeket kaphatunk, amelyek sokszor megtévesztő pontossággal adják vissza a festők stílusát. Rutkowski eleinte örült a népszerűségnek, később viszont egyre aggályosabbnak találta azt.

„Még csak egy hónap telt el. Mi lesz egy év múlva? Valószínűleg nem fogom tudni megtalálni a munkámat, mert [az internetet] elárasztják majd a mesterséges intelligencia alkotásai” – mondta.

Nem Rutkowski volt az egyetlen, sok alkotó szembesült azzal, hogy hozzájárulásuk nélkül használták fel munkáikat az MI betanítása során, így a nevüket bepötyögve bárki képes lehet az ő stílusukat imitálva képeket készíteni. Szerzői jogi szempontból elég bonyolult a helyzet, egy alkotó stílusát ugyanis nem lehet levédetni, csak magát az alkotást. Az MI pedig nem pontosan másol, a feldolgozott képek alapján újat alkot. Ha egy ember csinálja ugyanezt (egy művész alkotásait elemezve, az ő stílusában újat alkot), az nem vet fel etikai kérdéseket, az inspiráció és a feldolgozások a művészet szerves részei.

Egy művészekből álló kollektíva, a Spawning létre is hozott egy Have I Been Trained?nevű eszközt, melynek segítségével az ember megtudhatja, hogy szerepelt-e a Stable Diffusion képzéséhez használt 5,8 milliárd kép között, és dönthet a jövőbeni képkészletekben való megjelenésről. A cég vállalta, hogy a következő verzióban már figyelembe fogják venni a művészek döntését ezen a téren, de az továbbra is kérdéses, hogy mennyire etikus a szerzői joggal védett képek felhasználása a művészek stílusának lemásolásához, az, hogy ők ezért nem kapnak semmiféle kompenzációt, illetve ennek a mások kreatív tevékenységére épülő programnak értékesítése.

"Én nagyon sajnálni fogom azokat, akiknek MI-generált Krizbo-képeik vannak, mert én azért csak jobbat tudok csinálni, mint egy mesterséges intelligencia"

– mondta erről Krizbo, akinek képeit egyébként úgy tűnik, nem használták így fel. A grafikus szerint azért nagy érdekellentétet valószínűleg nem fog szülni az MI ilyesfajta használata, hiszen aki egy mesterséges intelligencia által generált „másolatot” tesz ki otthon, az valószínűleg azért választja ezt, mert nem vásárolna a művésztől, aki pedig szívesen vesz eredetit, az nem fog MI által generált képet kiakasztani.

↑Back to Top