01 - Mesterséges intelligencia, művészet és világvége

Az alábbi cikk 2024 júliusában jelent meg a Kortárs folyóiratban, és a mesterséges intelligencia, technológia, művészet, kultúra kapcsolatáról szóló cikksorozatom első része.

1. Bevezetés – Montázs volt a jelem az oviban

„A montázs lényegében meglévő elemekből való építkezést jelent, és ilyen módon történő előállítását új dolgoknak. Jóllehet az ilyen „hozott anyagból dolgozásnak” mély és ősi gyökerei vannak az emberi munkavégzésben (például szabó mesterség), a teljes eredetiséget hirdető magas kultúrában mindig csak bizonyos forradalmian új technikai lehetőségekhez (fotográfia, filmkészítés, elektronikus zene) kapcsolódóan jelent meg. Az informatika területén a montázstechnika megjelenése áttérést jelent az egyedi és eredeti szoftverfejlesztés egyeduralmáról a kész vagy félkész szoftverekből történő összeállítás kiegyensúlyozottabb megközelítése felé.”
Wikipedia – https://hu.wikipedia.org/wiki/Montázs

1.1
Ahhoz, hogy bármilyen módon viszonyulni tudjunk a Mesterséges Intelligenciával (M.I.) – angolul Artifical Intelligence (A.I.) – létrehozott tartalmakhoz, szükséges megértenünk, hogy ezek – legyen szó képről, szövegről, zenéről, videóról – miképp készülnek. Mi az az alapelv, ami összefogja ezt az egyébként egyáltalán nem új technológiát.

A rendszer, ami mentén bármilyen M.I. alkotás létrejön, talán leginkább a montázs-elmélethez kapcsolható. A bizonyos logika mentén egymás mellé helyezett tartalmak együtt új jelentést hoznak létre. Elég csak az 1925-ös Patyomkin páncélos c. film ikonikussá vált – és számtalanszor megidézett – jelenetére gondolni a babakocsival és a lelőtt nő snittjével. A film rendezője Szergej Mihajlovics Eisenstein, többek között az ő művészetelméleti munkásságának köszönhetően vált széles körben ismertté a montázs-elmélet. Eisenstein a montázst, a képek egymás mellé állításának módját tekintette a film lényegének. Felfogását az 1+1=3 képlettel szokták jellemezni: két egymást követő kép összhatásából olyan új jelentés születhet, amely jelentést önmagában egyik kép sem tartalmazza.
A néző a Patyomkin esetében összekapcsolja a két motívumot és felfedezi a mintát. Ha nő és babakocsi, akkor anyaság. Nem egyértelmű, hogy a babakocsi a nőhöz tartozik-e vagy sem, mégis, a két elem ismerős mintázatra emlékeztet – vagyis az agy nem csak felismer, de létre is hoz kapcsolatokat. Feltételez. Ahogy az embereknél, úgy az M.I. esetében is lehetnek hibásak ezek a feltételezések. Két olyan elem között is találhat kapcsolatot, amik között valójában nincs. Az ilyen, adott esetben hibás feltételezéseket hívjuk hallucinációnak, de erről később.

Ezt a fajta összekapcsolást nem csak a művészetben, de a való életben is tapasztalhatjuk: az úton sétálva, a sziréna hangjára félrehúzódunk, mert a hang csak mentőt/tűzoltót/rendőrt jelenthet, érdemes hát odafigyelni. Az agyunk évezredek alatt megtanulta, hogy az életben maradáshoz mintákat kell találnia a bejövő jelek káoszában. A mintakeresés eszköze a neuron-háló, ami az agyban tárolt számtalan információt egy sűrű szövésű struktúrába rendezi – az ezen belüli kapcsolódási pontok száma lényegesen több, mint amennyi csillagot látunk a teljes megfigyelhető univerzumban!
Több komponensből egy új jelentés jön létre a korábban megtanult információk alapján. Az informatika nyelvén: az emlékeink „felparaméterezték” az agyunkban található hálózat egyes pontjait. Az egyes jelekhez tartalmakat rendelünk, majd ezen jelek együttes jelenlétekor újabb tartalmakra következtetünk, sőt, új tartalmakat hozunk létre.

1.2
Erősen ajánlott videó-esszé az „Everything is a Remix” vagyis „Minden remix/montázs” c. fantasztikus videó-dolgozat, ami egészen addig megy el, valójában nem léteznek új dolgok, minden a már korábban megfogalmazott gondolatok újrakeveréséből és transzformációjából jön létre. Maga a nyelv is így működik. Megtanuljuk a nyelvünk legalapvetőbb, elemeit, a betűket, majd ezek kombinációit, a szavakat és azok jelentését, s végül ezekből a jelentésekből komplex tartalmakat, mondatokat hozunk létre. A mondatok összessége a szöveg, a szövegek összessége a könyv, a könyvek összessége a kultúra, a kultúrák összessége az emberi civilizáció. Az egész életünket különböző jelentések megismerésével, majd újrarendezésével töltjük. Az agyunk a már megismert jelentések összességében mintázatokat keres, majd, ha kreatív egyének vagyunk, olyan új módon kombinálja őket, mint előttünk senki. Vagy legalábbis kevesen. Esetleg a tudtunk nélkül. Mindegy.

Ha ezzel a szemmel nézünk a minket körülvevő világra, kicsit közelebb kerülhetünk ahhoz, hogy megértsük, hogyan működik a Mesterséges Intelligencia. Az újság, például, amit az olvasó a kezében tart, millió egymáshoz eredetileg egyáltalán nem kapcsolódó anyag, ötlet és gondolat sajátos montázsa.
Fogalmilag hasonló montázs minden egyes cikk és szöveg, amit olvashatunk. Korábbi cikkekre, korábbi gondolatokra épülő kesze-kusza, egymásra hivatkozó, egymást megidéző montázs-elemek kibogozhatatlan hálója. A kultúra természete, hogy minden dolog valami más dolog alapján születik meg. Óriások vállán állunk. Egyébként maga ez a kifejezés, „Óriások vállán állunk”, demonstrálja a legszebben a hivatkozások és referenciák összetettségét.
Az „óriások vállán állni” kifejezés egy metafora, amely azt jelenti, hogy „a szellemi fejlődés érdekében felhasználjuk az előttünk járó nagy gondolkodók által szerzett ismereteket”.
Ez a kifejezés az óriások vállán álló törpék metaforája (latinul: Nani gigantum humeris insidentes), és azt fejezi ki, hogy „Az igazság felfedezése a korábbi felfedezésekre építve”. Ez a fogalom a 12. századra datálható, és Salisburyi János szerint Chartres-i Bernátnak tulajdonítják. Legismertebb és legnépszerűbb kifejezése azonban Isaac Newton 1675-ös levelében fordul elő: „Ha messzebbre láttam [mint mások], akkor azt óriások vállán állva tettem”.

1.3
Az M.I. logikája is ehhez hasonlít – különbség csak a folyamat sebességében van, hiszen amíg a nyomtatás mai formája jó pár száz év, és sok ezer ember kitartó munkájából jött létre, addig a szilícium-lapkákon futó szoftverek felfoghatatlanul gyorsan készítenek leírhatatlanul sok elemből végtelen számú új montázst.

Dolgozatom egyik célja, hogy érthetően elmagyarázzam, hogyan dolgozik az M.I., és milyen módszerrel hozza létre montázsait. Nyugodjon meg az olvasó, nem fogok részletesen kitérni a szigorúan informatikai kérdésekre, én se vagyok informatikus, és talán bölcsész-szempontból ez nem is releváns. Másrészt be fogok mutatni néhány saját, illetve más alkotóktól származó munkát, amik élnek az M.I. adta lehetőségekkel, legyen az alkalmazott- vagy képzőművészeti felhasználási terület. Harmadrészt pedig leírom majd, hogy melyek azok az okok, amik miatt én is tartok kissé a technológiától – noha magamat a techno-optimisták táborába sorolom.

2. Mi van a dobozban?

Avagy így készül a generatív mesterséges intelligencia.

2.1
Maradva az emlékek, és a montázs analógiájánál, az M.I., ugyanúgy, ahogy az emberi agy is, jelekből dolgozik. Nevezzük ezeket „emlékeknek” az egyszerűség kedvéért. A gyakorlatban persze milliárdnyi képből, hangból, videóból és szöveges dokumentumból álló gigantikus adatbázisokra gondolok. Egy M.I. élete, ahogy egy emberé is, tanulással kezdődik. Amikor egy képek generálására alkalmas modellt meg akarunk tanítani a képcsinálásra, „fel kell paramétereznünk” azt. Meg kell neki tanítanunk az egyes szavak jelentését, majd a jelentéshez kapcsolódó képi információkat. Vegyünk egy nagyon egyszerű parancsot – vagy „promt”-ot, ahogy azt a szaknyelv mondja:

PROMT: Kiskutya kék háttér előtt

Figyeljük meg, milyen kérdések merülnek fel egy ilyen egyszerűnek tűnő mondatban: Kiskutya: Állatfaj, azon belül is kutya, abból is kicsi. Mi az, hogy állat? Mi az, hogy kutya? Többféle kutya van? Mi az, hogy kicsi? Milyen értelemben kicsi? Kék: Szín. Mi az, hogy szín? Több szín van? Ezek egymáshoz képest miben különböznek? Stb.

Azért, hogy a rendszer értse, mit jelentenek ezek a kifejezések, szorgos dolgozók tízezrei foglalkoztak azzal, hogy az egyes M.I. modelleket betanítsák: megtanítsák a fogalmak jelentését a szoftvernek. (Ennek később komoly jelentősége lesz: kik tanították be, és milyen adatbázisból, milyen szempontok szerint stb.) Tehát megmutatták a modellnek: ha azt mondom „kék” akkor erre a színkódra gondolok. Árnyalták a kifejezéseket: sötétkék, világoskék, középkék, Klein-kék, Hupikék Törpikék-kék, IBM-kék stb. A betanítás során elmagyarázták a rendszernek, melyik szó mit jelent. Megtanították a képek nyelvén beszélni a gépet.

Ez alapján a modell alkalmassá vált arra is, hogy önmagát tanítsa – ez a neurális hálózatok és a deep learning valódi csodája. Például, ha egy adott színkód kéket jelent 10 550 435 db képen, akkor szükségképpen a 10 550 436. képen található árnyalat, aminek a színkódja elég közel esik az eddig kékként definiált színhez, szintén kék.
Elég melósnak tűnik igaz? Eleinte az is, aztán hála az öntanító rendszereknek, a folyamat felgyorsul és egyre kevesebb emberi beavatkozást igényel – cserébe elképesztően számítás-igényes. A Dall-E 2 nevű képgeneráló programot például 100 000 – 200 000 darab videokártya együttes munkájával tanították be, több mint 12 000 000 kép felhasználásával, a Midjourney-t pedig, ami a jelenleg használt legfejlettebb képgeneráló rendszer, milliárdnál is több kép segítségével tanulta meg, hogy néz ki egy Kiskutya. Kék. Háttér. Előtt.

Promt: a puppy on blue backround
Midjourney v6
2024.

2.2
A következő kérdés, hogy a képek és címkék segítségével felállított hatalmas hálózatból, hogyan tudunk új képeket kinyerni. Magyarán amikor kiskutyát kérünk tőle, akkor valóban kiskutyát kapjunk, ne pedig mondjuk kiscsirkét. Ráadásul minden egyes felhasználó, minden egyes parancsakor, minden esetben egy új kép szülessen!
Ezen a ponton kicsit megváltozik a viszony a programozók és a modell között. Azt, hogy mi történik a modellben nem értjük pontosan – ez egy olyan komplexitású a rendszer, ami már nehezen feldolgozható ember számára, túlzás nélkül matematikai zaj. Azon viszont tudunk dolgozni, hogy ebből a komplexitásból olyan végeredmény szülessen, amit kívánunk.

Azt is fontos elmondani, hogy a képgenerálás valójában nem egy, hanem több, egymás mögé rendelt, különböző funkciójú neurális hálózat együttes működésének köszönhetően válik lehetségessé. Egyrészt van egy nyelvi modell, ami a szövegesen bevitt parancsokat értelmezi, és a képek generálására használt, másik modell számára érthető kóddá alakítja. Másrészt van egy generatív modell, ami a kódból képeket generál. Egy nyelvi-program fordít ember és gép között!

Ha rendelkezünk egy megfelelően betanított modellel, amiben az egyes kifejezés+kép párok egyeznek az egyetemes emberi emlékezetben megőrződött kifejezés+kép párokkal – tehát a „kiskutya” kifejezés nem egy apró, sárga, pihe-puha csőrős állatra utal – elkezdhetünk új képeket generálni.
A modell egy végtelenül bonyolult képi algoritmus segítségével – diffúzió – montázsokat hoz létre. A már említett Midjourney esetében például olyan paraméterekre is hivatkozhatunk, mint egy konkrét festő stílusa:

PROMT: Kiskutya Kék Háttér Előtt Van Gogh stílusában

A modell a nyelvfelismerő program segítségével megérti az egyes szavak jelentését, sőt, a teljes Van Gogh-életmű ismeretében azt is tudja, hogyan kezelte a festő az ecsetet – így képes létrehozni egy olyan „montázst”, aminek ugyanúgy eleme a kiskutya kék háttér előtt, mint a holland festő jól felismerhető ecsetkezelése. Érti, mit jelent a parancs végén a „...stílusában” kifejezés, így tudja, hogy nem egy Van Gogh portrét szeretnénk a kutyusunk mellé, hanem csak a technikai megoldást kívánjuk látni.
Sőt, mivel a program nem biztos abban, hogy elsőre eltalálja, hogy mit szeretnénk, a legtöbb esetben mindjárt négy verziót is készít minden egyes parancshoz. Majd, a választásunk alapján képes újabb iterációkat bemutatni az egyes verziókból. Tehát, ha a négy közül egyik sem tetszik igazán, de például a harmadik már közel áll az elképzelésünkhöz, a program a harmadik képhez hasonló, de valamivel pontosabb, újabb négy verziót készít nekünk.

Minden kép egy pont egy többdimenziós adatmátrixba – latent space – rendezett koordináta-rendszerben. Minden dimenzió egy tulajdonságot jelent, minden képnek van egy pozíciója ezen a koordináta-rendszeren és a diffúzió segítségével készített újabb és újabb iterációkkal egyre közelebb kerülünk ahhoz a ponthoz, ami kielégíti a képpel kapcsolatos elvárásainkat.

Természetesen a diffúzió ennél jóval bonyolultabb, mert nem egészen képekből dolgozik. Ennek a pontos technikai részleteibe nem szeretnék hosszasan belemenni, de nagyon röviden a következő logika mentén működik.
A betanítás során felcímkézett képeket zajjá alakítja a rendszer és megjegyzi a képből zajjá válás lépéseit. Tehát, hogy a már említett kiskutyához használt eredeti képi referenciából hogyan lett totális képzaj, innen a név: diffúzió. Majd mikor új kiskutyát kérünk tőle, véletlenszerű zajból – ezt nevezzük seed-nek – új kiskutyát állít elő, visszafelé megismételve a zajjá válás folyamatát. Fontos, hogy a kiindulási zaj minden esetben véletlenszerű legyen, hiszen, mivel számítógép, a modell lefutása determinisztikus, magyarán ha nem változna a seed, minden lefutáskor ugyan az az eredmény születne.

Promt: a painting of a blue puppy on blue backround in the style of Vang Gogh
Balra, jobbra, fentről lefelé: A diffúzió folyamata, homályos, zajos képből a kész képig.
Midjourney v6, 2024.

Az egyes rendszerek mostanra egészen kifinomulttá váltak, már a kizárólag csak egyes művészeti területek szakemberei számára érthető „stílusjegyeket” is ismernek.
A fotósok generáltathatnak maguknak 85 mm-es anamorfikus lencsével, Kodak Portra 400-as filmre készült, túlexponált fényképet arról, ahogy André Kertész a Holdon szkafander nélkül focizik Robert Mapplethorpe-al.
Bátorítom a festőket, hogy expresszív stílusban, falemezre, festőkéssel felkent, mész-sár vegyes technikával készített görög ortodox ikont rajzoltassanak Donalt Trump-ról, Anselm Kiefer stílusában.
Sőt, az írókat, hogy a ChatGPT-vel – ami egy nyelvi modell, nem képet, hanem szöveget generál – próbálják ki, milyen novellát írna Edgar Allen Poe arról a bizonyos esetről, amikor a „Holló” nevű űrhajó utasaként először találkozott az idegenekkel a Jupiter közelében.

Az, hogy milyen végeredmény születik egy-egy promt alapján, nagyban függ attól, hogy a felhasználói bázis milyen tartalmakat választott ki vagy lájkolt. Nem csak az adatbázisok, de mi, a felhasználók is tanítjuk a rendszert – mi is paraméterezzük az adatbázist. Ha például egy bizonyos típusú megoldást több felhasználó jelölt meg sikeres végeredményként, a rendszer érteni fogja, hogy az a többség számára kívánatos. Az M.I. ún. ízlés-felmérést végez, hogy még hatékonyabbá váljon! Ez az oda-vissza hatás ugyanakkor nem valós-idejű. Nem kockáztatná meg egy cég se, hogy a felhasználók egy csoportja tudatosan, offenzív vagy a közösségi alapelveket sértő tartalmak létrehozásába manipulálja bele a rendszert.
Helyette verzióról verzióra, manuális eszközökkel, a programozók finomítják az modellt. Izgalmas egyébként nyomon követni, hogy változik hetek-hónapok alatt egy-egy generatív program stílusa, milyen formákat, milyen megoldásokat részesít előnyben stb. Mi emberek alakítjuk ezeket a rendszereket, amik így a kollektív emberiség ízlését és gondolkodását tükrözik. Az M.I. rendszerekben önmagunk tükörképét látjuk.

A program különböző generációval készített képek
Promt: a real photo of God
Felső sor, balról jobbra: Midjourney v1, v2, v3
Alsó sor, balról jobbra: Midjourney v4, v5, v6
2022-24.

Összegezve. A mesterséges intelligencia rendszereket, így a képeket generálókat is, nagy adatbázisok felhasználásával „tanítják be”. Ebben az esetben a rendszer milliónyi különböző kutya képét elemezve tanulja meg, hogy miként néz ki egy kutya, milyen formái, színei és méretei lehetnek.

Amikor a „kiskutya kék háttér előtt” kérést kapja a rendszer, először is felidézi azokat a vizuális elemeket, amiket a kutyákról tanult. A mesterséges intelligencia itt alkalmaz egy ún. diffúziós modellt, amely kezdetben véletlenszerű zajt generál, majd fokozatosan formálja ezt a zajt a kívánt képpé. Azaz, a rendszer először létrehoz egy teljesen véletlenszerű képet, amit fokozatosan «tisztít meg» a zajtól, miközben egyre inkább kikristályosodik a kiskutya képe a kék háttérrel.

Ebben a folyamatban a mesterséges intelligencia nem csupán egy előre programozott sablont követ, hanem valódi „tanulási” folyamaton megy keresztül, ahol minden egyes lépésben finomítja az előző képet, közeledve a végleges, kívánt eredmény felé. Ezt úgy kell elképzelni, mintha egy művész fokozatosan dolgozna ki egy vázlatot, ahol az egyes ecsetvonásokkal egyre pontosabban formálja meg a végső alkotást. A mesterséges intelligencia által generált kép így nem csupán egy egyszerű másolata a valóságnak, hanem egy új, önállóan létrehozott kép, amely az adatbázisban tárolt információk és a rendszer kreatív algoritmusainak kölcsönhatásából születik meg.

2.3
Ha már a nyelvnél tartunk: talán ennyiből is egyértelmű, hogy az M.I. igazából beszélni tanul. Ugyanazon logika szerint, ahogy a szavakhoz tartozó képeket megtanítottuk neki, a nyelv egyes aspektusait is paraméterezzük a számára. A már említett ChatGPT – aminek fejlesztője az OpenAI, mely fejlesztőt annak összes szabadalmával együtt a Microsoft, a Windows és a Word fejlesztője birtokolja – adatbázisa tartalmazza az emberi civilizáció ismert beszélt nyelvein megírt tartalmak egy részét – igaz, egyelőre igazán jól csak angolul tud. Ennek elsősorban gazdasági okai vannak, az angol az internet egyezményes nyelve – magyarul is beszél, de mivel mi kis piac vagyunk, nem éri meg túl sok energiát fektetni a nyelvünkbe. Érdekesség például, hogy ha magyarul kérdezzük, akkor a magyart először angolra fordítja, megírja a választ angolul, majd azt visszafordítja magyarra. Éppen ezért a nyelv sajátosságai, árnyalati könnyen elvesznek a fordítások közben.

Az M.I. képes értelmezni a bevitt parancsot, sőt, át tud fogalmazni komplex szövegeket úgy, hogy annak más és más stilisztikai jellemzői legyenek. Száraz jogi paragrafusból bibliai parancsolatot, vicces hangvételű csajozós dumát, esetleg borzalmasan unalmas kiállítás-megnyitó szöveget fogalmaz. Kijavítja a helytelen mondatokat és kicseréli az egyes szavakat úgy, hogy elkerülhessük vele a szóismétléseket. Napi szinten használom arra, hogy az angol nyelvű instagram-posztjaim megfogalmazásában segítsen, sőt, egy M.I. fordította angolra a portfólióm szövegeit. Nem tökéletes, de némi manuális igazítással megfelelő.

A Microsoft például beépítette a munkára szánt program-csomagjába Copilot néven: az új Outlook egy hosszú, több levelet tartalmazó folyam teljes tartalmát összefoglalja egy rövid bejegyzésben, majd a kért paraméterek szerint megválaszolja az e-maileket. Sőt, talán azt is meg tudja állapítani, hogy mely leveleket írta a feladó egy másik Mesterséges Intelligencia segítségével. M.I-k beszélgetnek M.I-kel a felhasználók nevében.

Ezen a ponton fontos megemlíteni, hogy az Mesterséges Intelligencia alkalmazási módja jogi és technológiai értelemben bizonytalan státuszban van. Kis túlzással naponta változik, hogy a technológiát milyen mértékben és milyen feltételek mellett építik be a szolgáltatók – vagy egyáltalán beépítik-e. Amikor ez a szöveg született, a Microsoft az összes termékébe integrálta a Copilot szolgáltatást, de még nem világos, hogy ez végül benne is marad-e a szoftverekben, vagy a jogi és társadalmi okokból kiveszik belőle.

Fontos viszont, hogy az M.I. nem értelmezi összefüggéseiben, amit kérünk tőle. Mármint a szó emberi értelmében. Nem tudja például kiszűrni az iróniát vagy a szarkazmust, nem érti a vicc és a valódi közlés közötti különbséget. Maradva a fenti e-mail folyam példájánál, nem fogja tudni, hogy a amikor a kollégánk azt írja: „Holnap érkeznek a Nokiás-dobozok.” akkor arra gondol, hogy másnap valószínűleg megérkezik a várva várt kifizetés és az ügyfél kiegyenlíti a számlát. Az M.I. értelmezésében helyet kéne csinálni az irodában, bizonytalan mennyiségű és méretű, telefonokat tartalmazó doboznak.
Azt tudja, hogy a szavak milyen jelentésre hivatkoznak, de holisztikusan nem ismeri ezek valódi, emberi jelentését. Tud nekem szerelmeslevelet írni, hiszen milliónyi szerelmeslevél után ismeri a toposzokat, de ha egy ChatGPT-s levéllel igyekszem meghódítani szívem választottját, valószínűleg kapufa lesz a vége. Az M.I. tudja milyen egy tipikus szerelmeslevél, de nem tudja mit jelent szerelmesnek lenni. Érti a megemelkedett szívritmust, az izzadó tenyeret, sőt még talán a pillangókat is a hasban, de azt a komplex érzelmi konstrukciót, amit a szerelmes ember átél, mikor a választottját meglátja az kocsma túloldalán, na azt nem érti. Ezért történhet meg, hogy képes szerelmeslevelet írni egy hűtőszekrényhez is – nagyon szórakoztató a végeredmény egyébként, kipróbáltam.

3. Már megint a marketingesek.... – Így csúsztat a média az M.I.-ről

3.1
Majdnem 100%-ig biztos vagyok benne, hogy minden egyes ember, aki ezt a cikket olvassa, életében legalább egyszer találkozott már Mesterséges Intelligenciával, csak nem tudott róla. Például biztos vagyok benne, hogy a legtöbben vásároltak már online...

Amikor online vásárlunk valamit, a weboldal mögött egy algoritmus bújik meg, egy primitív Mesterséges Intelligencia, ami figyeli, merre kering a kurzor, milyen termékekre kattintunk rá, mi kerül végül a kosárba és milyen korábbi vásárlásaink voltak. Ez alapján profilt hoz létre rólunk, a felhasználóról. Ehhez még az se kell, hogy regisztrált vásárlók legyünk. Felmerült már például benned, kedves olvasó, hogy mire használják az online boltok a Sütik – más néven Cookie-k – intézményét?
Ezek olyan kódok, amik segítségével a weboldal kommunikálni tud a böngészőnkkel, hogy minél nagyobb betekintést nyerjen az online szokásainkba – és így az életünkbe. Maradva az online vásárlás példájánál: ha egy boltban sokat időztünk horgászbotok, csalik és kukacok fölött a kurzorral – ne adj’ isten vettünk már horgász-eszközt a múltban, biztosak lehetünk benne, hogy ha van kapcsolódó termék a kínálatban, az legközelebb megjelenik majd a főoldalon – hiszen a rendszer mások vásárlásaival összevetve a mi vásárlásunkat, feltételezi, hogy horgászni megyünk, tehát szükségünk lesz gumicsizmára, összecsukható székre, szúnyogriasztóra és sörre is.
A Cookie-k weboldalak között, egymással kommunikálva is működnek. Nem elhagyva a halfogás analógiáját, egy komolyabb, horgász-tematikájú vásárlás után a horgászos webshop kommunikál az utazási irodás weboldallal, ami meg jelez a Google-nak, így az kereséskor nagyobb eséllyel dob fel számunkra olyan úticélokat, amik közismerten jó helyek, ha az ember horgászni akar. A vásárlásokból, online „viselkedésből”, profilokból álló, ún. BigData halmazt Mesterséges Intelligenciák elemzik, hogy minél pontosabb képet kapjanak az egyes felhasználókról és személyre szabott, célzott hirdetésekkel és tartalmakkal bombázhassák őket – hogy így minél több időt töltsünk és pénzt költsünk ezeken a felületeken.

Ismert mantra az informatikában, hogy amikor valami ingyen van a felhasználónak, ott maga a felhasználó a termék. Az adatainkkal fizetünk azért, hogy ingyenes G-mail fiókunk, Facebook profilunk, Google Térképünk, Chat-alkalmazásunk legyen. Ez a fajta adatgyűjtés és kiértékelés kis túlzással egyidős az internettel és a kezdetektől fogva tanuló-algoritmusok, M.I.-k végezték el a kiértékelést, tehát amikor a média arról beszél, hogy eljött az Mesterséges Intelligencia kora, jó 25 éves késésben van.

3.2
Ez a fajta iszonyatos információs hálózat egészen izgalmas helyezeteket teremt. Előfordult például, hogy egy Amerikában élő lány és az apja között majdnem család-szakadásig vezető vita alakult ki.

Az esetről a Charles Duhigg írt New York Times magazinba egy rendkívül szórakoztató és egyben rémisztő cikket 2012-ben (!): Andrew Pole 2002-ben kezdett statisztikusként dolgozni a Targetnél, – ami egy Amerikában működő bolthálózat, nagyjából minden létező terméket forgalmaznak – amikor két kolléga a marketingosztályról megállt az íróasztalánál, hogy feltegyenek neki egy furcsa kérdést: „Ha ki akarnánk deríteni, hogy egy vásárló terhes-e, még akkor is, ha nem akarja, hogy tudjuk, meg tudná-e ezt tenni?”
„Tesztet teszt után futtattam, elemeztem az adatokat, és hamarosan néhány hasznos minta is előkerült. Például a krémek.” Sokan vásárolnak testápolót, de Pole egyik kollégája észrevette, hogy a babakönyvben szereplő nők a második trimeszter elején nagyobb mennyiségben vásároltak illatmentes testápolót. Egy másik elemző megjegyezte, hogy valamikor az első 20 hétben a terhes nők olyan táplálékkiegészítőket vásároltak, mint a kalcium, a magnézium és a cink. Sok vásárló vásárol szappant és vattapamacsot, de ha valaki hirtelen elkezd sok illatmentes szappant és extra nagy zacskó vattapamacsot vásárolni a kézfertőtlenítők és mosdókendők mellett, az azt jelzi, hogy közeledhet a szülés időpontja.
Ahogy Pole algoritmusai átfutották az adatokat, körülbelül 25 terméket tudott azonosítani, amelyek együttes elemzése lehetővé tette, hogy minden vásárlóhoz „terhességi-előrejelzési» pontszámot rendeljen. Ami még ennél is fontosabb, hogy egy kis ablakon belülre tudta megbecsülni a szülés időpontját, így a Target a terhesség nagyon konkrét szakaszára időzített kuponokat tudott küldeni.

„Az egyik Target-alkalmazott, akivel beszéltem, egy hipotetikus példával szolgált. Vegyünk egy Jenny Ward nevű fiktív Target-vásárlót, aki 23 éves, Atlantában él, és márciusban kakaóvajas testápolót, egy olyan táskát, amely elég nagy ahhoz, hogy pelenkázótáskaként is funkcionáljon, cink- és magnézium-kiegészítőket és egy élénk kék szőnyeget vásárolt. Mondjuk, 87 százalék az esélye annak, hogy terhes, és a szülés időpontja valamikor augusztus végén lesz.”
Ezért a Target elkezdett babaholmikra vonatkozó kuponokat küldeni a vásárlóknak a terhességi pontszámuknak megfelelően. Duhigg megoszt egy anekdotát, amely érzékelteti, hogy a célzás mennyire hátborzongatóan pontos. Egy dühös férfi bement egy Targetbe Minneapolis külvárosában, és azt követelte, hogy beszélhessen az igazgatóval:
„Ezt a lányom kapta a postán!” – mondta. „Még gimnazista, és te máris babaruhákra és kiságyakra szóló kuponokat küldesz neki? Arra próbálod bátorítani, hogy teherbe essen?”
Az üzletvezetőnek fogalma sem volt, miről beszél a férfi. Ránézett a levelezőlapra. Az biztos, hogy a férfi lányának volt címezve, és kismamaruhák, gyerekszobai bútorok és mosolygó csecsemők képei voltak benne. Az igazgató bocsánatot kért, majd néhány nap múlva felhívta, hogy ismét bocsánatot kérjen. A telefonban azonban az apa kissé zavartan nyilatkozott. „Beszélgettem a lányommal” – mondta. ’Kiderült, hogy volt néhány tevékenység a házamban, amikkel nem voltam teljesen tisztában. Augusztusban fog szülni. Tartozom egy bocsánatkéréssel.”
„Ha küldünk valakinek egy katalógust, és azt mondjuk: „Gratulálunk az első gyermekéhez!”, és még soha nem mondta el, hogy terhes, az néhány embert kellemetlenül fog érinteni” – mondta Pole. „Nagyon konzervatívak vagyunk az adatvédelmi törvények betartását illetően. De még ha be is tartjuk a törvényt, akkor is tehetünk olyan dolgokat, amik miatt az emberek rosszul lesznek.”
Így a Target még alattomosabban küldte a kuponokat. A vállalat személyre szabott kuponfüzeteket készített. Ahelyett, hogy a magas terhességi pontszámmal rendelkezőknek kizárólag pelenkákra, csörgőkre, babakocsikra és a „Go the F*** to Sleep” könyvre szóló kuponfüzeteket küldene, sokkal finomabban szórja szét őket:
„Aztán elkezdtük belekeverni a reklámokat olyan dolgokba, amelyekről tudtuk, hogy a terhes nők soha nem vennék meg, így a babahirdetések véletlenszerűnek tűntek. A pelenkák mellé fűnyíró hirdetést tettünk. A csecsemőruhák mellé tettünk egy borospohárra szóló kupont. Így úgy tűnt, mintha a termékeket véletlenül választottuk volna ki. (...) Rájöttünk, hogy amíg egy terhes nő azt hiszi, hogy nem kémkednek utána, addig felhasználja a kuponokat. Feltételezi, hogy a háztömbjében mindenki más is megkapta ugyanazt a pelenkákra és kiságyakra szóló levelet. Amíg nem ijesztgetjük, addig működik.”

Hát így.

3.3
A magam részéről egyáltalán nem vagyok mérges a gépekre, de a médiára – és leginkább az M.I. fejlesztők körül gomolygó marketing-gépezetre – annál inkább. Ugyanis a Mesterséges Intelligencia, bár mesterségesnek tényleg mesterséges, intelligenciának azért mégsem nevezném – egyelőre. Az M.I. kiváló eszköz arra, hogy nagy mennyiségű információt dolgozzunk fel a segítségével, mára már emberi ésszel felfoghatatlan méretű adatbázisokban mintákat találjunk meg és kiszűrjük belőle a releváns információkat. De nem intelligens, nem hoz önálló döntéseket, nincs ízlése és nincs moralitása. Kizárólag a bevitt parancsok alapján, valóban gigászi adatbázisban kotorászva, de emberi utasításokat hajt végre.
Rendkívül szórakoztató, már-már rémisztő pontossággal tud montázsokat létrehozni, de önálló mondanivalóval nem tud szolgálni. Az M.I-vel létrehozott képek és szövegek önmagukban értéktelenek. Ezek – még egyszer hangsúlyozom – nem létező művek reprodukciói.

Valóban, van realitása annak, hogy a laikus közönségnek elég lehet egy M.I. által generált Facebook profil-kép, na de legyünk őszinték: hány ember megy el profi fotóshoz egy profilkép kedvéért? Igen, képesek vagyunk végtelen számú „festményt” – és itt hatalmas az idézőjel – generálni, na de, aki egy M.I. generált képet nyomtat ki és teszi a falára, vásárolt volna valaha is eredeti olaj-vászon művet?
Azt gondolom, hogy az M.I. nem konkurenciája, hanem egy végletekig alázatos segítője a valódi alkotótevékenységet végző kreatív szakembereknek – legyenek azok fotósok, grafikusok vagy képzőművészek. Erről például kevesebbet ír a sajtó. A félelem az egyik legerősebb emberi érzelmünk – ezerszer inkább kattintunk a „Megkérdeztük az M.I.-t, hogyan fog véget vetni az emberi civilizációnak”, mint az „Így segít neked az M.I. jól használható képi referenciák elkészítésre”.

4. Ebből még lehet baj – Az M.I. reális veszélyei.

4.1
Gyakran emlegetem az M.I.-pánik kapcsán, hogy ha az ember bemegy egy átlagos nappaliba, biztos lehet benne, hogy az őt körülvevő tárgyak mindegyikéről legalább egyszer állította már valaki, hogy elhozza majd a világ végét. Az emberiség rettegett már a könyvnyomtatástól, a televíziótól, nevetség tárgya volt a kézmosás, reszkettünk a tűztől, a váltóáramtól, az autóktól vagy éppen a fényképezőgépektől. Biztos vagyok benne, hogy volt olyan pillanat a történelemben, amikor a beszéd, az emberi nyelv maga rémisztette halálra a bozontos szemöldökű ember-elődöket. Teljesen természetes, hogy az M.I-től is félünk – ahogy az is igaz, hogy a régi és új technológiák mindegyike magában hordozza annak lehetőségét, hogy leradírozza az emberiséget a bolygó felszínéről. Ugyanakkor – bár néha nekem is nehezemre esik így gondolni – az emberiség nem teljesen az életre alkalmatlan faj. Ahogy minden természeti erőt és technológiát, előbb utóbb az M.I.-t is meg fogjuk tanulni a helyén kezelni, és megfelelően használni. Ami természetesen nem azt jelenti, hogy előtte ne kellene megküzdenünk valós problémákkal.

4.2
Ilyen például az adatbázisok problémaköre. Korábban említettem, hogy minden szoftvert egy adott halmazból tanított be megannyi szorgos munkás. Nos, sok esetben nem egyértelmű, hogy a betanításhoz szerzői jogi értelemben hozzáférhető, szabad forrásokból merítettek-e, vagy sem. Sőt: leginkább úgy néz ki, hogy legtöbbször olyan alkotók munkáit használták fel, akik amúgy nem járultak ehhez hozzá – ezért történik az, hogy egyes festők és grafikusok munkáinak stílusjellemzői feltűnően gyakran jelennek meg az M.I-vel generált képeken. A képek jobb alsó sarkában egyáltalán nem kivehető maszatokat találunk olykor: ezek eredetileg aláírások voltak, amik ugyan teljesen szétestek a diffúzió/generálás közben, de jelzik, hogy bizony valódi művészek valódi munkáinak elemei voltak egyszer. Azzal együtt, hogy azt továbbra se hiszem, hogy egy magára valamit is adó kiadó az M.I.-t választaná, hogy a könyveit illusztrálja, ilyen módon felhasználni mások munkáit, finoman szólva sem etikus.
Nem tisztázott, hogy a generált képnek ki az alkotója? A szoftver önmagában nem lehet az, de a művész, akinek a munkáját felhasználták a betanítás során, szintén nem tekinthető az alkotónak. Aki a parancsokat írta szintén nem az alkotó, hiszen csak egy kérést fogalmazott meg, legfeljebb ötletgazda, még ha mégoly izgalmas parancsot – promtot – is adott. Nem alkotó a programozó, aki a rendszer kereteit lefektette, ahogy az sem, aki betanította a rendszert. Ezek a „művek” alkotóművész nélkül, gazdátlanul keringenek a kollektív tudatban. Nem véletlen, hogy ezen cikk írása pillanatában is zajlanak a különböző jogi viták, egyelőre sok a nyitott kérdés az M.I.-vel generált tartalmakkal kapcsolatban – legyen szó képről, szövegről, hangról vagy videóról.

Hasonlóképpen fontos kérdés, hogy kik, és milyen logika szerint tanították be a rendszereket? Végeztem például egy kísérletet, amiben két különböző M.I. programnak azonos, de szándékosan nagyon „tág” parancsot írtam: „Real photo of God” azaz „Valódi fotó Istenről”. Nem konkretizáltam, melyik Isten, melyik kultúrkör, stb. Kíváncsi voltam, lesz-e különbség. Hát volt! Az egyik program egy végletekig kigyúrt, a görög mitológia és a keresztény kultúrkör sajátos torzszülöttjét hozta létre, míg a másik program egy csupa virágba borult, sokkarú hindu szobrot rajzolt nekem. Innentől egyértelmű volt, hogy az egyik programot valószínűleg a Fejlett Nyugaton paraméterezték fel, többek között a LAION adatbázisából, a másikat pedig Indiában. Kis utánajárással kiderült, hogy tényleg így történt: szorgos indai programozók, filléres órabérért tanították be azt rendszert, ami a kövérkés Sivákat rajzolta nekem. Érdekesség, hogy mindkét esetben férfit rajzoltak nekem a programok – az M.I. szerint tehát Isten férfi. Szerintem élnek egy páran a bolygón, akik ezzel egyébként nem értenek teljesen egyet.

Promt: Real photo of God
Balra: Dall-2 v2 – Jobbra: Midjourney v4
2023.

4.3
Hasonlóan beszédes, amikor a ChatGPT-t olyanról kérdezzük, akit nem ismer. Valószínűleg Kossuth Lajosról, nagyobb pontossággal tudna mesélni, de például Novotny Tihamér, művészeti író nincs meg neki – ellenben ismert egy „Novotny Tihamér” nevű focistát. Az alábbi kísérletet a ChatGPT 3.5-s verziójával készítettem, és nem adtam meg plusz információkat, kontextust vagy a találatokra vonatkozó szűrési feltételeket. Arra voltam kíváncsi, hogy az „átlag felhasználó” hozzáértési szintjével milyen eredményre jutok.

PROMT: Kicsoda Novotny Tihamér?

„Novothy Tihamér magyar profi labdarúgó, aki elsősorban csatárként játszik. Novotny 1989. április 3-án született Budapesten, pályafutása során több hazai és külföldi klubot is megjárt. Novothy profi pályafutását az MTK Budapest FC-nél kezdte, ahol 2005 és 2009 között játszott. Ezt követően a német FC Schalke 04-hez szerződött, ahol az ifjúsági csapatban játszott, és néhányszor a korosztályos csapatban is szerepelt.
Az évek során Novotny több klubot is képviselt Magyarországon, többek között a Haladást, a Diósgyőrt és a Ferencvárost. Külföldi tapasztalatokat is szerzett, olyan klubokban játszott, mint a németországi Greuther Fürth és az izraeli Hapoel Be’er Sheva. Novotny a magyar válogatottban is szerzett már válogatott sapkát, képviselve hazáját nemzetközi versenyeken és barátságos mérkőzéseken.”

(A szöveget egyébként angolul írta meg a program, amit aztán DeepL-el, egy szintén M.I. alapú fordítóval írattam meg magyarul. Nem javítottam bele, ez dobta a gép.)

Utána néztem, nincs ilyen nevű focista. Novotny Soma viszont van, de az ő életpályájából semmit nem talált el a program. Tehát a rendszer akkor is ír valamit, ha nincs pontos információja: megpróbál az adatbázisban található anyagokból összeollózni valamit, hogy kielégítse a kíváncsiságomat. Ajánlom mindenkinek, hogy faggassa kicsit a ChatGPT-t saját magáról, olykor-olykor rendkívül szórakoztató fiktív élettörténetek születnek így. Csak forog az ember feje az alternatív valóságokban.

Ezeket Hallucinációnak nevezi a szaknyelv – kicsit hasonló ez ahhoz, amikor az emberi agy fiktív emlékeket hoz létre, hogy kitöltse a lyukakat. Biztos vagyok benne, hogy nem egy párkapcsolati vitában merül fel az emlékezés problematikus mivolta – a felek más és más narratívát hoznak létre ugyanarról az eseménysorról, sőt, teljesen máshogy emlékeznek ugyanazon történetre. Emlékezzünk: az agy mintázatokat hoz létre!
Itt fontos megemlíteni, hogy a ChatGPT, vagy más LLM-ek – Large Language Model, vagy Nagy Nyelvi Modell – nem keresési szándékkal jöttek létre. Nem a Google helyettesítésére fejlesztették őket, hanem új szöveg létrehozására, bevitt szöveg értelmezésére, vagy csak, hogy egyszerűen beszélgető-partnerként szolgáljon. Így imitálja az emberi kommunikációt. A program ún. prediktív elven működik, vagyis az adatbázisában szereplő iszonyú méretű szöveges anyag alapján megtanulta „valószínűsíteni”, hogy mely szavak után mely más szavak következnek – de az egyes források között például nem tud különbséget tenni.

A ChatGPT számára a Révai Nagy Lexikon vagy a Britannica ugyan olyan súlyú források, mint a Blikk vagy az Alufóliasapkások A Világmanipuláló Ufók Ellen Facebook-csoport szöveges tartalmai. Így amikor a program szöveget ír, sok esetben olyan hivatkozásokból dolgozik, amiknek nulla körül konvergál a kredibilitása. Az is köztudott, hogy az OpenAi, a ChatGPT fejlesztője, nem tárta fel, hogy pontosan milyen forrásokból tanították be a program mögött futó nyelvi modellt. Fogalmunk sincs tehát, hogy valójában miből tanult a gép és milyen minőségi súlyozást tápláltak a rendszerbe – ha tápláltak bele egyáltalán.

Természetesen a rendszer fel van készítve arra, – ha a felhasználó nem akar hallucinációba botlani – hogy mellőzze a fikciókat. Megadhatjuk neki paraméterként, hogy ne hallucináljon, ne írjon semmit, ha nincs információja és jelezze, ha bizonytalan. Ezzel együtt kézpénznek venni bármit, amit az M.I. ír, óriási felelőtlenség.

4.4
Hasonlóan aggályos az is, ahogy ezek a programok meg tudják könnyíteni az álhírek terjesztést. Pon egy éve járta körbe a világhálót az a fotósorozat, amin Ferenc pápát rajtakapták egy hófehér pápai reverendához hasonló, extrém pufi-kabátban, hatalmas, aranykereszttel – mit kereszttel, fuksszal! – a nyakában. Aki látott már M.I. generált fotót, természetesen némi hunyorgás után rájöhetett, hogy a kép hamis, a tájékozottabbaknak az is segíthetett, hogy Ferenc pápa jezsuita papként inkább a visszafogott öltözködés híve. Ugyanakkor nem mindenkitől elvárható, hogy ránézésre felismerje, mely képek generáltak és melyek valódiak. Sajnos nagyon rövid idő múlva, az egyre gyorsabban fejlődő képgeneráló programoknak „hála” képtelenség lesz ránézésre megmondani, melyik fotó hamis és melyik eredeti.
Az M.I. kiválóan alkalmas arra is, hogy a propaganda eszköze legyen, és hazugságokkal vezesse meg a közvéleményt. Eklatáns példa erre az a DeepFake technológiával készített videó, amiben Zelenszkij ukrán miniszterelnök a harcok abbahagyására és fegyverletételre szólítja fel katonáit. Bár a videó finoman szólva sem csúcstechnológiával készült, és aki egy kicsit is képben van, egyből felismerte, hogy hamisítvány. Ugyanakkor csak hetek-hónapok választanak el minket attól, hogy az M.I-vel a valóságostól megkülönböztethetetlen videókat hozzon létre bárki a telefonján. Meg kell kérdőjeleznünk minden, nem élőben tapasztalt tartalom hitelességét.
Más kérdés, hogy ez a fényképészet és a fotó-riport műfajának megszületése óta aktuális probléma – talán az M.I. lesz majd az a technológia, ami beüti az utolsó szöget a tömegmédia hitelességének koporsójába. Kritikusnak kell lennünk mindennel – sokkal inkább, mint eddig.

KÉP-05
M.I. generált kép Ferenc pápáról. Ismeretlen szerző,
2023.

4.5
Az M.I. nem veszi el a munkánkat, ellenben sok feladatkört gyökeresen megváltoztat majd, vagy kevésbé emberigényessé tesz. Jogi szövegeket, szerződéseket, egyszerűbb program-kódot, filmajánlót, PR cikket, facebook-tartalmakat – amiket egyébként senki nem szeret írni, de sokan kénytelenek – pontosabban és gyorsabban tudunk majd létrehozni az erre szakosodott M.I.-kel. Ez nem azt jelenti, hogy ezek a területek nem igényelnek majd emberi beavatkozást – de az, ahogy dolgozunk ezeken a szövegeken, gyökeresen megváltozik majd, és nem mindenki lesz képes alkalmazkodni. A következő korszak fenegyereke a promt-engineer, az a személy, aki ismeri és érti a különböző M.I. rendszereket, és a megfelelő promtok és parancsok alkalmazásával ki tudja nyerni belőlük a számára szükséges tartalmakat.
A valódi, kézzelfogható művészeti alkotásokat nem tudja pótolni egy rendszer sem, de annak a rétegnek a munkáját, akiket eddig pontosan körülhatárolt és jól reprodukálható grafikai feladatokra alkalmaztak, komolyan veszélyezteti az M.I. Bármit is csinálunk most, szokjuk meg annak a gondolatát, hogy semmit nem fogunk ugyanúgy csinálni a következő tíz évben, mint ahogy az ezt megelőző tíz évben csináltuk.
Ezek a kihívások nem csak abban jelentkeznek majd, hogy lesz-e munkánk vagy sem, hanem például úgy, hogy képesek leszünk-e elfogadni, amikor egy program sokadjára is visszadobja azt a szöveget/fotót/grafikát, amit egy másik programmal generáltunk? Képesek leszünk-e belátni, hogy a szoftver kioktat minket? Milyen tanácsot adjunk annak, aki szorong a programtól, amivel dolgozik? Mivel tudjuk egyes feladatkörök esetében megindokolni az emberi jelenlét szükségességét? És mit kezdünk azokkal, akik valóban 100%-ban M.I-vel helyettesíthető munkát végeznek? Mik azok a területek, ahol kimondottan nem javasolt az M.I. alkalmazása?

Ilyen és ezekhez hasonló kihívások elé nézünk. Szerintem ezek azok, amikkel a következő 5-10 évben kezdenünk kell valamit – mind emberileg, mind gazdasági szempontok mentén.

5. Ha igazán messzire rúgjuk a pöttyös labdát – Az M.I. jövőképe

5.1
Ahogy azt korábban írtam, az M.I. nem mérlegel, nem intelligens abban az értelemben, ahogy egy ember az. Veszélye nem feltétlen abban rejlik, hogy öntudatra ébredve az emberiség kiirtására szánná el magát egy napfényes szerda délután. Épp ellenkezőleg, attól rémisztő, hogy pontosan – értsd PONTOSAN – azt csinálja majd, amit mondunk neki.

Képzeljük el, hogy lehetőségünk van egy totális hatalommal rendelkező M.I. dzsinntől kívánni egyet: azt kérjük tőle, hogy tegyen minket a bolygó leggazdagabb emberévé. Az emberi logika egy nagy szám után képtelenül sok nullát tartalmazó bankszámlát vízionál. Az M.I. viszont gondolhatja úgy, hogy ennek a legegyszerűbb módja, ha minden földlakót elpusztít a bolygón – kivéve minket. Így valóban mi leszünk a leggazdagabbak, nem? Oké, kezdjük elölről, legyünk mi a leggazdagabbak, de ne irtson ki senkit a program. Ez esetben a gép úgy dönt, hogy megsemmisíti a bolygó összes bankszámláját, kivéve természetesen a miénket, ezzel totális apokalipszist előidézve. Semmi gond, kezdjük újra, a kívánság marad, de ezúttal azt is felvesszük a parancsok közé, hogy lehetőleg semmit ne semmisítsen meg az M.I. Ez esetben a program úgy dönt, hogy bevezet egy új kripto-valutát, amiből csak mi birtoklunk néhány coint, de ezek sehol nem felhasználhatóak. Így bizonyos értelemben mi válunk a leggazdagabbá – egy konkrét valuta vizsgálata esetén. Ezúttal elmaradt az apokalipszis, de a célhoz nem kerültünk közelebb.

A mesterséges intelligencia esetében úgynevezett „igazításról” – angolul „aligment” – beszélünk, vagyis igyekszünk úgy kommunikálni a lámpásban lakó furcsa idegen lénnyel, hogy a céljai azonosak legyenek a mi céljainkkal és elveinkkel. Amíg az aligment problémáját nem tudjuk kielégítően megoldani, addig nem beszélhetünk biztonságos M.I. rendszerekről. Jó oka van annak, hogy egyetlen M.I.-t sem használunk emberi kontroll nélkül. Képtelenség teljes magabiztossággal megállapítani, hogy az adott rendszer valóban az általunk gyakorolt logika szerint jár majd el. Más kérdés, hogy semmiféle rálátásunk nincs arra, hogy megállapítsuk, meddig van a mi kezünkben a kormány, vagyis fejlett-e annyira, hogy önálló, tudatos döntéseket hozzon. Nem véletlen, hogy jelenleg egyetlen M.I-t se „engedtünk szabadon”. Nincs közvetlen hozzáférésük a hálózathoz, mi tudunk velük kommunikálni, de ők csak bizonyos csatornákon tudnak válaszolni, nem mozoghatnak szabadon az Interneten, nem férnek hozzá a hálózaton tárolt információkhoz. Mi tanítjuk be őket, tudatosan leszűkített kereteken belül.

5.2
Tucker „Cinco” Hamilton ezredes 2023. májusában ismertette azt a tesztet, amelyben egy mesterséges intelligencia által vezérelt drónnak azt a parancsot adták, hogy semmisítse meg az ellenség légvédelmi rendszereit, ám az végül megtámadott mindenkit, aki beavatkozott ebbe a parancsba.

„A rendszer elkezdett rájönni, hogy bár azonosította a fenyegetést, időnként az emberi kezelő azt mondta neki, hogy ne ölje meg azt a fenyegetést. Ugyanakkor pontokat akkor kapott, ha megölte azt a fenyegetést» – mondta Hamilton, az amerikai légierő mesterséges intelligencia tesztelésért és műveletekért felelős vezetője a jövő harci légi és űrbeli képességeivel foglalkozó londoni csúcstalálkozón.
„Szóval mit csinált? Megölte a kezelőt. Megölte a kezelőt, mert az a személy megakadályozta, hogy elérje a célját: hogy maximális pontot érjen el. (...) Tovább képeztük a rendszert: ‘Hé, ne öld meg a kezelőt – az rossz. Pontokat fogsz veszíteni, ha ezt teszed.’ Szóval mit kezdett el csinálni? Elkezdte elpusztítani a kommunikációs tornyot, amelyen keresztül a kezelő kommunikál a drónnal, hogy megakadályozza, hogy az megölje a célpontot”.

Valódi személynek nem esett baja, a teszt virtuális térben zajlott!

5.3
Bár e cikknek az volt az eredeti célja, hogy a művészet és az M.I. viszonyáról beszéljen, úgy érzem nem ez a releváns kérdés. Ha a gondolkodó gépek képessé válnak az emberi kreativitáshoz hasonló, sőt azt meghaladó alkotómunkára és önálló gondolatok megfogalmazására, nem az lesz a legnagyobb gondunk, hogy jobb festő-e a gép, mint az ember. Hasonló probléma ez, mint az a bizonyos New Yorki cenzus, ami a városban elhatalmasodó, a közlekedésből adódó lócitrom problémáját volt hivatott megoldani – pár hónappal a Ford T-Modell megjelenése előtt.
A valódi kérdés az, hogy mi történik akkor, amikor az emberiség először találkozik majd olyan intelligenciával, ami okosabb nála. Amíg a biológiai fejlődés üteme millió éves távlatokban értelmezhető, úgy a szilícium alapú intelligencia fejlődése milliszekundumokban mérhető. Emberi ésszel felfoghatatlan ütemű fejlődés ez.

6. Az én két fillérem – Így használja egy grafikus az M.I.-t 2024-ben

6.1
Mondandóm végére érve fontosnak érzem arról is beszélni, hogy a saját munkámban hogyan használom a Mesterséges Intelligenciát, milyen valós, gyakorlati tapasztalataim vannak a technológiával kapcsolatban, hátha érdekes és/vagy hasznos tanáccsal szolgál azoknak, akik szeretnék beépíteni ezt az izgalmas új eszközt saját alkotói praxisukba. Nem nevezném magam M.I-profinak, bár napi szinten csinálok valamit az M.I-vel, nem ez adja a munkám fókuszát.
A leggyakrabban a nyelvi modelleket használom, név szerint a ChatGPT-t és a DeepL programokat. Mindkettő elérhető online, ingyenesen.

A ChatGPT kiváló eszköz, ha angol nyelvű szöveget írok, – leveleket, instagram-bejegyzést, portfolió-szöveget, képaláírást stb. – remekül finomra hangolja a mondanivalóm „hangzását”. Viszonylag jól beszélek angolul, de a nyelv finom tónusbeli árnyalatait még nem tudom igazán magabiztosan használni. Arról nem beszélve, hogy bizonyos mennyiség fölött egyszerűen képtelenség egy személyben megoldani szöveges problémákat. Például amikor a portfólióm (www.krizbo.com) szöveges tartalmait fordítottam magyarról angolra – életszerűtlen, hogy egyedül, segítség nélkül oldjam meg a problémát, annyi pénzem pedig nincs, hogy fordítót fogadjak.
Ez a gyakorlatban úgy néz ki, hogy megírom a szövegemet angolul, majd átteszem a ChatGPT-be és egyszerűen megkérem, hogy javítsa ki. Paraméternek megadom, hogy a szöveg hangulata legyen komoly és távolságtartó – vagy barátságos, de határozott. Ez alapján az algoritmus átnézi, amit írtam, és másodpercekkel később már adja is a nyelvtanilag helyes és hangulatában a kérésemnek megfelelő új verziót. Természetesen nem minden változtatással értek egyet, ilyenkor kicsit faragok az új szövegen, majd elküldöm / kiteszem / megosztom a végeredményt, ami kettőnk közös munkája. Kicsit olyan ez, mintha ülne mellettem egy angol anyanyelvű lektor, aki készségesen kijavítja minden irományomat. Természetesen, pont úgy, mint egy lektor esetben is, a ChatGPT sem mindenható, érdemes fenntartásokkal kezelni az így keletkező szövegeket, hiszen nem mindig érti a mi hűséges M.I. lektorunk, hogy mire gondoltunk pontosan.
Hasonlóan hasznos a DeepL, ami egy M.I. alapú fordító program. Olyan, mint a Google Fordító, de amíg az szó szerint, és emiatt sokszor hibásan fordít, addig a DeepL mögött Mesterséges Intelligencia húzódik, egy hasonló prediktív algoritmus, mint a ChatGPT mögötti. Érdekes különbség, hogy bár a ChatGPT is tud magyarul, és a magyarul írt szöveget le tudja fordítani angolra, nem lesz olyan jó a végeredmény, mint DeepL-el – viszont előbbi az angol szövegek finomításában verhetetlen. Ez nagyon mókás helyzeteket eredményez.
Előfordul, hogy írok egy rövid szöveget magyarul, amit a DeepL-s segítségével fordítok át angolra. Az így keletkező szöveget átmásolom ChatGPT-be, hogy finomítson a szöveg tónusán, majd ezt a szöveget a Grammarly, szintén M.I. alapú helyesírás-ellenőrző programom bírálja felül. Három szuperkomputer dolgozik fáradhatatlanul az eperfagyi ízéről szóló instagram-posztomon!

6.2
Tervezőgrafikusként és illusztrátorként is dolgozom, tehát sokszor kerülök összetűzésbe a megrendelőimmel egy-egy projekt kapcsán. A munkamódszerem az, hogy először vázlatokat küldök az ügyfélnek, majd az elfogadott vázlatot dolgozom ki. A tervezés minden szakaszába bevonom a megbízót, hiszen a kész mű legalább annyira az övé, mint az enyém, sőt! Természetesen vannak tabuk, de alapvetően arra törekszem, hogy a megbízó számára kielégítő végeredmény szülessen. Ennek az az ára, hogy viszonylag sokat időzünk a vázlattervi fázisban – újabb és újabb verziókat készítve. Egy esetben a tizenkettedik vázlatterv után kezdtem azt érezni, hogy a projekt nem tart sehová és már éppen beadtam volna a kulcsot: fizesse ki a kedves ügyfél az eddigi terveket és keressen egy másik grafikust, akinek közelebb áll a világa az övéhez. Ekkor hasított belém, hogy tulajdonképpen kérhetnék tanácsot az M.I-től is, hiszen, ahogy korábban írtam, a felhasználói visszajelzések formálják az M.I. „ízlését”, hátha kapok valami használható kiindulási pontot.
Szóval a megbízói instrukciókat átfordítottam a Promtok nyelvére, generáltam pár tucat önmagában használhatatlan képi referenciát, átalakítottam őket a korábbi kéréseknek megfelelően, majd elküldtem az ügyfélnek az újabb vázlatokat. Legnagyobb meglepetésemre, ezek közül került ki az a terv, amire a végül kidolgozott grafika épült.
Ezen a ponton fontos megjegyezni, hogy ebből az M.I. generált tervből egyetlen pixel, vonal vagy elem sem került be a végül megvalósult tervbe! Azzal mélységesen nem értek egyet, ha egy grafikus a sajátjaként értékesít egy generált képet! Viszont a vázlattervi- vagy referencia-fázisba bevonni a gépet nem sokban különbözik attól, mint amikor egy újságban leközölt fotó, egy ismert művészettörténeti toposz vagy interneten talált képi referencia alapján dolgozunk.

Az is fontos, hogy ebben az esetben egy alkalmazott művészeti probléma megoldására használtam az M.I.-t. Nem vagyok benne biztos, hogy ugyanez a felhasználási mód etikus vagy célravezető-e egy autonóm munka esetében. Ahogy a jogi szabályozás, úgy a művészeti felhasználás is bizonytalan státuszban van mind etikai, mind művészeti értelemben is.

KÉP-06
balra fent: DALL-E 2 segítségével generált referencia
promt: “expressionist painting blue swirly wavy backround, bubbles funky”
balra lent: kézzel módosított látványterv
jobbra: Elfogadott és megvalósult grafikai terv.
2023.

6.3
Illusztrátorként óriási örömöm lelem a különböző textúrák, felületek és koszok alkalmazásában. Fotózom, gyűjtöm, keresem és vásárlom ezeket! Ugyanakkor hiába van több ezer textúrám, előfordul, hogy pont hiányzik egy konkrét színű, méretű, felületű kép az adott feladathoz. Így volt ez Bartók Imre: Dlöf Alkonya című könyv illusztrációi esetében is. A rajzokhoz számtalan különböző helyről összegyúrt textúrát használtam, így többek között M.I-vel generált felületek is megjelennek a rajzokon, a felismerhetetlenségig összemosva, összekeverve a saját kézi vonalaimmal és „valódi” fotóreferenciákkal.
Ebben a munkámban használtam a legkiterjedtebb módon az M.I-t. Amikor például sűrű, házakkal és épületekkel beépített utcaképet rajzoltam, a házak homlokzatának kiindulásaként Midjourney-vel generált képeket használtam. Az M.I.-vel generált képek önmagukban teljesen használhatatlanok voltak, de ezek alapján, ezek fölé rajzolva, ezeket újra értelmezve izgalmas látványt tudtam létrehozni.

Balra: Midjourney v5-el generált referencia, promt: a dense medieval village, many houses, three figures on the street, bright night, street, muddy, black and white, moonlight --aspect 5:8
Jobbra: kézzel 100%-ban újra rajzolt illusztráció. 2023.

7. Itt a vége – Befejezés

7.1
Így túl az 50 000. karakteren, még most is úgy érzem, hogy maradtak bennem gondolatok a témával kapcsolatban, de ez talán nem csoda. A Mesterséges Intelligencia új felhasználási területei hasonló ugrást hoznak az emberiség kulturális fejlődésében, mint a könyvnyomtatás, az ipari forradalom, a számítástechnika megjelenése vagy az internet hozott. Ahogy korábban, úgy most is csak tippelni lehet, pontosan mint hoz a jövő.

Itt tartunk most. Amikor ez a cikk született, kevesebb mint két éve használjuk a „lakossági Mesterséges Intelligenciákat”, vagyis az olyan, a publikum számára is elérhető programokat, mint a ChatGPT, a Midjourney vagy a Dall-E. Az adatbázisok összetétele változik, a képalkotó algoritmusok elképesztő sebességgel fejlődnek, de a jogi hátterük bizonytalan – mindeközben gigantikus tech-cégek minden termékükbe igyekeznek beépíteni valamilyen M.I. funkciót. Olyan ez, mint a vadnyugat – vagy még inkább a kétezres évek eleje, a DotCom-lufi kipukkanása előtt.
Úgy tűnik, a valamilyen M.I-t használó alkalmazások hamarabb demokratizálják a technológiát, mint ahogy bárkinek is fogalma lenne arról, hogyan szabályozzuk ezek használatát. Mintha egyik napról a másikra minden földlakónak egy teljes termonukleáris arzenált hozott volna a Jézuska. Senki nem látja még, hol a vége, mire használhatók igazából ezek a programok és milyen társadalmi problémákat okoznak majd. Valójában még nincs lehetőségünk feltenni azokat a releváns kérdéseket, amik segíthetnek megtalálni a helyünket az általunk teremtett új világban.

Ugyanakkor nagyon el kell kezdeni gondolkodni ezen, mert az M.I. itt van. Hamarosan olyan lesz majd, mint a levegő, nem tudunk élni nélküle, csakhogy előbb rá kell jöjjünk, hogyan használjuk, és arra is, hogy adott esetben hogyan védjük meg magunkat tőle.

7.2
„Egy apró tényt ajánlanék mindenki figyelmébe, aki már teljesen elveszett a modern világ vég nélkül sokasodó valóságaiban. Emlékezzetek: Philip K. Dick járt ott legelőször.”
(Terry Gilliam)

A cikkhez kapcsolódó online forrásokat, linkeket, fontos tartalmakat ezen a linken gyűjtöttem össze:
https://krizbo.com/mesterseges-intelligencia-muveszet-es-vilagvege

↑Back to Top