2022. november 30: A ChatGPT launch dátuma – egyesek szerint ez maga az Ítélet Napja, mások úgy vélekednek, hogy egy új technológiai forradalom kezdete. A valós végeredményt majd később tudjuk értékelni, de az biztos, hogy az évekig (évtizedekig) kutatott és használt machine learning algoritmusok és mesterséges intelligencia ekkor érte el a “lakossági” szintet. Ennek hatásai értelmezhetőek és érezhetőek technológiai, gazdasági, jogi-és erkölcsi, valamint szociálpszichológiai szinten is, meg is vannak erre a megfelelő platformok. Ami viszont érdekes, ugyanakkor alulpozicionált szegmens ezen a területen – még az MI guruk közt is, nemhogy felhasználói szinten – az a szennyezett adat kérdése. Mi ez, hogyan hat ránk, és mi a közös felelősségünk ebben a kérdésben?
Minden mesterséges intelligencia fejlesztés alapja az adat: bármilyen célt adunk a MI-nak, adatokkal kell betanítanunk. De honnan van az adat, ami alapján tanulnak a kis mesterséges inteligenciák?
Kezdetben volt az internet, mint egy gigantikus adatbázis, az emberiség nagy, közös könyvtára, és kollektív digitális emlékezete. Természetesen, volt itt minden, ami kellett, a felnőtt tartalomtól az összeesküvés elméletekig, de azért a kétes tartalmak minősítése egyfajta közös érték volt. Az első generációs MI-ok innen kezdtek el tanulni. Már a korai időszakban is keringtek bizonyos rémtörténetek fasisztoid és szexista chatbotokról, darkwebre tévedt baby MI-okról, kényszer-shut down-nal végződött kísérletekről, de mégis ezen kísérletek után (vagy ellenére?) a Gemini, a ChatGPT, a DeepSeek, a Veo3 és számos más generatív MI a mindennapjaink részévé váltak. Megközelítőleg 3000 különböző mesterséges intelligencia van most kint “szabadon” a világon. Ez a technológia jelen van a tanulásban, a marketingben, az orvoslásban, a webshop rendszerekben.

Pandora szelencéje kinyílt, ezt bezárni már nem lehet, emiatt fejlesztői, szabályozói és felhasználói oldalról is felelősség, hogy hogyan bánunk az emberiség új “lakótársával”. A jövő mesterséges intelligenciájának milyensége rajtunk múlik, és mindannyiunk közös felelőssége.
Az MI által generált contentek, a polarizált, szélsőséges vélemények és megosztó tartalmak korában, olyan adatok transzformálódnak az internetre, amelyek az MI tanítás szempontjából szennyezett adatnak minősülnek (szaknyelven: dirty vagy noisy data).
Egy MI olyan, mint egy csecsemő: számára “minden vicc új”. Az adatokon keresztül tanulja meg a világot. De, ahogyan egy gyereknél, úgy egy MI-nál is megjelenik a “szülő” felelőssége: mit, mikor, hogyan tanítunk meg neki? Milyen felnőtt válik belőle?
Az új mesterséges intelligenciák már nem az internetről, hanem egymástól is tanulnak. A GPT 5.0 például a 3.5. verziótól vett leckéket.
Ezért nagyon nem mindegy, hogy a tanulási alapul szolgáló adat mennyire szennyezett. A dirty data komoly akadályt jelent az MI fejlesztésében, mivel közvetlenül befolyásolja a modellek pontosságát, becsléseit és etikai következményeit (nem is beszélve arról, hogy milyen gazdasági károkat okoz ez az MI fejlesztő cégeknek és azok befektetőinek – ez a gazdasági aspektus egy külön cikket érdemelne egy IT-val foglalkozó szaklapban).
A mesterséges intelligencia egyre gyorsuló fejlesztése, és egyre szélesebb körű használata mellett kulcsfontosságú szempont a adatok tisztaságának megőrzése. Az adattisztaság megóvására számos teória és metódus létezik, van ami a “back end-en” , vagyis a háttérben működik, van ami pedig a “frontvonalban”. A háttérben dolgozó rendszerekre jó példa az adatbázis-kezelő rendszerek szintjén bevezetett validációs szabályozás, a folyamatos adat ellenőrzést végző automatizált szoftverek, vagy az anomáliákat észlelő alkalmazások, amelyek már az adatok forrásánál képesek kiszűrni a hibákat.
Ezzel szemben van, ami a “front end-en” vagyis a felhasználók által látott és használt felületeken érvényesül, például a user interfacek-en alkalmazott beviteli ellenőrzések, a kötelező mezők, az előre definiált választási lehetőségek, vagy az intuitív űrlapok, amelyekkel minimalizálható a hibás adatbevitel esélye. Mindkét megközelítés kulcsfontosságú az adatok integritásának és megbízhatóságának fenntartásában. A back end-ben végzett adat megóvás és adattisztítás jellemzően a fejlesztők és a tulajdonosok feladatköre, de számos dolog van, amit felhasználók szintjén megtehetünk: a felelősséggel végzett tartalomgyártás, és ugyanilyen odafigyeléssel végzett tartalomfogyasztás. Nem mindegy, hogy ki milyen contentet gyárt le, és azt hányan kattintják, osztják tovább, hiszen minden ilyen digitális gesztus formálja az MI-t és ezzel együtt a saját digitális jövőnk tisztaságát is.
Írta: Kiss Ákos