A mesterséges intelligencia (AI) fejlődése az utóbbi években felgyorsult, és manapság a közlekedéstől elkezdve a kreatíviparig mindenhol találkozhatunk mélytanulási (ML) vagy AI-rendszerekkel, melyek megítélése vegyes. Sokak hasznosnak tartják, mellyel időt spórolhatunk, mások fenntartásokkal kezelik. Azonban abban mindenki egyetért, hogy ezek a modellek csak annyira megbízhatók, amennyire a tanításukhoz használt adatok azok. Ha ezek az adatok manipuláltak, torzítottak vagy szándékosan megfertőzöttek, a modell működése is kiszámíthatatlanná válik.
Az adatmérgezéses (data poisoning) támadások éppen ezt a kevésbé ismert, ugyanakkor legérzékenyebb pontját célozzák meg. Ilyenkor az AI- és ML-modellek képzéséhez használt képzési adatokat manipulálják vagy rongálják meg. Eredetileg a képzési adatok sokszor az internetről, kormányzati adatbázisokból vagy harmadik fél adatszolgáltatótól származnak. Fontos kitérni, hogy több közösségi oldal a felhasználók tudta nélkül használja ilyen célra az általuk megadott vagy feltöltött adatokat. Ez különösen veszélyes lehet a művészek munkáira, hiszen a beleegyezésük nélkül történik mindez.
A manipulált adatok hatása lehet finom vagy drasztikus. Következményeképpen a modell tévesen osztályozhat képeket, rossz döntéseket hozhat, téves információval szolgálhat vagy teljesen kiszámíthatatlan viselkedést tanulhat meg. Ez különösen kritikus olyan területeken, ahol a döntések emberi életeket befolyásolhat. Például az önvezető autók esetében egy félreértelmezett közlekedési tábla vagy egy tévesen felismert akadály tragédiához is vezethet.
Az adatmérgezéses támadásoknak két fő típusa van. A célzott adatmérgezés konkrét kimenetet próbál befolyásolni, azaz a támadó olyan adatokat juttat a képzési halmazba, amelyek az adott helyzetben előre meghatározott hibás viselkedést váltanak ki. A nem célzott adatmérgezés célja ezzel szemben a modell általános teljesítményének rombolása. Ennek hatására a modell sokkal sérülékenyebbé válik más típusú támadásokkal szemben is.
Az adatmérgezésnek számos technikája létezik. Például a címkefordítás (label flipping) során rossz címkéket rendelnek a képekhez, így a modell hibás összefüggéseket tanul meg. Ezt használja ki a Chicagói Egyetem által fejlesztett Nightshade és Glaze is, amelyek a művészek számára nyújtanak védelmet az engedély nélküli adatgyűjtéssel szemben.
Ezzel szemben a backdoor támadások finom, alig észrevehető módosításokat alkalmaznak (például hallhatatlan háttérzajt egy audióban vagy észrevehetetlen vízjeleket egy képen), amelyek normál működés közben nem okoznak hibát, de egy adott kiváltó jel hatására a modell a támadó számára előnyös módon viselkedik. Ez különösen káros a nyílt forráskódú modellekre, ahol a képzési adatok és az algoritmusok kevésbé védettek.
Fontos különbséget tenni az adatmérgezés és az utasítás‑injektálás (prompt injections) között. Míg előbbi a képzési adatszerkezetet manipulálja és így hosszú távon torzítja a modell működését, addig a prompt injection a rosszindulatú bemeneti adatokat legális promptként álcázza, ezzel úgy manipulálva a rendszert, hogy érzékeny adatokat szivárogtasson ki.
Összességében az adatmérgezés megmutatja, mennyire könnyen torzíthatók a mesterséges intelligencia rendszerei, ha a tanulás alapjául szolgáló adatok sérülnek. A megbízható AI működésének feltétele, hogy a képzési folyamat átlátható, ellenőrizhető és védett legyen a manipulációval szemben.
Források:
https://www.ibm.com/think/topics/data-poisoning
https://glaze.cs.uchicago.edu/what-is-glaze.html
https://nightshade.cs.uchicago.edu/whatis.html
https://youtu.be/onGm0Kf7CQA

