Az MI-rendszerek jogi megfeleltetése nem a bevezetésével, de még csak nem is a fejlesztésével kezdődik, hanem annál is előbb, hiszen ahhoz, hogy neki tudjunk állni a fejlesztésnek, tanítóadatokra van szükség, amelyeknek birtoklásához és felhasználásához jogszerű kereteket kell biztosítani. De mi is pontosan a tanítóadat? Miért van rá szükség? És mik lehetnek a beszerzésének jogi buktatói? – Cikkünk összefoglalja a  legfontosabb tudnivalókat! 

Mi az a tanítóadat és miért van szükség rá? 

A tanítóadat alapvetően nem új keletű dolog, azonban fogalmát azonban jogszabályi szinten csak a tavalyi évben hatályba lépett, az Európai Unió 2024/1689. a mesterséges intelligenciáról szóló rendeletének 3. cikk 29. pontja határozza meg, mely szerint: a tanítóadatok olyan adatok, amelyeket egy MI-rendszer megtanulható paramétereinek illesztése révén történő tanítására használnak.

Az MI-rendszerek, különösen a gépi tanulás modellek, adatokból tanulnak. A tanítóadatok segítenek a rendszernek „meglátni” és „megérteni” a mintákat és összefüggéseket, felállítani a megfelelő logikai láncolatokat, amelyek alapján később önállóan döntéseket hozhat. Ehhez pedig nagy mennyiségű, pontos, és jó minőségű adatokra van szükség.

Mik lehetnek a tanítóadatok beszerzésének jogi buktatói?

Lehetetlenség lenne annak meghatározása – akár csak vázlatos jelleggel is – hogy hány féle forrásból és hány féle típusú tanítóadat létezhet. Azonban rendelkezzünk bármilyen tanítóadattal is, mindig meg kell vizsgálnunk, hogy azok között van-e, ami tartalmaz:

  • üzleti titkot vagy know how-t,
  • szerzői joggal védett tartalmakat,
  • személyes adatokat.

Jelen írás csak az utóbbira tér ki. Aki valaha tanult bármilyen küzdősportot, harcművészetet, az biztosan hallhatta már, hogy az önvédelem első és leghatékonyabb eszköze a konfliktus elkerülése. Nos, ez az elv igaz a tanítóadatként használt személyes adatokra is. Amennyiben egy mód és lehetőség van rá, – már csak a GDPR adattakarékosság elve (GDPR 5. cikk (1) bekezdés c) pont) miatt is – próbáljuk kerülni a személyes adatok felhasználását MI rendszer tanításához. Ha ez nem lehetséges, próbáljuk meg anonimizálni (pl. online profilban vásárlási szokásokra vonatkozó adatok felhasználása az online profil azonosítóinak maszkolásával).

Azonban, ha mégis kizárólag személyes adattal lehetséges az adott MI rendszer tanítása, akkor mindenképp figyelemmel kell lenni a megfelelő jogalapra.

Megfelelő jogalap kérdése

Természetesen a tanítóadatok gyűjtése is olyan adatkezelési cél, amely esetében a GDPR 6. cikk (1) bekezdése szerinti jogalapot kell tudni igazolni. Nem túl valószínű, hogy a tanítóadatok gyűjtését lehet például szerződés (GDPR 6. cikk (1) bekezdés b) pont) vagy jogi kötelezettség (GDPR 6 cikk (1) bekezdés c) pont) teljesítése vagy akár közfeladat végrehajtására (GDPR 6. cikk (1) bekezdés e) pont) alapozni.

  • Azonban könnyen lehetséges, hogy az érintetteket hozzá tudjuk járultatni (GDPR 6 cikk (1) bekezdés a) pont) ahhoz, hogy személyes adataik felhasználását engedélyezzék részünkre. Jó példa erre az, amikor egy Call Center felhívása során az ügyintéző kapcsolása előtt megkérdezik a telefonálót, hogy szeretne-e hozzájárulni a hangjának, mint személyes adatának MI rendszer tanításához való felhasználásához – itt az érintettet olyan helyzetbe hozzuk, hogy  még az adatok felvétele előtt döntést hozhat. Természetesen fontos, hogy a hozzájárulás megadását és annak idejét igazolni tudjuk, hiszen mindenképp meg kell felelni az elszámoltathatóság elvének (GDPR 5. cikk (2) bekezdés). Szerencsére a GDPR nem írja elő, technikailag milyen formában szerezzük be a hozzájárulásokat, tehát a példában említett esetben járható út a hozzájárulások (hang)rögzítése vagy akár a klasszikusabb módszerek, mint a checkbox és nyilatkozat is rendelkezésre állnak.
  • De mi a helyzet akkor, ha az adatok már a birtokunkban vannak, csak azokat eredetileg más célból gyűjtöttük? Rendkívül elterjedt, hogy online viselkedésre vonatkozó adatokra, vásárlási szokásokra, e-mail üzenetváltásra vagy chat előzményekre van szükség egy MI rendszer tanításához. Az, hogy ezek az adatok rendelkezésre állnak, nem azt jelenti, hogy automatikusan felhasználható MI rendszer tanítására is. Továbbá nem minden esetben megoldható, hogy a kellő számú érintettet hozzájárultassunk birtokunkban lévő adataik MI rendszer tanításához való felhasználásához. Ilyenkor jöhet szóba az adatkezelő jogos érdeke (GDPR 6. cikk (1) bekezdés f) pont). Természetesen ehhez érdekmérlegelésünk során nagyon alaposan körbe kell járni az adatkezelés esetleges kockázatait az érintettre nézve, valamint ki kell fejteni, miért nem volt más mód, alternatíva MI rendszerünk tanítására. Továbbá figyelembe kell venni a GDPR 6. cikk (4) bekezdésében [1] előírt, az adatgyűjtés eredeti céljától eltérő adatkezelés szabályaira vonatkozó rendelkezéseket.

Bármely jogalapot is választjuk, nem tekinthetünk el a GDPR 12-14. cikkének megfelelő tájékoztatástól, különös tekintettel arra, hogy az érintettek számára érthető kell, hogy legyen, hogy személyes adataik gyűjtése miért nélkülözhetetlen, hogyan függ össze az egy MI rendszer tanításával és a jövőben mire is szeretnénk a tervezett MI rendszert használni.

Továbbá fontos átgondolni, hogy szükség van-e adatvédelmi hatásvizsgálatra. Erről itt érdemes tájékozódni: Hatásvizsgálati lista – Nemzeti Adatvédelmi és Információszabadság Hatóság

Álláspontom szerint a deep fake és a dark weben árult adatbázisok világában elengedhetetlen, hogy az érintettek tájékozottak, az adatkezelők pedig elszámoltathatóak legyenek az MI rendszer fejlesztéshez felhasznált adatok vonatkozásában, elvégre ezzel már egyáltalán nem csak a nagy cégek foglalkoznak.


[1] Ha az adatgyűjtés céljától eltérő célból történő adatkezelés nem az érintett hozzájárulásán vagy valamely olyan uniós vagy tagállami jogon alapul, amely szükséges és arányos intézkedésnek minősül egy demokratikus társadalomban a 23. cikk (1) bekezdésében rögzített célok eléréséhez, annak megállapításához, hogy az eltérő célú adatkezelés összeegyeztethető-e azzal a céllal, amelyből a személyes adatokat eredetileg gyűjtötték, az adatkezelő többek között figyelembe veszi:

a) a személyes adatok gyűjtésének céljait és a tervezett további adatkezelés céljai közötti esetleges kapcsolatokat;

b) a személyes adatok gyűjtésének körülményeit, különös tekintettel az érintettek és az adatkezelő közötti kapcsolatokra;

c) a személyes adatok jellegét, különösen pedig azt, hogy a 9. cikk szerinti személyes adatok különleges kategóriáinak kezeléséről van-e szó, illetve, hogy büntetőjogi felelősség megállapítására és bűncselekményekre vonatkozó adatoknak a 10. cikk szerinti kezeléséről van-e szó;

d) azt, hogy az érintettekre nézve milyen esetleges következményekkel járna az adatok tervezett további kezelése;

e) megfelelő garanciák meglétét, ami jelenthet titkosítást vagy álnevesítést is.