Szerzők: dr. Domokos Márton, dr. Horváth Anna Zsófia
*’10 félreértés az anonimizálással kapcsolatban’ *címmel jelent meg az Európai Adatvédelmi Biztos Hivatala (’EDPS’) és a spanyol adatvédelmi hatóság (Agencia Española Protección Datos, ‘AEPD’) közösen kidolgozott tájékoztatója. A tájékoztató az EDPS és az AEPD az adatvédelemhez kapcsolódó technológiák elemzése során kialakított együttműködésének eredménye. Az együttműködés részeként korábban megjelent, hash funkciók, mint pszeudonimizálás témában 2019-ben megjelent anyaga itt érhető el.
Az új tájékoztató célja, hogy rámutasson az utóbbi időben egyre népszerűbbé váló anonimizálással kapcsolatban elterjedt félreértésekre. A tájékoztató nem tartalmaz konkrét példákat és esetleírásokat, ugyanakkor betekintést enged az adatvédelmi hatóságok anonimizálással kapcsolatosan kialakított álláspontjába.
Az anonimizálás megtervezését az anonimizálásban érdekelt szereplőknek a GDPR által előírt „elszámoltathatóság” alapelve alapján fontos dokumentálniuk, az alábbiak szerint:
- Annak eldöntése, hogy a tervezett folyamat anonimizálásnak, álnevesítésnek vagy titkosításnak minősül-e.
- Az adott adatkezelés jellegére tekintettel, egyedi körülményeinek figyelembevételével és eseti kockázatelemzés alapján meghatározott anonimizálási technika kiválasztása.
- A kockázatelemzés során az adatkezelés céljának, az adatkészlet nagyságának és összetételének, az adatkészletben foglalt adatok jellegének értékelése.
- Az anonimizálási folyamat végrehajtásának megtervezése az azonosított kockázatokra tekintettel.
- Az anonimizálás hatékonyságának rendszeres, dokumentált felülvizsgálata.
Az új tájékoztató többek között a fenti dokumentáció elkészítésében nyújt hasznos segítséget. Az alábbiakban összefoglaljuk a tájékoztató legfontosabb pontjait, kiegészítve saját véleményünkkel.
Kiindulási pont: Anonimizálás a GDPR keretein belül
Bár az anonimizálás konkrét folyamata technológiai kérdés, annak GDPR keretei között történő értelmezése már adatvédelmi kérdés. A GDPR 26. preambulumbekezdése szerint „az adatvédelem elveit … az anonim információkra nem kell alkalmazni, nevezetesen olyan információkra, amelyek nem azonosított vagy azonosítható természetes személyre vonatkoznak, valamint az olyan személyes adatokra, amelyeket olyan módon anonimizáltak, amelynek következtében az érintett nem vagy többé nem azonosítható”. A GDPR ezért nem vonatkozik az ilyen anonim információk kezelésére.
Az EDPS és az AEPD felhívják a figyelmet a személyes adat azonosíthatóságával kapcsolatos további összefüggésekre. Egy személyes adatokat tartalmazó adatkészlet olyan közvetlen vagy közvetett azonosítókat tartalmaz, amelyek alapján az érintett azonosítható, vagy azonosíthatóvá válhat. A közvetlen azonosító olyan egyedi információ, amely közvetlenül kapcsolódik az érintetthez, például név vagy személyi azonosító. A közvetett azonosító (vagy kvázi-azonosító) ezzel szemben olyan háttérinformáció az egyénről, amely más információval együtt az érintett azonosítására használható egy olyan személy által, akinek tudomása van az információ és az érintett közötti kapcsolatról, például irányítószám, egy adott témában kialakított vélemény, vagy adott időpontban rögzített földrajzi helyzet. A közvetett azonosítók önmagukban ugyan nem, de más adatokkal vagy kiegészítő háttértudással kombinálva már azonosíthatóvá tehetik az érintetteket. Az anonimizálásnak ezért ki kell terjednie a közvetlen és a közvetett azonosítókra egyaránt.
Újra-azonosíthatóságról beszélünk, amikor korábban anonimizált adatokat ismét személyes adatokká alakítanak. Az újra-azonosíthatósági valószínűség egy adott adatkészlet újra-azonosíthatóvá alakításának valószínűsége az anonimizálási folyamat „visszafejtése” által.
Az adatkészlet hasznossága/használhatósága annak a mértéke, hogy adott információ mennyire hasznos a kitűzött cél szempontjából, mennyire tud hozzájárulni az adatok információtartalma a cél megvalósításához. Az adatkészlet hasznossága mértékét esetileg kell megállapítani az adott anonimizálás körülményeit figyelembe véve.
Az EDPS és az AEPD szerint az alábbi félreértésekre érdemes felhívni a figyelmet:
Első félreértés: A pszeudonimizálás és az anonimizálás egy és ugyanaz.
Valóság: A pszeudonimizálás (álnevesítés) és az anonimizálás két különböző folyamat.
A GDPR 4. cikke 5, pontja szerint az álnevesítés „a személyes adatok olyan módon történő kezelése, amelynek következtében további információk felhasználása nélkül többé már nem állapítható meg, hogy a személyes adat mely konkrét természetes személyre vonatkozik”.
Álnevesítés során rendelkezésre áll egy elkülönítve, megfelelő adatbiztonsági intézkedésekkel védett olyan adat, amely alapján az érintett azonosítható (például adatbáziskezelőknél). Ezzel szemben az anonimizálás esetén nincs olyan információ, amely az anonim adatok érintettekkel való megfeleltetésére használható.
Második félreértés: A titkosítás anonimizálás.
Valóság: A titkosítás nem egyenlő az anonimizálással, de erős álnevesítési technika lehet.
A titkosítási eljárás során titkos kulcsokat használnak az adatoknak olyan formába történő átalakításához, amely az adatok olvashatatlanná alakításával csökkenti az adatokkal való visszaélés kockázatát. A titkosítás az adatokat jogosulatlan harmadik felektől védi, de arra jogosult, megbízható felek számára a megismerést lehetővé teszi, így a titkosítási algoritmusokkal végrehajtott átalakítás lényegi eleme a visszafordíthatóság. (A „megbízható fél” a tájékoztatóban véleményünk szerint feltehetőleg az IT-biztonság szempontú „trusted third party-t” jelenti, aki megkaphatja a kulcsot.) Így a titkosításhoz kapcsolódó első nem tisztázott félreértés, hogy a fent említett kiegészítő információ maga a titkosítás visszafejtéséhez tervezett és szükséges kulcs (’decryption key’, dekódolási kulcs), amely olvashatóvá teszi a titkosított adatokat.
Úgy tűnik, a fenti félreértés fő oka, hogy sokan a kulcsot nem kiegészítő információnak tekintik, hanem csak a technikai megoldás részének, és a titkosítást anonimizálásnak tekintve nem-személyes adatként kezelik az egyébként csak titkosított személyes adatokat. A tájékoztató szerint viszont hiába ez a titkosítás része, ez maga az információ, amivel az adat azonosíthatóvá válik.
Az EDPS és AEPD elismerik annak elméleti lehetőségét, hogy a titkosítási kulcs törlésével az adat anonimmá válna, ugyanakkor ezt a gyakorlatban nem tartják alkalmazhatónak. A titkosítás sikeressége a kulcs ismeretén kívül számos tényezőn múlik, például az algoritmus erőssége, esetleges információszivárgás, a titkosítás technikai megvalósításának módja, a titkosított adatok mennyisége vagy a rendelkezésre álló számítási teljesítmény (a titkosítás feloldásához/feltöréséhez szükséges “computing power”). Az információszivárgás véleményünk szerint érintheti például a titkosított adatok körét, a titkosítás technikai körülményeit, vagy a kulcs tárolásának körülményeit.
Harmadik félreértés: Az adatok anonimizálása mindig lehetséges.
Valóság: Nem minden esetben lehetséges az újra-azonosíthatóság kockázatát minimalizáló anonimizálás oly módon, hogy az adatkészlet az elérni kívánt célra használható maradjon.
A tájékoztató rámutat, hogy az anonimizálás célja az egyensúly kialakítása a fent említett újra-azonosíthatósági valószínűség és az adatkészlet használhatósága között. Ugyanakkor az adatkezelés jellegétől függően nem mindig lehetséges az újra-azonosíthatósági valószínűség csökkentése, így például túl kevés az adat, érintettek közötti lényeges eltérések egyes adatkategóriákon belül, vagy amikor az adatkészlet sok demográfiai adatot vagy helymeghatározási adatot tartalmaz. Utóbbi esetben az adatok vagy annyira szorosan kapcsolódnak az egyénhez, hogy már néhány adathoz való hozzáféréssel leszűkíthető az érintettek köre, vagy az egyénre annyira jellemző mintázatokat hoznak létre (például napi közlekedési hálózatok), hogy az ilyen információtartalom miatt kifejezetten nehezen anonimizálhatók. Így az ilyen adatok jellegüknél fogva növelik a 29. cikk szerinti munkacsoport anonimizálási technikákról szóló 05/2014 véleményében azonosított összekapcsolás és következtetés valószínűségét is.
Negyedik félreértés: Az anonimizálás örökre szól.
Valóság: Az anonimizálási folyamatok visszafordíthatósága a technológiai fejlődés eredményeképp nem zárható ki kategorikusan.
Az EDPS és AEPD az anonimizálás visszafejtését elősegítő két tényezőt emel ki: 1) a számítástechnikai kapacitások folyamatos növekedése, ami egyre jobban kitágítja a visszafejtésre észszerűen feltételezhetően használható eszközök körét, 2) idővel egyre valószínűbb az információszivárgás, illetve kiegészítő információ elérhetővé válása, amely az anonimizálás hatékonyságára is kihat. (Az információszivárgás valószínűsége növekedésének okaira a tájékoztató sajnos nem tér ki.)
Ötödik félreértés: Az anonimizálás az adatkészlet újbóli azonosíthatósága lehetőségét mindig nullára csökkenti.
Valóság: Mindig a konkrét anonimizálási technika és annak végrehajtása tükrében kell megítélni az újra-azonosíthatóság kockázatát.
Az EDPS és AEPD hangsúlyozza, hogy az újra-azonosíthatóság kockázatának határértékét különböző szempontok szerint kell megállapítani, beleértve az érintettek magánszférájára gyakorolt hatást is. Bár elméletileg a 100 %-os anonimizálás a leghatékonyabb módszer, egyes esetekben ilyenkor sem zárható ki az adatkészlettől függetlenül fennálló reziduális, „maradvány-kockázat”, például az adatkészlettől függetlenül nyilvánosan elérhető adatok. A vonatkozó szempontok tekintetében a tájékoztató sajnos nem ad részletesebb iránymutatást.
Hatodik félreértés: Az anonimizálás foka nem mérhető.
Valóság: Az anonimizálás fokának mértéke mérhető.
A tájékoztató szerint az adatkészlet nem pusztán anonim vagy nem anonim. Az anonimizálás fokának mértéke lényegében az újra-azonosíthatósági kockázat mértékének a fordítottja. Bármely adatállomány nyilvántartásának újra-azonosíthatósági valószínűsége azon alapul, hogy mennyire lehetséges a benne lévő nem személyes adatokat egyenként kiemelni és különválasztani. Ezt a lehetőséget az EDPS és AEPD egyes különleges, magas szinten aggregált adatkészletektől eltekintve nem tartja a gyakorlatban elkerülhetőnek.
A tájékoztató ugyanakkor ezzel kapcsolatban nem érinti, hogy az anonimizálás fokának mérhetősége hogyan hat ki a GDPR személyes adat definíciójára, amely egy fekete-fehér megközelítésen alapul.
Véleményünk szerint a fentiek alapján az anonimizálás foka mérésének a gyakorlatban ott lehet jelentősége, hogy ha magas fokú az anonimizálás, úgy, hogy az adattábla nem tartalmaz a GDPR 26. preambulumbekezdés szerint újra-azonosítható adatokat, akkor anonimizálásról lesz szó. Másrészt, a fenti értékelést célszerű az anonimizálás megkezdése előtt lefolytatni, így az – az elszámoltathatóság jegyében – beilleszthető a kockázatalapú döntéshozatali folyamatba, és megfelelően dokumentálható.
Hetedik félreértés: Az anonimizálás lehet teljes mértékben automatizált.
Valóság: Az anonimizálási folyamat történhet automatizált módon, ugyanakkor a kontextus-érzékenység miatt elengedhetetlen az emberi/ szakértői beavatkozás.
Az automatizáció az anonimizálási folyamat fontos része, de az egyedi körülmények mérlegelését megkövetelő lépésekben emberi beavatkozás nélkül önmagában nem elég. A tájékoztató kiemel egy sor olyan lépést és szempontot, amelyek miatt és amelyek során a személyes emberi beavatkozás szükséges: a tervezett célok, az eredeti adatkészlet, az alkalmazott anonimizálási technika és az újra-azonosíthatósági kockázat megállapításához, a közvetlen azonosítók azonosításához és törléséhez, és a közvetett azonosítók jelentette kockázat felméréséhez.
Nyolcadik félreértés: Az anonimizálás eredményeképp az adatok használhatatlanná válnak.
Valóság: A megfelelően kiválasztott anonimizálási technika alkalmazásával az adat használható marad.
Az EDPS és AEPD elismerik, hogy az anonimizálás mindig korlátozza az így kapott adatkészlet hasznosságát/használhatóságát. Ez viszont nem jelenti azt, hogy az anonimizálás használhatatlanná teszi az adatokat a belőlük kinyerhető információk korlátozottságával, hanem azt, hogy a hasznosság a cél és az újra-azonosíthatóság kockázata függvényében alakul (például születési dátumok intervallumokba sorolása).
Ugyanakkor a tájékoztató azt is kiemeli, hogy a személyes adatok nem tárolhatók tartósan az eredeti céljukon túl, amíg más célokra is hasznosak lehetnek. Az ilyen esetekben végrehajtott anonimizálás, ha a személyes adatok leválaszthatók és eltávolíthatók az adatkészletből, miközben a fennmaradó adatkészlet továbbra is használható marad, az adattakarékosság elvével ellentétes. Ide tartozik például a weboldal hozzáférési naplóinak anonimizálása, amely során a hozzáférés dátuma és a weboldal megmarad (véleményünk szerint ez a weboldallal kapcsolatos aktivitásméréshez lehet releváns), de az, hogy ki látogatta, nem. Ilyen esetekben vagy a GDPR rendelkezései szerinti adatkezelést kell folytatni, vagy semmilyet.
Kilencedik félreértés: Mások által sikeresen alkalmazott anonimizálási folyamat követése a saját szervezeten belül is egyenértékű sikeres eredményt hoz.
Valóság:
A tájékoztató kihangsúlyozza a megfelelő anonimizálási módszer kiválasztásának jelentőségét. Különböző jellegű, méretű és célból végzett anonimizáláshoz eltérő módszer szükséges, hogy az adat használható maradjon. A személyes adatok kezeléséhez hasonlóan az anonimizálás is érzékeny az egyedi körülményekre, amelyek vagy az adatkészlet tulajdonságaiban jelennek meg, vagy az adatkészlettől független külső tényezők révén (például ugyanazon célból ugyanolyan jellegű adatok anonimizálása, de egyik esetben nincs elérhető nyilvános adat, ami az anonimizálás hatékonyságát csökkentené, míg más esetben van).
Tizedik félreértés: Anonimizálás esetén sem a kockázata nem áll fenn, sem érdek nem fűződik annak kiderítéséhez, hogy az adatok kire vonatkoznak.
Valóság: A személyes adatok önmagukban értéket képviselnek, mind maguk az érintettek, mind harmadik felek számára.
Nem lehet figyelmen kívül hagyni annak lehetőségét, hogy valaki – akár kíváncsiságból, akár véletlenül, akár tényleges érdekből (például tudományos kutatás, újságírás vagy bűnügyi tevékenység) – újra azonosít legalább egy személyt egy adathalmazban. Az anonimizálás elleni támadás a fenti érdekek alapján lehet újra-azonosításra irányuló szándékos vagy nem szándékos kísérlet, az adatok megsértése, vagy az adatok nyilvánosságra hozatala.
Az okozott kockázat felmérése nem mindig egyértelmű, egy látszólag jelentéktelen adat érintetthez kötése is komoly következményekkel járhat az egyén számára. Fokozottan igaz az, ha különleges adatokról van szó, például egészségügyi adatról vagy politikai nézetekről.
A kiadvány angol és spanyol nyelven elérhető itt.