Epäsuoran henkilötiedon löydökset yllättävät GDPR-analyyseissä



Organisaatioiden arvioidessa datansa nykytilaa tietosuoja-asetuksen näkökulmasta runsaat epäsuoran henkilötiedon löydökset tulevat usein yllätyksenä. Henkilötiedon ilmentymiä odotetaan löytyvän muutamista ilmeisistä järjestelmistä, kuten HR- ja CRM-järjestelmistä, mutta kun niitä esiintyykin kymmenissä tai sadoissa järjestelmissä, satojatuhansia, miljoonia, jopa satoja miljoonia löydöksiä, tilanne voi vaikuttaa ylitsepääsemättömältä.

Tietosuoja-asetukseen (GDPR) valmistautuminen helpottuu olennaisesti, kun henkilötietojen massasta tunnistetaan aito altistuminen GDPR-vaatimuksille. Automaation avulla tämä paikantaminen on mahdollista suuristakin tietomääristä. Todellisen henkilötietojoukon sijaintien ja sisältöjen tunnistaminen luo edellytykset tarkoituksenmukaiselle ja tehokkaalle hallintomallille ja riskienhallinnalle sekä tarvittaville alkukorjaustoimenpiteille.

Epäsuora henkilötieto käyttäytyy eri lailla kuin suora henkilötieto

Suora henkilötieto on tietoa, joka yksilöi henkilön. Tällaista tietoa on esimerkiksi henkilön nimet, henkilötunnus, puhelinnumero, sähköpostiosoite ja usein osoite ja pankkitilikin.

Epäsuora henkilötieto puolestaan on olosuhderiippuvaista. Tällöin henkilötieto on koodattu tietoa edustavalla avaimella, vaikkapa numerosarjalla 12345, tietyssä järjestelmässä tai järjestelmäarkkitehtuurissa. Numerosarja yksistään ei merkitse mitään, mutta kun se liitetään rekisteriin, jossa numerosarja tunnistaa henkilön, itse avainkin muuttuu kaikkialla henkilötiedoksi.

Henkilötiedon avainviittauksia on kahdenlaisia:rekisterimerkintöjä, jotka polveutuvat käyttäjähallinnasta ja muodostuvat automaattisesti tietojärjestelmien käytön yhteydessä jäljitettävyyden varmistamiseksi. Näitä kenttiä kuten CreatedBy ja ERNAM löytyy hyvin suunnitelluissa järjestelmissä kaikkialta.

Henkilöiden viiteavaimet taas ovat järjestelmän osien välisiä viittauksia henkilön perustietoon. Ne liittyvät sovellusten käyttötarkoitukseen, vaikkapa viite myyntitilauksen kontaktihenkilöön tai tuotetiedossa tuotteen omistajaan. Tunnusomaista näille viiteavaimille on, että ne syntyvät pääosin käyttäjien toimesta.

Epäsuoran henkilötiedon tuottamat sadat miljoonat väärät löydökset on käsiteltävä

Väärät löydökset ovat ominaisia epäsuoralle henkilötiedolle. Lukuisissa organisaatioissa viiteavaimistot on suunniteltu puutteellisesti, jolloin henkilö-, materiaali-, asiakasnumero- ja monet muut koodaukset voivat käyttää samoja avainsarjoja. Ongelmia on tiedossa, kun avainsarjat törmäävät eikä voida osoittaa onko viitauksella tarkoitettu henkilöä tai jotain muuta kohdetta.

Olemme nähneet, kuinka altistumista arvioitaessa jopa 90 % löydöksistä on vääriä. Yrityksillä saattaa olla näitä jopa satoja miljoonia. Tietosuoja-asetuksen mukaan koodattu tieto on yksiselitteisesti ja käänteisesti todistettava olevan muuta, muutoin ne lähtökohtaisesti ovat henkilötietoa.

Hankalaksi tilanne muodostuu mm. silloin, kun henkilö käyttää oikeuttaan pyytää yritykseltä kaikki itseään koskevat tiedot. Mikäli yritys ei pysty yksiselitteisesti ja käänteisesti todistamaan, että kyseessä ei ole henkilötieto, niin pahimmillaan avaimien ollessa päällekkäisiä esim. tuotekoodien kanssa yritys voi joutua toimittamaan otteita tuoterekisteristä tai hinnastostaan.

Tietokenttien väärinkäyttö tuottaa satunnaislöydöksiä

Tietojärjestelmien väärinkäytökset, joissa vaikkapa nimi- tai kuvauskenttiä on käytetty väärin ja kommenttikenttiin on kirjattu henkilötietoa, mutkistavat tilannetta entisestään. Kun tilauksissa on viitattu referenssihenkilöihin nimellä tai puhelinnumerolla, taulu muuttuukin yhtäkkiä henkilörekisteriksi. Tällaisia löydöksiä saattaakin olla kymmenissä tai sadoissa rekistereissä.

Satunnaislöydökset pitää korjata (yleensä poistaa) ja hioa järjestelmät ja toimintamallit kuntoon. Johdon vastuulla on huolehtia, että käyttäjät ymmärtävät oikeat käyttötavat sekä tarjota järjestelmät, jotka toimivat regulaation mukaisesti.

Jos käyttäjän työprosessi pitää sisällään henkilötietojen keräämistä, eikä hänellä ole siihen tarvittavia kenttiä, on ymmärrettävää, että hän täyttää tiedot virheellisesti muihin tietokenttiin.

Ongelmallinenkin tilanne on pääosin korjattavissa

On ollut mielenkiintoista todeta, että puhdistustoimenpiteiden jälkeen aitojen ja tarkoituksenmukaisten henkilötietojen osuus putoaa murto-osaan alkuperäisestä suuresta löydösmäärästä. Tunnistamisen jälkeen liiketoiminnan edellyttämän tiedon kriittinen määrittely, ja kertyneen/vanhentuneen tiedon poistaminen toteuttavat jo itsessään tietosuoja-asetuksen minimointivaatimusta.

Iso osa korjaustoimenpiteistä voidaan usein suorittaa ennakkoon taustatyönä, mutta ne vaativat yleensä yhteistyötä käyttöpalveluorganisaatioiden ja toimittajien kanssa. Osa ongelmista on kuitenkin ratkottava järjestelmämuutoksilla tai järjestelmien uusimisilla. Tärkeää on kuitenkin aidon altistumisen tunnistaminen.