Die Pseudonymisierung und Anonymisierung von Daten haben – abgesehen von ganzen zwölf Buchstaben – recht wenig gemeinsam. Bei beiden Ansätzen soll es Dritten erschwert werden, Personenbezüge aus einem Datensatz abzuleiten. Dadurch werden die Menschen hinter den Daten geschützt. Sowohl die Methoden als auch die Anwendungsfälle für die Pseudonymisierung bzw. Anonymisierung von Daten unterscheiden sich jedoch grundsätzlich. Wir erklären Ihnen, wann sich welches Verfahren eignet, mit welchen Restrisiken zu rechnen ist und inwiefern Datenschutzanforderungen weiterhin anwendbar bleiben.
Das Wichtigste in Kürze:
- Bei der Pseudonymisierung werden personenbezogene Daten (meist Namen) durch Codes oder Identifikationsnummern ersetzt. Der Personenbezug bleibt erhalten, weil die Pseudonyme in einer Liste den Klarnamen zugeordnet werden.
- Es handelt sich bei pseudonymisierten Daten weiterhin um personenbezogene Daten, die in den Anwendungsbereich der DSGVO und des Datenschutzrechtes fallen.
- Bei der Anonymisierung wird der Personenbezug entfernt. Dadurch gelten Datenschutzanforderungen nicht mehr.
- Laut Datenschutzrecht gelten Daten dann als hinreichend anonymisiert, wenn die Identifizierung natürlicher Personen in einem Datensatz nur mit unverhältnismäßig hohem Aufwand möglich wäre.
- Da sich der Stand der Technik und die Rechenkapazitäten stetig verbessern, wird es immer leichter, anonymisierte Daten auf natürliche Personen zurückzuführen.
- Daher ist die Anonymisierung mit Vorsicht zu genießen und immer als laufender Prozess zu verstehen.
In diesem Beitrag
- Abgrenzung von Pseudonymisierung und Anonymisierung
- Welche Rolle spielt Pseudonymisierung in der DSGVO?
- Was ist ein praktisches Beispiel für die Pseudonymisierung von Daten?
- Was versteht man unter Anonymisierung?
Abgrenzung von Pseudonymisierung und Anonymisierung
Der entscheidende Unterschied zwischen pseudonymisierten und anonymisierten Daten liegt in der Möglichkeit zur Wiederherstellung des Personenbezuges.
Pseudonymisierung | Anonymisierung | |
Personenbezug kann (nach dem aktuellen Stand der Technik mit normalem Aufwand) wiederhergestellt werden | Ja | Nein |
Bei der Pseudonymisierung wird einem personenbezogenen Datum ein Pseudonym zugewiesen, zum Beispiel eine ID-Nummer oder ein Code. Welches Pseudonym zu welcher Person gehört, wird in einer Masterliste festgehalten – diese gilt als „Zusatzinformation“ und sollte durch geeignete technische und organisatorische Maßnahmen (TOM) geschützt werden. Denn wer Zugriff auf die Zusatzinformation hat, kann den Personenbezug wiederherstellen. Ohne die Zusatzinformation sind die Daten jedoch keiner Person zuzuordnen.
Bei der Anonymisierung fehlt die Zusatzinformation. Dadurch ist eine Rückverfolgung nicht mehr möglich und der Personenbezug nicht länger gegeben – so zumindest die Theorie. Wie schwierig es ist, Daten wirklich zu anonymisieren, beleuchten wir später.
Welche Rolle spielt Pseudonymisierung in der DSGVO?
Anders als die Anonymisierung wird die Pseudonymisierung in der DSGVO explizit erwähnt. Sie erscheint gleich an mehreren Stellen:
- Die Pseudonymisierung von personenbezogenen Daten gilt als technische Maßnahme zu deren Schutz (vgl. Art. 32 Abs. 1 DSGVO).
- Zudem entspricht die Pseudonymisierung dem Grundgedanken der Datenminimierung (definiert in Art. 5, Pseudonymisierung als Methode genannt in Art. 25 Abs. 1 DSGVO).
Definiert wird der Begriff der Pseudonymisierung in den Begriffserklärungen in Art. 4 Nr. 5 der DSGVO. Der genaue Wortlaut:
„Im Sinne dieser Verordnung bezeichnet der Ausdruck: […] „Pseudonymisierung“ die Verarbeitung personenbezogener Daten in einer Weise, dass die personenbezogenen Daten ohne Hinzuziehung zusätzlicher Informationen nicht mehr einer spezifischen betroffenen Person zugeordnet werden können, sofern diese zusätzlichen Informationen gesondert aufbewahrt werden und technischen und organisatorischen Maßnahmen unterliegen, die gewährleisten, dass die personenbezogenen Daten nicht einer identifizierten oder identifizierbaren natürlichen Person zugewiesen werden“
Pseudonymisierte Daten gelten weiterhin als personenbezogene Daten und fallen somit genauso in den Anwendungsbereich der DSGVO wie Klarnamen. Sie haben jedoch einen großen Vorteil:
Gehen pseudonymisierte Daten ohne Zusatzinformation verloren, zum Beispiel bei einer Datenpanne, so besteht i. d. R. ein geringes Risiko für die Rechte und Freiheiten der Betroffenen. Damit stehen die Chancen besser, dass eine Meldepflicht der Datenpanne entfällt.
Was ist ein praktisches Beispiel für die Pseudonymisierung von Daten?
Viele von uns haben mindestens einen Coronatest hinter uns. Und je nachdem, in welchem Labor und zu welchem Zeitpunkt dieser Test ausgewertet wurde, kann es sein, dass die Ergebnisse online in einer langen Tabelle unter Pseudonymen abrufbar waren. Beim Test wurden sequentielle Nummern vergeben. Um das eigene Testergebnis abzurufen, konnte diese Nummer in einer stündlich aktualisierten Liste gesucht werden.
Das sah in etwa so aus:
Test-Nummer | Test-Ergebnis |
1928362 | negativ |
1928363 | negativ |
1928364 | negativ |
1928365 | negativ |
1928366 | negativ |
1928367 | negativ |
1928368 | negativ |
1928369 | negativ |
1928370 | negativ |
1928371 | positiv |
1928372 | negativ |
1928373 | negativ |
1928374 | negativ |
1928375 | negativ |
Um positive Testergebnisse an das Gesundheitsamt übergeben zu können, musste ein Personenbezug möglich sein. Daher verfügte das Labor über eine Liste, in der die einzelnen Nummern den Namen, Adressen und Telefonnummern der getesteten Personen zugeordnet wurden. Die Liste dürfte ungefähr so ausgesehen haben:
Test-Nummer | Name | Vorname | Adresse | Personalausweisnummer |
1928362 | Mustermann | Jonas | Berliner Str. 6 | X174VD7 |
1928363 | Mustermann | Michael | Frankfurter Str. 7 | BSJL566 |
1928364 | Mustermann | Jay | Hamburger Str. 8 | HAB9N53 |
1928365 | Mustermann | Linda | Münchner Weg 12 | HAB5N28 |
1928366 | Mustermann | Melinda | Hannover Weg 23 | HENE372 |
1928367 | Mustermann | Yaniv | Landsberger Allee 4 | BO375BL |
1928368 | Mustermann | Sarah | Lindenstraße 1 | KWB3856 |
Während die erste Liste mit der Öffentlichkeit geteilt werden konnte, da der Personenbezug entfernt wurde, musste die zweite Liste natürlich durch strenge technische und organisatorische Maßnahmen geschützt werden.
Immer dann, wenn ein Personenbezug möglich bleiben muss, die Klarnamen aber geheim bleiben sollen oder keine Rolle spielen, ist die Pseudonymisierung der richtige Weg.
Was versteht man unter Anonymisierung?
Bei der Anonymisierung von Daten wird der Personenbezug komplett entfernt. Es gibt keine Zusatzinformation. Technisch wird das zum Beispiel durch Algorithmen umgesetzt, die Namen unter Verwendung eines Zufallsmechanismus in Codes verwandeln (Randomisierung). Ohne Personenbezug fallen anonymisierte Daten nicht mehr in den Anwendungsbereich der DSGVO.
Die folgende Tabelle gibt einen Überblick über die wichtigsten Gemeinsamkeiten und Unterschiede zwischen Pseudonymisierung und Anonymisierung:
Pseudonymisierung | Anonymisierung | |
Verfahren minimiert das Datenschutzrisiko, zum Beispiel bei einer Datenpanne | Ja | Ja |
Die DSGVO ist nach Durchführung des Verfahrens weiterhin auf Datensätze anwendbar | Ja | Nein |
Personenbezug kann (nach dem aktuellen Stand der Technik mit normalem Aufwand) wiederhergestellt werden | Ja | Nein |
Daten dürfen auch nach einem Löschantrag weiter behalten werden, zum Beispiel für Auswertungen | Nein (es sei denn, der Verantwortliche kann dem Antrag bestehende Aufbewahrungsfristen entgegenhalten) | Ja |
Daten können zu statistischen Auswertungen herangezogen werden | Ja | Ja |
Eine Rückverfolgung des Personenbezuges ist absolut ausgeschlossen | Nein | Nein |
Anwendungsbereiche für anonymisierte Daten
Möchte ein Unternehmen Daten in einer Art und Weise nutzen und verarbeiten, für die es keine Rechtsgrundlage (wie die Einwilligung einer betroffenen Person) gibt, so kann die Anonymisierung eine praktische Lösung darstellen. Sind Daten erst einmal anonymisiert, so fallen die Anforderungen des Datenschutzes weg (zum Beispiel eine Rechtsgrundlage zur Verarbeitung und Speicherung, technische und organisatorische Schutzmaßnahmen, eine Datenschutz-Folgeabschätzung, ein Löschkonzept, usw.).
Besonders beliebt sind anonymisierte Daten bei klinischen Studien oder generell bei der statistischen Auswertung. Will ein Software-Unternehmen das Nutzerverhalten seiner Kunden durch ein Forschungsinstitut bewerten lassen, so wäre ohne die Anonymisierung von Daten eine Einwilligung der Kunden
- für die Erhebung von Daten zum Nutzungsverhalten und
- für die Weitergabe dieser Daten an das Forschungsinstitut erforderlich.
Wurden die Daten jedoch anonymisiert, so fallen diese Anforderungen weg. Ungeklärt ist bis dato, ob der technische Vorgang zur Anonymisierung selbst unter die DSGVO fällt – es hierfür also einer Rechtsgrundlage bedarf und der Vorgang in das Verzeichnis von Verarbeitungstätigkeiten (VVT) aufgenommen werden muss. Zudem ist sehr fraglich – und hier wird es spannend – ob Daten jemals wirklich anonym sind. Lässt sich ein Rückschluss auf die natürlichen Personen hinter den Daten jemals komplett ausschließen?
Gibt es überhaupt wirklich anonymisierte Daten?
Bleiben wir bei dem Beispiel des Software-Unternehmens, das eine Studie zum Nutzerverhalten in Auftrag geben will. Der erhobene „anonymisierte“ Datensatz enthält zwar keine Klarnamen oder Adressen, wahrscheinlich aber Angaben zu den Spracheinstellungen eines Nutzers, dem Betriebssystem, der Zeitzone, dem Serverstandort, genutzten Applikationen und dazu, wieviel Zeit der Nutzer mit der Softwarenutzung verbringt.
Wer nun Zugriff auf eine Liste der Kunden des Unternehmens hat, kann wahrscheinlich alleine durch die noch vorhandenen Daten herausfinden, um welchen Nutzer es sich bei welchem Datensatz handelt. Sind genug Metadaten im anonymisierten Datensatz zu finden, so wird die Rückverfolgung immer einfacher. Je mehr der Metadaten anonymisiert (oder auch generalisiert) werden, desto weniger brauchbar wird allerdings auch der Datensatz.
Heise berichtet von den Forschungsergebissen des Imperial College London und der belgischen Université catholique de Louvain. Demnach reichen drei Angaben, um 81 % der US-Amerikaner in einem anonymisierten Datensatz zu identifizieren:
- Postleitzahl
- Geschlecht
- Geburtsdatum
„[Die Forscher] haben ein Modell für maschinelles Lernen erstellt, das berechnet, wie einfach es ist, Personen anhand eines anonymisierten Datensatzes zu identifizieren. […] Im Durchschnitt kann man in den USA mit diesen drei Datensätzen in 81% der Fälle korrekt in einer sogenannten anonymisierten Datenbank gefunden werden. Angesichts von 15 demografischen Merkmalen einer in Massachusetts lebenden Person besteht eine 99,98-prozentige Wahrscheinlichkeit, dass man diese Person in einer beliebigen anonymisierten Datenbank findet.“
Veröffentlicht also eine private Krankenkasse Gesundheitsdaten in anonymisierter Form (zum Beispiel, um Zusammenhänge zwischen Vorerkrankungen und der Wirkung von Medikamenten festzustellen), reichen in der Regel nur drei Angaben, um eine natürliche Person im Datensatz zu identifizieren. Bürger aus den USA oder Großbritannien können hier den Test machen, wie leicht sie in einem Datensatz zu finden sind.
Daher herrscht unter vielen Datenschützern heutzutage der Konsens, dass echte Anonymisierung kaum noch möglich ist.
Wie aber äußert sich die DSGVO zu diesem Umstand? – leider nur sehr vage. Anonymisierung wird kurz in Erwägungsgrund 26 erwähnt (ein Erwägungsgrund erläutert Überlegungen und Hintergründe zu einem Gesetz):
„Bei der Feststellung, ob Mittel nach allgemeinem Ermessen wahrscheinlich zur Identifizierung der natürlichen Person genutzt werden, sollten alle objektiven Faktoren, wie die Kosten der Identifizierung und der dafür erforderliche Zeitaufwand, herangezogen werden, wobei die zum Zeitpunkt der Verarbeitung verfügbare Technologie und technologische Entwicklungen zu berücksichtigen sind. Die Grundsätze des Datenschutzes sollten daher nicht für anonyme Informationen gelten […].“
Ein EuGH-Urteil von 2016 gibt weitere Hinweise darauf, wann eine Anonymisierung als hinreichend zu beurteilen ist:
„Ausreichend ist in der Regel, dass der Personenbezug derart aufgehoben wird, dass eine Re-Identifizierung praktisch nicht durchführbar ist, weil der Personenbezug nur mit einem unverhältnismäßigen Aufwand an Zeit, Kosten und Arbeitskraft wiederhergestellt werden kann.“
Was nun als unverhältnismäßiger Aufwand gilt, liegt im Auge des Betrachters. Hinzu kommt, dass …
- der Stand der Technik sich immer weiter verbessert;
- Rechenkapazitäten rasant zunehmen;
- und die digitalen Fußabdrücke der Menschen immer größer werden.
Daher wird es tendenziell immer einfacher, natürliche Personen aus anonymisierten Datensätzen zu identifizieren.
Fallbeispiel „Netflix Prize“ – wie ein Tech-Unternehmen die Anonymisierung überschätze
Um seinen Algorithmus „Cinematch“ zu verbessern, der uns abendlich genau die Filme anzeigen soll, die wir gerade gucken wollen, schrieb Netflix 2006 einen Wettbewerb namens „Netflix Prize“ aus: eine Millionen Dollar für das Team, das anhand von 100 Millionen Filmbewertungen von fast 500.000 Kunden den besten Algorithmus für Filmvorschläge entwickeln konnte. Der Datensatz, den die Programmierteams zur Verfügung gestellt bekamen, war natürlich anonymisiert. Er enthielt lediglich Datenpunkte zu:
- Bewertung
- Datum der Bewertung
- Zufällig generiert IDs (nicht die Nutzer-ID)
- Titel des Filmes
- Erscheinungsjahr des Filmes
Einem Team von Forschern der University of Texas at Austin gelang es anhand der öffentlich zugänglichen Amazon-Filmbewertungen auf IMDb von den über 438.000 anonymisierten Netflix-Nutzern mehr als 366.000 mit Namen zu identifizieren.
Nun könnte man argumentieren, dass es sich bei Film-Bewertungen um Informationen handelt, deren Bekanntmachung niemanden interessiert. Aber würden Sie den gleichen Filmen einen „Like“ geben, wenn Sie wüssten, dass Ihre Chefin oder Ihr Vater Ihnen über die Schulter schaut?
Primär zeigt der Fall einfach, dass anonymisierte Daten schon 2006 nicht vor schlauen Köpfen mit Computern sicher waren.
Pseudonymisierung und Anonymisierung sind Prozesse, keine Zustände
Durch Pseudonymisierung und Anonymisierung können die Rechte und Freiheiten von Menschen geschützt werden. Denn Daten, die auf den ersten Blick keine Rückschlüsse auf natürliche Personen zulassen, sind zunächst einmal sicherer.
Doch auch wenn ein Datensatz anonym wirkt, ist er es höchstwahrscheinlich nicht – zumindest nicht für immer. Mit den wachsenden technischen Möglichkeiten, Rechenkapazitäten und immer größeren digitalen Fußabdrücken, lassen Datensätze sich nur noch schwer anonymisieren. Daher ist es wichtig, hier immer auf dem neuesten Stand der Technik zu bleiben und neue Entwicklungen und Entscheidungen im Datenschutzrecht zu verfolgen – zum Beispiel ist offen, ob der Prozess zur Anonymisierung von Daten mit ins VVT aufgenommen werden muss, oder nicht.
Datenschutzkonforme Verarbeitung mit DataGuard
Die Datenschutz-Plattform von DataGuard unterstützt Unternehmen dabei, die Anforderungen der DSGVO einzuhalten. Beispielsweise lässt sich über die Plattform ein Datenschutz-Audit durchführen, welches mögliche Lücken in der Datenverarbeitung, wie der Pseudonymisierung und Anonymisierung von Daten, aufdeckt und Maßnahmen und Handlungsempfehlungen zur Verbesserung empfiehlt. Hier ein kleiner Vorgeschmack:
Durch die zentrale Dokumentation der Datenverarbeitungsprozesse ermöglicht weiterhin, eine einfache Überwachung der Datenverarbeitungen und stellt eine übersichtliche Dokumentation aller Prozesse im Unternehmen zur Verfügung.
Somit ist die Datenschutz-Plattform von DataGuard ein Komplett-Paket für die datenschutzkonforme Verarbeitung von Daten im Rahmen von Pseudonymisierung und Anonymisierung und darüber hinaus.
Sprechen Sie uns für weitere Informationen zur Plattform gerne an, oder buchen Sie eine Plattform Demo mit unseren Experten.
Übersicht aller Dokumente aus der DSGVO
In dieser Checkliste erhalten Sie eine komplette Übersicht aller Dokumente, die die DSGVO vorschreibt.