Kontaktieren Sie uns jetzt
für Ihr individuelles Angebot

Oder buchen Sie hier direkt einen Termin

(089) 8967 410 600
userlane
Mateco
Demodesk
My Poster
Fressnapf-1
Kusmi Tea

Die Pseudonymisierung und Anonymisierung von Daten haben – abgesehen von ganzen zwölf Buchstaben – recht wenig gemeinsam. Bei beiden Ansätzen soll es Dritten erschwert werden, Personenbezüge aus einem Datensatz abzuleiten. Dadurch werden die Menschen hinter den Daten geschützt. Sowohl die Methoden als auch die Anwendungsfälle für die Pseudonymisierung bzw. Anonymisierung von Daten unterscheiden sich jedoch grundsätzlich. Wir erklären Ihnen, wann sich welches Verfahren eignet, mit welchen Restrisiken zu rechnen ist und inwiefern Datenschutzanforderungen weiterhin anwendbar bleiben.  

Das Wichtigste in Kürze:  

  • Bei der Pseudonymisierung werden personenbezogene Daten (meist Namen) durch Codes oder Identifikationsnummern ersetzt. Der Personenbezug bleibt erhalten, weil die Pseudonyme in einer Liste den Klarnamen zugeordnet werden.  
  • Es handelt sich bei pseudonymisierten Daten weiterhin um personenbezogene Daten, die in den Anwendungsbereich der DSGVO und des Datenschutzrechtes fallen.  
  • Bei der Anonymisierung wird der Personenbezug entfernt. Dadurch gelten Datenschutzanforderungen nicht mehr. 
  • Laut Datenschutzrecht gelten Daten dann als hinreichend anonymisiert, wenn die Identifizierung natürlicher Personen in einem Datensatz nur mit unverhältnismäßig hohem Aufwand möglich wäre.  
  • Da sich der Stand der Technik und die Rechenkapazitäten stetig verbessern, wird es immer leichter, anonymisierte Daten auf natürliche Personen zurückzuführen.  
  • Daher ist die Anonymisierung mit Vorsicht zu genießen und immer als laufender Prozess zu verstehen.  

In diesem Beitrag

Abgrenzung von Pseudonymisierung und Anonymisierung  

Der entscheidende Unterschied zwischen pseudonymisierten und anonymisierten Daten liegt in der Möglichkeit zur Wiederherstellung des Personenbezuges.  

 

  Pseudonymisierung Anonymisierung 
Personenbezug kann (nach dem aktuellen Stand der Technik mit normalem Aufwand) wiederhergestellt werden  Ja Nein

Bei der Pseudonymisierung wird einem personenbezogenen Datum ein Pseudonym zugewiesen, zum Beispiel eine ID-Nummer oder ein Code. Welches Pseudonym zu welcher Person gehört, wird in einer Masterliste festgehalten – diese gilt als „Zusatzinformation“ und sollte durch geeignete technische und organisatorische Maßnahmen (TOM) geschützt werdenDenn wer Zugriff auf die Zusatzinformation hat, kann den Personenbezug wiederherstellen. Ohne die Zusatzinformation sind die Daten jedoch keiner Person zuzuordnen.  

Bei der Anonymisierung fehlt die Zusatzinformation. Dadurch ist eine Rückverfolgung nicht mehr möglich und der Personenbezug nicht länger gegeben – so zumindest die Theorie. Wie schwierig es ist, Daten wirklich zu anonymisieren, beleuchten wir später 

Welche Rolle spielt Pseudonymisierung in der DSGVO? 

Anders als die Anonymisierung wird die Pseudonymisierung in der DSGVO explizit erwähnt. Sie erscheint gleich an mehreren Stellen:  

  1. Die Pseudonymisierung von personenbezogenen Daten gilt als technische Maßnahme zu deren Schutz (vgl. Art. 32 Abs. 1 DSGVO). 
  2. Zudem entspricht die Pseudonymisierung dem Grundgedanken der Datenminimierung (definiert in Art. 5, Pseudonymisierung als Methode genannt in Art. 25 Abs. 1 DSGVO). 

Definiert wird der Begriff der Pseudonymisierung in den Begriffserklärungen in Art. 4 Nr5 der DSGVO. Der genaue Wortlaut:  

„Im Sinne dieser Verordnung bezeichnet der Ausdruck: […] „Pseudonymisierung“ die Verarbeitung personenbezogener Daten in einer Weise, dass die personenbezogenen Daten ohne Hinzuziehung zusätzlicher Informationen nicht mehr einer spezifischen betroffenen Person zugeordnet werden können, sofern diese zusätzlichen Informationen gesondert aufbewahrt werden und technischen und organisatorischen Maßnahmen unterliegen, die gewährleisten, dass die personenbezogenen Daten nicht einer identifizierten oder identifizierbaren natürlichen Person zugewiesen werden“ 

 

Pseudonymisierte Daten gelten weiterhin als personenbezogene Daten und fallen somit genauso in den Anwendungsbereich der DSGVO wie Klarnamen. Sie haben jedoch einen großen Vorteil: 

Gehen pseudonymisierte Daten ohne Zusatzinformation verloren, zum Beispiel bei einer Datenpanne, so besteht i. d. R. ein geringes Risiko für die Rechte und Freiheiten der Betroffenen. Damit stehen die Chancen besser, dass eine Meldepflicht der Datenpanne entfällt.  

 

Eine vollständige Checkliste zum ausdrucken und abhaken - sichern Sie sich eine Übersicht aller Datenschutzdokumente aus der DSGVO in unserem Whitepaper:

DATENSCHUTZDOKUMENTE Image CTA

Was ist ein praktisches Beispiel für die Pseudonymisierung von Daten? 

Viele von uns haben mindestens einen Coronatest hinter uns. Und je nachdem, in welchem Labor und zu welchem Zeitpunkt dieser Test ausgewertet wurde, kann es sein, dass die Ergebnisse online in einer langen Tabelle unter Pseudonymen abrufbar waren. Beim Test wurden sequentielle Nummern vergeben. Um das eigene Testergebnis abzurufen, konnte diese Nummer in einer stündlich aktualisierten Liste gesucht werden.  

Das sah in etwa so aus:  

Test-Nummer Test-Ergebnis
1928362 negativ
1928363 negativ
1928364 negativ
1928365 negativ
1928366 negativ
1928367 negativ
1928368 negativ
1928369 negativ
1928370 negativ
1928371 positiv
1928372 negativ
1928373 negativ
1928374 negativ
1928375 negativ

 

Um positive Testergebnisse an das Gesundheitsamt übergeben zu können, musste ein Personenbezug möglich sein. Daher verfügte das Labor über eine Liste, in der die einzelnen Nummern den Namen, Adressen und Telefonnummern der getesteten Personen zugeordnet wurden. Die Liste dürfte ungefähr so ausgesehen haben:

  

Test-Nummer Name Vorname Adresse Personalausweisnummer
1928362 Mustermann Jonas Berliner Str. 6 X174VD7 
1928363 Mustermann Michael Frankfurter Str. 7 BSJL566
1928364 Mustermann Jay Hamburger Str. 8 HAB9N53
1928365 Mustermann Linda Münchner Weg 12 HAB5N28
1928366 Mustermann Melinda Hannover Weg 23 HENE372
1928367 Mustermann Yaniv Landsberger Allee 4 BO375BL
1928368 Mustermann Sarah Lindenstraße 1 KWB3856

 

Während die erste Liste mit der Öffentlichkeit geteilt werden konnte, da der Personenbezug entfernt wurde, musste die zweite Liste natürlich durch strenge technische und organisatorische Maßnahmen geschützt werden. 

Immer dann, wenn ein Personenbezug möglich bleiben muss, die Klarnamen aber geheim bleiben sollen oder keine Rolle spielen, ist die Pseudonymisierung der richtige Weg.  

Was versteht man unter Anonymisierung?   

Bei der Anonymisierung von Daten wird der Personenbezug komplett entfernt. Es gibt keine Zusatzinformation. Technisch wird das zum Beispiel durch Algorithmen umgesetzt, die Namen unter Verwendung eines Zufallsmechanismus in Codes verwandeln (Randomisierung). Ohne Personenbezug fallen anonymisierte Daten nicht mehr in den Anwendungsbereich der DSGVO.  

Die folgende Tabelle gibt einen Überblick über die wichtigsten Gemeinsamkeiten und Unterschiede zwischen Pseudonymisierung und Anonymisierung:  

  Pseudonymisierung Anonymisierung
Verfahren minimiert das Datenschutzrisiko, zum Beispiel bei einer Datenpanne  Ja Ja
Die DSGVO ist nach Durchführung des Verfahrens weiterhin auf Datensätze anwendbar  Ja Nein
Personenbezug kann (nach dem aktuellen Stand der Technik mit normalem Aufwand) wiederhergestellt werden  Ja Nein
Daten dürfen auch nach einem Löschantrag weiter behalten werden, zum Beispiel für Auswertungen   Nein (es sei denn, der Verantwortliche kann dem Antrag bestehende Aufbewahrungsfristen entgegenhalten)  Ja
Daten können zu statistischen Auswertungen herangezogen werden  Ja Ja
Eine Rückverfolgung des Personenbezuges ist absolut ausgeschlossen  Nein Nein

 

Anwendungsbereiche für anonymisierte Daten 

Möchte ein Unternehmen Daten in einer Art und Weise nutzen und verarbeiten, für die es keine Rechtsgrundlage (wie die Einwilligung einer betroffenen Person) gibt, so kann die Anonymisierung eine praktische Lösung darstellen. Sind Daten erst einmal anonymisiert, so fallen die Anforderungen des Datenschutzes weg (zum Beispiel eine Rechtsgrundlage zur Verarbeitung und Speicherung, technische und organisatorische Schutzmaßnahmen, eine Datenschutz-Folgeabschätzung, ein Löschkonzept, usw.).  

Besonders beliebt sind anonymisierte Daten bei klinischen Studien oder generell bei der statistischen Auswertung. Will ein Software-Unternehmen das Nutzerverhalten seiner Kunden durch ein Forschungsinstitut bewerten lassen, so wäre ohne die Anonymisierung von Daten eine Einwilligung der Kunden  

  1. für die Erhebung von Daten zum Nutzungsverhalten und  
  2. für die Weitergabe dieser Daten an das Forschungsinstitut erforderlich.  

Wurden die Daten jedoch anonymisiert, so fallen diese Anforderungen weg. Ungeklärt ist bis dato, ob der technische Vorgang zur Anonymisierung selbst unter die DSGVO fällt – es hierfür also einer Rechtsgrundlage bedarf und der Vorgang in das Verzeichnis von Verarbeitungstätigkeiten (VVT) aufgenommen werden muss. Zudem ist sehr fraglich – und hier wird es spannend – ob Daten jemals wirklich anonym sind. Lässt sich ein Rückschluss auf die natürlichen Personen hinter den Daten jemals komplett ausschließen?  

Gibt es überhaupt wirklich anonymisierte Daten?  

Bleiben wir bei dem Beispiel des Software-Unternehmens, das eine Studie zum Nutzerverhalten in Auftrag geben will. Der erhobene „anonymisierte“ Datensatz enthält zwar keine Klarnamen oder Adressen, wahrscheinlich aber Angaben zu den Spracheinstellungen eines Nutzers, dem Betriebssystem, der Zeitzone, dem Serverstandort, genutzten Applikationen und dazu, wieviel Zeit der Nutzer mit der Softwarenutzung verbringt.  

Wer nun Zugriff auf eine Liste der Kunden des Unternehmens hat, kann wahrscheinlich alleine durch die noch vorhandenen Daten herausfinden, um welchen Nutzer es sich bei welchem Datensatz handelt. Sind genug Metadaten im anonymisierten Datensatz zu finden, so wird die Rückverfolgung immer einfacher. Je mehr der Metadaten anonymisiert (oder auch generalisiert) werden, desto weniger brauchbar wird allerdings auch der Datensatz. 

Heise berichtet von den Forschungsergebissen des Imperial College London und der belgischen Université catholique de Louvain. Demnach reichen drei Angaben, um 81 % der US-Amerikaner in einem anonymisierten Datensatz zu identifizieren:  

  • Postleitzahl  
  • Geschlecht  
  • Geburtsdatum  

„[Die Forscher] haben ein Modell für maschinelles Lernen erstellt, das berechnet, wie einfach es ist, Personen anhand eines anonymisierten Datensatzes zu identifizieren. […] Im Durchschnitt kann man in den USA mit diesen drei Datensätzen in 81% der Fälle korrekt in einer sogenannten anonymisierten Datenbank gefunden werden. Angesichts von 15 demografischen Merkmalen einer in Massachusetts lebenden Person besteht eine 99,98-prozentige Wahrscheinlichkeit, dass man diese Person in einer beliebigen anonymisierten Datenbank findet.“ 

Veröffentlicht also eine private Krankenkasse Gesundheitsdaten in anonymisierter Form (zum Beispiel, um Zusammenhänge zwischen Vorerkrankungen und der Wirkung von Medikamenten festzustellen), reichen in der Regel nur drei Angaben, um eine natürliche Person im Datensatz zu identifizieren. Bürger aus den USA oder Großbritannien können hier den Test machen, wie leicht sie in einem Datensatz zu finden sind.  

Daher herrscht unter vielen Datenschützern heutzutage der Konsens, dass echte Anonymisierung kaum noch möglich ist.  

Wie aber äußert sich die DSGVO zu diesem Umstand?  – leider nur sehr vage. Anonymisierung wird kurz in Erwägungsgrund 26 erwähnt (ein Erwägungsgrund erläutert Überlegungen und Hintergründe zu einem Gesetz): 

„Bei der Feststellung, ob Mittel nach allgemeinem Ermessen wahrscheinlich zur Identifizierung der natürlichen Person genutzt werden, sollten alle objektiven Faktoren, wie die Kosten der Identifizierung und der dafür erforderliche Zeitaufwand, herangezogen werden, wobei die zum Zeitpunkt der Verarbeitung verfügbare Technologie und technologische Entwicklungen zu berücksichtigen sind. Die Grundsätze des Datenschutzes sollten daher nicht für anonyme Informationen gelten […].“ 

Ein EuGH-Urteil von 2016 gibt weitere Hinweise darauf, wann eine Anonymisierung als hinreichend zu beurteilen ist:  

„Ausreichend ist in der Regel, dass der Personenbezug derart aufgehoben wird, dass eine Re-Identifizierung praktisch nicht durchführbar ist, weil der Personenbezug nur mit einem unverhältnismäßigen Aufwand an Zeit, Kosten und Arbeitskraft wiederhergestellt werden kann.“ 

Was nun als unverhältnismäßiger Aufwand gilt, liegt im Auge des Betrachters. Hinzu kommt, dass … 

  • der Stand der Technik sich immer weiter verbessert;  
  • Rechenkapazitäten rasant zunehmen;  
  • und die digitalen Fußabdrücke der Menschen immer größer werden. 

Daher wird es tendenziell immer einfacher, natürliche Personen aus anonymisierten Datensätzen zu identifizieren.  

Fallbeispiel „Netflix Prize“ – wie ein Tech-Unternehmen die Anonymisierung überschätze 

Um seinen Algorithmus „Cinematch“ zu verbessern, der uns abendlich genau die Filme anzeigen soll, die wir gerade gucken wollen, schrieb Netflix 2006 einen Wettbewerb namens „Netflix Prize“ aus: eine Millionen Dollar für das Team, das anhand von 100 Millionen Filmbewertungen von fast 500.000 Kunden den besten Algorithmus für Filmvorschläge entwickeln konnte. Der Datensatz, den die Programmierteams zur Verfügung gestellt bekamen, war natürlich anonymisiert. Er enthielt lediglich Datenpunkte zu:  

  • Bewertung 
  • Datum der Bewertung 
  • Zufällig generiert IDs (nicht die Nutzer-ID) 
  • Titel des Filmes 
  • Erscheinungsjahr des Filmes 

Einem Team von Forschern der University of Texas at Austin gelang es anhand der öffentlich zugänglichen Amazon-Filmbewertungen auf IMDb von den über 438.000 anonymisierten Netflix-Nutzern mehr als 366.000 mit Namen zu identifizieren. 

Nun könnte man argumentieren, dass es sich bei Film-Bewertungen um Informationen handelt, deren Bekanntmachung niemanden interessiert. Aber würden Sie den gleichen Filmen einen „Like“ geben, wenn Sie wüssten, dass Ihre Chefin oder Ihr Vater Ihnen über die Schulter schaut?  

Primär zeigt der Fall einfach, dass anonymisierte Daten schon 2006 nicht vor schlauen Köpfen mit Computern sicher waren. 

Fazit: Pseudonymisierung und Anonymisierung sind Prozesse, keine Zustände 

Durch Pseudonymisierung und Anonymisierung können die Rechte und Freiheiten von Menschen geschützt werden. Denn Daten, die auf den ersten Blick keine Rückschlüsse auf natürliche Personen zulassen, sind zunächst einmal sicherer.  

Doch auch wenn ein Datensatz anonym wirkt, ist er es höchstwahrscheinlich nicht – zumindest nicht für immer. Mit den wachsenden technischen Möglichkeiten, Rechenkapazitäten und immer größeren digitalen Fußabdrücken, lassen Datensätze sich nur noch schwer anonymisieren. Daher ist es wichtig, hier immer auf dem neuesten Stand der Technik zu bleiben und neue Entwicklungen und Entscheidungen im Datenschutzrecht zu verfolgen – zum Beispiel ist offen, ob der Prozess zur Anonymisierung von Daten mit ins VVT aufgenommen werden muss, oder nicht.  

Bei weiteren Fragen zu diesem und anderen Themen im Datenschutz stehen Ihnen unsere Experten gerne zur Verfügung. Vereinbaren Sie einfach ein kostenloses Gespräch und wir melden uns bei Ihnen.

Kostenloses Erstgespräch vereinbaren

 

 

Zurück zum Seitenanfang

 

Jetzt noch mehr herausholen.

Wohin soll Ihre Reise heute noch gehen?

1. Wir unterstützen Sie, ihre Ziele erfolgreich umzusetzen

Sie sind sich unsicher, wie Sie Datenschutz und Informationssicherheit am besten umsetzen? Wir begleiten Sie gern auf dem Weg, die richtigen Entscheidungen in diesen Bereichen zu treffen. Doch der nächste Schritt liegt nun an Ihnen. Nutzen Sie gern unsere kostenfreien Inhalte, um sich weiter zu informieren, oder nehmen Sie einfach direkt Kontakt zu uns auf. Wir freuen uns auf Sie! 

Hier kostenloses Erstgespräch vereinbaren

3. Kontaktieren Sie uns

Bereits mehr als 1.500 Unternehmen vertrauen auf unseren Service. Zögern auch Sie nicht und treten Sie mit uns in Kontakt!

close