Beispiele für die Pseudonymisierung & Anonymisierung von Daten

Die Pseudonymisierung und Anonymisierung von Daten haben – abgesehen von ganzen zwölf Buchstaben – recht wenig gemeinsam. Bei beiden Ansätzen soll es Dritten erschwert werden, Personenbezüge aus einem Datensatz abzuleiten. Dadurch werden die Menschen hinter den Daten geschützt. Sowohl die Methoden als auch die Anwendungsfälle für die Pseudonymisierung bzw. Anonymisierung von Daten unterscheiden sich jedoch grundsätzlich.

Wir erklären Ihnen, wann sich welches Verfahren eignet, mit welchen Restrisiken zu rechnen ist und inwiefern Datenschutzanforderungen weiterhin anwendbar bleiben.

Das Wichtigste in Kürze:
 
  • Bei der Pseudonymisierung werden personenbezogene Daten (meist Namen) durch Codes oder Identifikationsnummern ersetzt. Der Personenbezug bleibt erhalten, weil die Pseudonyme in einer Liste den Klarnamen zugeordnet werden.
  • Es handelt sich bei pseudonymisierten Daten weiterhin um personenbezogene Daten, die in den Anwendungsbereich der DSGVO und des Datenschutzrechtes fallen.
  • Bei der Anonymisierung wird der Personenbezug entfernt. Dadurch gelten Datenschutzanforderungen nicht mehr.
  • Laut Datenschutzrecht gelten Daten dann als hinreichend anonymisiert, wenn die Identifizierung natürlicher Personen in einem Datensatz nur mit unverhältnismäßig hohem Aufwand möglich wäre.
  • Da sich der Stand der Technik und die Rechenkapazitäten stetig verbessern, wird es immer leichter, anonymisierte Daten auf natürliche Personen zurückzuführen.
  • Daher ist die Anonymisierung mit Vorsicht zu genießen und immer als laufender Prozess zu verstehen.

 

 

Abgrenzung von Pseudonymisierung und Anonymisierung

Der entscheidende Unterschied zwischen pseudonymisierten und anonymisierten Daten liegt in der Möglichkeit zur Wiederherstellung des Personenbezuges.

  Pseudonymisierung Anonymisierung
Personenbezug kann (nach dem aktuellen Stand der Technik mit normalem Aufwand) wiederhergestellt werden Ja Nein

Bei der Pseudonymisierung wird einem personenbezogenen Datum ein Pseudonym zugewiesen, zum Beispiel eine ID-Nummer oder ein Code. Welches Pseudonym zu welcher Person gehört, wird in einer Masterliste festgehalten – diese gilt als „Zusatzinformation“ und sollte durch geeignete technische und organisatorische Maßnahmen (TOM) geschützt werden. Denn wer Zugriff auf die Zusatzinformation hat, kann den Personenbezug wiederherstellen. Ohne die Zusatzinformation sind die Daten jedoch keiner Person zuzuordnen.

Bei der Anonymisierung fehlt die Zusatzinformation. Dadurch ist eine Rückverfolgung nicht mehr möglich und der Personenbezug nicht länger gegeben – so zumindest die Theorie. Wie schwierig es ist, Daten wirklich zu anonymisieren, beleuchten wir später.

Welche Rolle spielt Pseudonymisierung in der DSGVO?

Anders als die Anonymisierung wird die Pseudonymisierung in der DSGVO explizit erwähnt. Sie erscheint gleich an mehreren Stellen:

  1. Die Pseudonymisierung von personenbezogenen Daten gilt als technische Maßnahme zu deren Schutz (vgl. Art. 32 Abs. 1 DSGVO).
  2. Zudem entspricht die Pseudonymisierung dem Grundgedanken der Datenminimierung (definiert in Art. 5, Pseudonymisierung als Methode genannt in Art. 25 Abs. 1 DSGVO).

Definiert wird der Begriff der Pseudonymisierung in den Begriffserklärungen in Art. 4 Nr. 5 der DSGVO. Der genaue Wortlaut:

„Im Sinne dieser Verordnung bezeichnet der Ausdruck: […] „Pseudonymisierung“ die Verarbeitung personenbezogener Daten in einer Weise, dass die personenbezogenen Daten ohne Hinzuziehung zusätzlicher Informationen nicht mehr einer spezifischen betroffenen Person zugeordnet werden können, sofern diese zusätzlichen Informationen gesondert aufbewahrt werden und technischen und organisatorischen Maßnahmen unterliegen, die gewährleisten, dass die personenbezogenen Daten nicht einer identifizierten oder identifizierbaren natürlichen Person zugewiesen werden“

Pseudonymisierte Daten gelten weiterhin als personenbezogene Daten und fallen somit genauso in den Anwendungsbereich der DSGVO wie Klarnamen. Sie haben jedoch einen großen Vorteil:

Gehen pseudonymisierte Daten ohne Zusatzinformation verloren, zum Beispiel bei einer Datenpanne, so besteht i. d. R. ein geringes Risiko für die Rechte und Freiheiten der Betroffenen. Damit stehen die Chancen besser, dass eine Meldepflicht der Datenpanne entfällt.

 

Was ist ein praktisches Beispiel für die Pseudonymisierung von Daten?

Viele von uns haben mindestens einen Coronatest hinter uns. Und je nachdem, in welchem Labor und zu welchem Zeitpunkt dieser Test ausgewertet wurde, kann es sein, dass die Ergebnisse online in einer langen Tabelle unter Pseudonymen abrufbar waren. Beim Test wurden sequentielle Nummern vergeben. Um das eigene Testergebnis abzurufen, konnte diese Nummer in einer stündlich aktualisierten Liste gesucht werden.

Das sah in etwa so aus:

Test-Nummer Test-Ergebnis
1928362 negativ
1928363 negativ
1928364 negativ
1928365 negativ
1928366 negativ
1928367 negativ
1928368 negativ
1928369 negativ
1928370 negativ
1928371 positiv
1928372 negativ
1928373 negativ
1928374 negativ
1928375 negativ

Um positive Testergebnisse an das Gesundheitsamt übergeben zu können, musste ein Personenbezug möglich sein. Daher verfügte das Labor über eine Liste, in der die einzelnen Nummern den Namen, Adressen und Telefonnummern der getesteten Personen zugeordnet wurden. Die Liste dürfte ungefähr so ausgesehen haben:

Test-Nummer Name Vorname Adresse Personalausweisnummer
1928362 Mustermann Jonas Berliner Str. 6 X174VD7
1928363 Mustermann Michael Frankfurter Str. 7 BSJL566
1928364 Mustermann Jay Hamburger Str. 8 HAB9N53
1928365 Mustermann Linda Münchner Weg 12 HAB5N28
1928366 Mustermann Melinda Hannover Weg 23 HENE372
1928367 Mustermann Yaniv Landsberger Allee 4 BO375BL
1928368 Mustermann Sarah Lindenstraße 1 KWB3856

Während die erste Liste mit der Öffentlichkeit geteilt werden konnte, da der Personenbezug entfernt wurde, musste die zweite Liste natürlich durch strenge technische und organisatorische Maßnahmen geschützt werden.

Immer dann, wenn ein Personenbezug möglich bleiben muss, die Klarnamen aber geheim bleiben sollen oder keine Rolle spielen, ist die Pseudonymisierung der richtige Weg.

Was versteht man unter Anonymisierung?

Bei der Anonymisierung von Daten wird der Personenbezug komplett entfernt. Es gibt keine Zusatzinformation. Technisch wird das zum Beispiel durch Algorithmen umgesetzt, die Namen unter Verwendung eines Zufallsmechanismus in Codes verwandeln (Randomisierung). Ohne Personenbezug fallen anonymisierte Daten nicht mehr in den Anwendungsbereich der DSGVO.

Die folgende Tabelle gibt einen Überblick über die wichtigsten Gemeinsamkeiten und Unterschiede zwischen Pseudonymisierung und Anonymisierung:

  Pseudonymisierung Anonymisierung
Verfahren minimiert das Datenschutzrisiko, zum Beispiel bei einer Datenpanne Ja Ja
Die DSGVO ist nach Durchführung des Verfahrens weiterhin auf Datensätze anwendbar Ja Nein
Personenbezug kann (nach dem aktuellen Stand der Technik mit normalem Aufwand) wiederhergestellt werden Ja Nein
Daten dürfen auch nach einem Löschantrag weiter behalten werden, zum Beispiel für Auswertungen Nein (es sei denn, der Verantwortliche kann dem Antrag bestehende Aufbewahrungsfristen entgegenhalten) Ja
Daten können zu statistischen Auswertungen herangezogen werden Ja Ja
Eine Rückverfolgung des Personenbezuges ist absolut ausgeschlossen Nein Nein

 

Anwendungsbereiche für anonymisierte Daten

Möchte ein Unternehmen Daten in einer Art und Weise nutzen und verarbeiten, für die es keine Rechtsgrundlage (wie die Einwilligung einer betroffenen Person) gibt, so kann die Anonymisierung eine praktische Lösung darstellen. Sind Daten erst einmal anonymisiert, so fallen die Anforderungen des Datenschutzes weg (zum Beispiel eine Rechtsgrundlage zur Verarbeitung und Speicherung, technische und organisatorische Schutzmaßnahmen, eine Datenschutz-Folgeabschätzung, ein Löschkonzept, usw.).

Besonders beliebt sind anonymisierte Daten bei klinischen Studien oder generell bei der statistischen Auswertung. Will ein Software-Unternehmen das Nutzerverhalten seiner Kunden durch ein Forschungsinstitut bewerten lassen, so wäre ohne die Anonymisierung von Daten eine Einwilligung der Kunden

  1. für die Erhebung von Daten zum Nutzungsverhalten und
  2. für die Weitergabe dieser Daten an das Forschungsinstitut erforderlich.

Wurden die Daten jedoch anonymisiert, so fallen diese Anforderungen weg. Ungeklärt ist bis dato, ob der technische Vorgang zur Anonymisierung selbst unter die DSGVO fällt – es hierfür also einer Rechtsgrundlage bedarf und der Vorgang in das Verzeichnis von Verarbeitungstätigkeiten (VVT) aufgenommen werden muss. Zudem ist sehr fraglich – und hier wird es spannend – ob Daten jemals wirklich anonym sind. Lässt sich ein Rückschluss auf die natürlichen Personen hinter den Daten jemals komplett ausschließen?

Gibt es überhaupt wirklich anonymisierte Daten?

Bleiben wir bei dem Beispiel des Software-Unternehmens, das eine Studie zum Nutzerverhalten in Auftrag geben will. Der erhobene „anonymisierte“ Datensatz enthält zwar keine Klarnamen oder Adressen, wahrscheinlich aber Angaben zu den Spracheinstellungen eines Nutzers, dem Betriebssystem, der Zeitzone, dem Serverstandort, genutzten Applikationen und dazu, wieviel Zeit der Nutzer mit der Softwarenutzung verbringt.

Wer nun Zugriff auf eine Liste der Kunden des Unternehmens hat, kann wahrscheinlich alleine durch die noch vorhandenen Daten herausfinden, um welchen Nutzer es sich bei welchem Datensatz handelt. Sind genug Metadaten im anonymisierten Datensatz zu finden, so wird die Rückverfolgung immer einfacher. Je mehr der Metadaten anonymisiert (oder auch generalisiert) werden, desto weniger brauchbar wird allerdings auch der Datensatz.

Heise berichtet von den Forschungsergebissen des Imperial College London und der belgischen Université catholique de Louvain. Demnach reichen drei Angaben, um 81 % der US-Amerikaner in einem anonymisierten Datensatz zu identifizieren:

  • Postleitzahl
  • Geschlecht
  • Geburtsdatum

„[Die Forscher] haben ein Modell für maschinelles Lernen erstellt, das berechnet, wie einfach es ist, Personen anhand eines anonymisierten Datensatzes zu identifizieren. […] Im Durchschnitt kann man in den USA mit diesen drei Datensätzen in 81% der Fälle korrekt in einer sogenannten anonymisierten Datenbank gefunden werden. Angesichts von 15 demografischen Merkmalen einer in Massachusetts lebenden Person besteht eine 99,98-prozentige Wahrscheinlichkeit, dass man diese Person in einer beliebigen anonymisierten Datenbank findet.“

Veröffentlicht also eine private Krankenkasse Gesundheitsdaten in anonymisierter Form (zum Beispiel, um Zusammenhänge zwischen Vorerkrankungen und der Wirkung von Medikamenten festzustellen), reichen in der Regel nur drei Angaben, um eine natürliche Person im Datensatz zu identifizieren. Bürger aus den USA oder Großbritannien können hier den Test machen, wie leicht sie in einem Datensatz zu finden sind.

Daher herrscht unter vielen Datenschützern heutzutage der Konsens, dass echte Anonymisierung kaum noch möglich ist.

Wie aber äußert sich die DSGVO zu diesem Umstand? – leider nur sehr vage. Anonymisierung wird kurz in Erwägungsgrund 26 erwähnt (ein Erwägungsgrund erläutert Überlegungen und Hintergründe zu einem Gesetz):

„Bei der Feststellung, ob Mittel nach allgemeinem Ermessen wahrscheinlich zur Identifizierung der natürlichen Person genutzt werden, sollten alle objektiven Faktoren, wie die Kosten der Identifizierung und der dafür erforderliche Zeitaufwand, herangezogen werden, wobei die zum Zeitpunkt der Verarbeitung verfügbare Technologie und technologische Entwicklungen zu berücksichtigen sind. Die Grundsätze des Datenschutzes sollten daher nicht für anonyme Informationen gelten […].“

Ein EuGH-Urteil von 2016 gibt weitere Hinweise darauf, wann eine Anonymisierung als hinreichend zu beurteilen ist:

„Ausreichend ist in der Regel, dass der Personenbezug derart aufgehoben wird, dass eine Re-Identifizierung praktisch nicht durchführbar ist, weil der Personenbezug nur mit einem unverhältnismäßigen Aufwand an Zeit, Kosten und Arbeitskraft wiederhergestellt werden kann.“

Was nun als unverhältnismäßiger Aufwand gilt, liegt im Auge des Betrachters. Hinzu kommt, dass …

  • der Stand der Technik sich immer weiter verbessert;
  • Rechenkapazitäten rasant zunehmen;
  • und die digitalen Fußabdrücke der Menschen immer größer werden.

Daher wird es tendenziell immer einfacher, natürliche Personen aus anonymisierten Datensätzen zu identifizieren.

 

Fallbeispiel „Netflix Prize“ – wie ein Tech-Unternehmen die Anonymisierung überschätze

Um seinen Algorithmus „Cinematch“ zu verbessern, der uns abendlich genau die Filme anzeigen soll, die wir gerade gucken wollen, schrieb Netflix 2006 einen Wettbewerb namens „Netflix Prize“ aus: eine Millionen Dollar für das Team, das anhand von 100 Millionen Filmbewertungen von fast 500.000 Kunden den besten Algorithmus für Filmvorschläge entwickeln konnte. Der Datensatz, den die Programmierteams zur Verfügung gestellt bekamen, war natürlich anonymisiert. Er enthielt lediglich Datenpunkte zu:

  • Bewertung
  • Datum der Bewertung
  • Zufällig generiert IDs (nicht die Nutzer-ID)
  • Titel des Filmes
  • Erscheinungsjahr des Filmes

Einem Team von Forschern der University of Texas at Austin gelang es anhand der öffentlich zugänglichen Amazon-Filmbewertungen auf IMDb von den über 438.000 anonymisierten Netflix-Nutzern mehr als 366.000 mit Namen zu identifizieren.

Nun könnte man argumentieren, dass es sich bei Film-Bewertungen um Informationen handelt, deren Bekanntmachung niemanden interessiert. Aber würden Sie den gleichen Filmen einen „Like“ geben, wenn Sie wüssten, dass Ihre Chefin oder Ihr Vater Ihnen über die Schulter schaut?

Primär zeigt der Fall einfach, dass anonymisierte Daten schon 2006 nicht vor schlauen Köpfen mit Computern sicher waren.

Pseudonymisierung und Anonymisierung sind Prozesse, keine Zustände

Durch Pseudonymisierung und Anonymisierung können die Rechte und Freiheiten von Menschen geschützt werden. Denn Daten, die auf den ersten Blick keine Rückschlüsse auf natürliche Personen zulassen, sind zunächst einmal sicherer.

Doch auch wenn ein Datensatz anonym wirkt, ist er es höchstwahrscheinlich nicht – zumindest nicht für immer. Mit den wachsenden technischen Möglichkeiten, Rechenkapazitäten und immer größeren digitalen Fußabdrücken, lassen Datensätze sich nur noch schwer anonymisieren. Daher ist es wichtig, hier immer auf dem neuesten Stand der Technik zu bleiben und neue Entwicklungen und Entscheidungen im Datenschutzrecht zu verfolgen – zum Beispiel ist offen, ob der Prozess zur Anonymisierung von Daten mit ins VVT aufgenommen werden muss, oder nicht.

Wie stellen Sie eine datenschutzkonforme Verarbeitung sicher?

Die Compliance-Plattform von DataGuard kombiniert KI-gestützte Automatisierung und Expertenhilfe, um Unternehmen wie Ihres bei der Einhaltung der DSGVO optimal zu unterstützen. Beispielsweise lässt sich über die Plattform ein Datenschutz-Audit durchführen, welches mögliche Lücken in der Datenverarbeitung – etwa bei der Pseudonymisierung und Anonymisierung von Daten – aufdeckt und Ihnen Maßnahmen und Handlungsempfehlungen zur Verbesserung empfiehlt.

Hier ein kleiner Vorgeschmack:

 

Durch die zentrale Dokumentation der Datenverarbeitungsprozesse wird nicht nur eine einfache Überwachung, sondern auch eine eine übersichtliche Dokumentation aller Prozesse im Unternehmen gewährleistet. 

Mit dieser intelligenten und effizienten Lösung bietet DataGuard Ihnen ein umfassendes Komplettpaket für die datenschutzkonforme Verarbeitung von Daten – von Pseudonymisierung und Anonymisierung bis hin zur Optimierung weiterer Compliance-Workflows.

Sprechen Sie uns gerne für weitere Informationen zur Plattform an oder buchen Sie eine Plattform-Demo mit unseren Experten, um mehr über die Möglichkeiten unserer KI-gestützten Compliance-Plattform zu erfahren.

 

Über den Autor

Boris Otterbach Boris Otterbach
Boris Otterbach

Principal Privacy

Boris Otterbach ist Jurist und zertifizierter Datenschutzbeauftragter mit über fünf Jahren Erfahrung in diesem Bereich. Bereits während seines Studiums hat er sich vertieft mit den Bereichen Europarecht, Völkerrecht und Menschenrechtsschutz beschäftigt. Dabei war auch das Thema Datenschutz ein zentraler Aspekt. Die DSGVO hilft dabei, gemeinsam europäische Rahmenbedingungen zu schaffen, damit alle denselben Schutz erfahren – und diese Rahmenbedingungen müssen mit pragmatischen, alltagsfähigen Lösungen befüllt werden. Bei DataGuard arbeitet Boris an der Entwicklung pragmatischer Lösungen für DSGVO-Schutzmaßnahmen, damit Unternehmen DSGVO-konform werden können. Die tägliche Arbeit durch mehr Automatisierung effektiver zu gestalten, treibt ihn an, bei DataGuard jeden Tag neue Herausforderungen zu meistern und sicherzustellen, dass Unternehmen aus datenschutzrechtlicher Sicht geschützt sind und neueste Technologien optimal genutzt werden. Als Berater betreute er vor allem Kunden aus den Bereichen Personalwesen, Hotel und Gastgewerbe. In seiner Rolle als Principal Professional Services bei DataGuard unterstützt er die Datenschutz- , Informationssicherheit- und Compliance- Teams mit seinem umfassenden Know-how und seiner Erfahrung, um die Menschen hinter den Daten zu schützen.

Mehr Artikel ansehen

Sprechen Sie unser Sales-Team an

Erfahren Sie, wie DataGuard Ihnen helfen kann.

Finden Sie heraus, wie unsere Datenschutz-, Informationssicherheits- und Compliance-Lösung Vertrauen stärkt, Risiken minimiert und Umsatz steigert.

  • bis heute 100% Erfolgsquote bei ISO 27001 Audits
  • 40% Reduzierung bei Gesamtbetriebskosten (TCO)
  • Eine skalierbare und einfach zu verstehende Web-Plattform
  • Praktisch umsetzbare Handlungsempfehlungen unserer Experten

Vertrauen von mehr als Kunden

Canon  Logo Contact Holiday Inn  Logo Contact Unicef  Logo Contact Burger King  Logo Contact Veganz Logo Contact Fressnapf  Logo Contact Völkl Logo Contact Arri Logo Contact Free Now  Logo Contact

Lernen Sie DataGuard kennen

Fordern Sie noch heute Ihr Angebot an

Ihre Vorteile im Überblick

  • Benennung eines externen Datenschutzbeauftragten
  • Audit Ihrer Datenverarbeitungsvorgänge
  • Unterstützung rund um AV-Verträge, VVT, TOM, Schulung, u.v.m.
  • Personalisierte Betreuung durch Ihren Ansprechpartner 
  • Skalierbar für KMU und Konzerne
  • 100+ Experten aus den Bereichen Recht, Wirtschaft & IT

Vertrauen von mehr als Kunden

Canon  Logo Contact Holiday Inn  Logo Contact Unicef  Logo Contact Burger King  Logo Contact Veganz Logo Contact Fressnapf  Logo Contact Völkl Logo Contact Arri Logo Contact Free Now  Logo Contact

Lernen Sie DataGuard kennen

Vereinfachung Ihrer Compliance-Prozesse

Ihre Vorteile im Überblick

  • Kontinuierliche Unterstützung auf Ihrem Weg zur Zertifizierung nach ISO 27001 und TISAX®️, sowie NIS2 Compliance
  • Profitieren Sie von persönlicher Beratung
  • Bauen Sie ein strukturiertes ISMS mit unserer InfoSec-Plattform auf
  • Automatische Erstellung verpflichtender Dokumente
Certified-Icon

100% Erfolgsquote unserer Kunden bei Audits nach ISO 27001

TISAX® ist eine eingetragene Marke der ENX Association. DataGuard steht in keiner geschäftlichen Verbindung zu ENX. Wir bieten lediglich Beratung und Unterstützung zur Vorbereitung auf das Assessment nach TISAX® an. Die ENX Association übernimmt keine Verantwortung für die auf der DataGuard-Website dargestellten Inhalte.

Vertrauen von mehr als Kunden

Canon  Logo Contact Holiday Inn  Logo Contact Unicef  Logo Contact Burger King  Logo Contact Veganz Logo Contact Fressnapf  Logo Contact Völkl Logo Contact Arri Logo Contact Free Now  Logo Contact

Lernen Sie DataGuard kennen

Jetzt Angebot anfragen

  • Proaktive statt reaktive Unterstützung
  • Erstellung der wichtigsten Dokumente und Richtlinien
  • Umfassendes Compliance-Management
  • Mitarbeiterschulungen
  • Digitales Compliance-Management-System
  • Beratung durch erfahrene Branchenexperten

Vertrauen von mehr als Kunden

Canon  Logo Contact Holiday Inn  Logo Contact Unicef  Logo Contact Burger King  Logo Contact Veganz Logo Contact Fressnapf  Logo Contact Völkl Logo Contact Arri Logo Contact Free Now  Logo Contact

Lernen Sie DataGuard kennen

Jetzt Angebot anfragen

  • Einhalten der EU-Whistleblower-Richtlinie
  • Digitales Whistleblowing-System
  • Einfache und schnelle Implementierung
  • Zentrale Datenquelle
  • Sicher und gesetzeskonform
  • Klares und transparentes Reporting

Vertrauen von mehr als Kunden

Canon  Logo Contact Holiday Inn  Logo Contact Unicef  Logo Contact Burger King  Logo Contact Veganz Logo Contact Fressnapf  Logo Contact Völkl Logo Contact Arri Logo Contact Free Now  Logo Contact

Jetzt Termin vereinbaren