Data Privacy in der Praxis - Katharine Jarmul - E-Book

Data Privacy in der Praxis E-Book

Katharine Jarmul

0,0

Beschreibung

Bewährte Praktiken zur Verbesserung von Privacy für Daten aus technischer, organisatorischer und rechtlicher Sicht - Das Buch zeigt, wie Sie dafür sorgen, dass die Daten in Ihrem Projekt privat, anonymisiert und sicher sind - Auf den europäischen Markt zugeschnitten, behandelt die DSGVO eingehend - Umfasst auch Themen wie ChatGPT und Deep Fakes - Katharine Jarmul ist eine renommierte Privacy-Spezialistin. Sie arbeitet für Thoughtworks und ist Mitgründerin der PyLadies Die Anforderungen an den Datenschutz sind in Daten- und KI-Projekten heute so hoch wie nie. Die Integration von Privacy in Datensysteme ist jedoch nach wie vor komplex. Dieser Leitfaden vermittelt Data Scientists und Data Engineers ein grundlegendes Verständnis von modernen Datenschutzbausteinen wie Differential Privacy, Federated Learning und homomorpher Verschlüsselung. Privacy-Spezialistin Katharine Jarmul zeigt Best Practices und gibt praxiserprobte Ratschläge für den Einsatz bahnbrechender Technologien zur Verbesserung des Datenschutzes in Produktivsystemen. Das Buch beantwortet diese wichtigen Fragen: - Wie wirken sich Datenschutzbestimmungen wie die DSGVO oder der California Consumer Privacy Act (CCPA) auf meine Datenworkflows und Data-Science- Anwendungen aus? - Was ist unter »anonymisierten Daten« zu verstehen und wie lassen sich Daten anonymisieren? - Wie funktionieren Federated Learning und Federated Analysis? - Homomorphe Verschlüsselung klingt großartig – doch ist sie auch anwendungsreif? - Wie kann ich datenschutzwahrende Technologien und Verfahren miteinander vergleichen, um die für mich beste Wahl zu treffen? Welche Open-Source-Bibliotheken stehen hierfür zur Verfügung? - Wie stelle ich sicher, dass meine Data-Science-Projekte von vornherein geschützt und sicher sind? - Wie kann ich mit den für Governance und Informationssicherheit verantwortlichen Teams zusammenarbeiten, um interne Richtlinien in geeigneter Weise umzusetzen?

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern
Kindle™-E-Readern
(für ausgewählte Pakete)

Seitenzahl: 744

Veröffentlichungsjahr: 2024

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Stimmen zum Buch Data Privacy in der Praxis

Ein absolutes Standardwerk für alle Flughöhen, vom Data Scientist bis zur Verbraucherschützerin. Katharine Jarmul erklärt verständlich und umfassend die Theorie und stellt praxisnahe Beispiele und Lösungsansätze vor. Ein pointiertes, leidenschaftliches Plädoyer für ein im Alltag und in Unternehmen viel zu oft vernachlässigtes Thema: Data Privacy.

– Karma Lüdtke, IT Innovations bei Bundesdruckerei und Expert:in Cloud-Infrastrukturen

Katharine Jarmuls Data Privacy in der Praxis ist ein ausgezeichneter praktischer Leitfaden für die Integration des Datenschutzes in digitale Produkte. Ein Muss für alle, die digitale Produkte entwickeln.

– Alexander CS Hendorf, Gründer opotoc GmbH, Vorsitzender Python Softwareverband e.V.

Katharine Jarmul bietet mit diesem Buch eine hilfreiche und praxisnahe Handreichung für Data Scientists, Privacy Engineers und Softwareentwickler*innen, die sich mit den technischen, juristischen und ethischen Grundlagen von Datensicherheit und Security auseinandersetzen wollen. Die vielen Beispiele und hilfreichen Erklärungen ermöglichen es Entwickler*innen, ihr neu gewonnenes Wissen direkt in ihre Arbeit zu integrieren. Damit schafft die Autorin Zugang zu zukunftsweisenden Fähigkeiten, die immer weiter an Relevanz gewinnen werden – für diejenigen, die an den Systemen von morgen arbeiten. Ein wichtiger Beitrag für eine wünschenswerte und gerechte Digitalisierung, in der »Privacy by Design« der Standard ist.

– Fiona Krakenbürger, Co-Founder und Chief Technology Officer Sovereign Tech Fund

Es war noch nie so leicht, KI-Prototypen zu entwickeln, aber die Lösung von realen Problemen mit realen Daten ist nach wie vor eine große Herausforderung. Katharine Jarmul bietet in Data Privacy in der Praxis einen umfassenden und anschaulichen Überblick über Datensicherheit und Privatsphäre für KI und Machine Learning, mit technisch fundierten Beispielen und verschiedenen Lösungsansätzen aus der Praxis. Die vorgestellten und direkt anwendbaren Methoden ermöglichen es jedem, selbstbestimmt mit privaten Daten zu arbeiten und transparente und zukunftsfähige KI-Systeme zu entwickeln.

– Ines Montani, Gründerin und CEO von Explosion und Entwicklerin von spaCy

Data Privacy geht uns alle etwas an. Gerade in Zeiten, wo Generative AI und LLMs auch im Mainstream angekommen sind, sollten alle die Wichtigkeit von Privatsphäre und vom verantwortungsvollen Handeln mit persönlichen Daten erkannt haben. Katharine zeigt uns in diesem Buch nicht nur die Risiken und Konsequenzen von allem, was mit Data Privacy schief laufen kann, sondern auch, wie wir anhand von praxisorientierten Beispielen aus der Realität diesen Risiken vorbeugen können. Es ist nicht nur ein wichtiges Buch, das alle Data Professionals als Grundlektüre lesen sollten – es macht auch dank Katharines zugänglichem Schreibstil und Ihrer unbezweifelbaren Leidenschaft für dieses Thema unheimlich Spaß zu lesen!

– Tiankai FengData Strategy & Data Governance Lead, Thoughtworks Europe

Will man ein Softwareprodukt mit künstlicher Intelligenz bauen, so steht die Datenbeschaffung ganz am Anfang des Projektes, und bereits in dieser Projektphase liegt die vermeintlich größte Hürde. Daten sind aufgrund von Datenschutzbedenken schwer zu beschaffen. Dabei gibt es unzählige Möglichkeiten, KI-Software datenschutzkonform zu bauen. Die Kombination von klassischer Informationssicherheit mit dem aktuellen Stand der Wissenschaft ermöglicht sogar einen Privacy-by-Design-Ansatz. Katharine Jarmul stellt in ihrem Buch Data Privacy in der Praxis diesen Ansatz vor und gibt einen umfassenden Überblick über die Details der damit verbundenen Themen. Dies ermöglicht es, Datenschutz nicht als Hindernis, sondern als technologische Basis zu verstehen, die regulatorische Aspekte berücksichtigt und die Privatsphäre jedes Einzelnen respektiert. Das Buch deckt die verschiedenen Aspekte der Daten- und Informationssicherheit in Softwareprojekten ab und eignet sich daher hervorragend für alle Mitarbeiter:innen in Softwareprojekten: Entwickler:innen, Projektleiter:innen und auch Sicherheitsexpert:innen.

– Dr. Maria BörnerCompetence Center AI Lead bei Westernacher Solutions, Partnership Germany Lead bei Women in AI

Data Privacy in der Praxis bietet genau das, was der Titel verspricht – eine praxisorientierte Darstellung der verschiedenen Ansätze im Bereich des Datenschutzes, die auch den wirtschaftlichen Nutzen im Zusammenhang mit der Nutzung personenbezogener Daten ausreichend berücksichtigt.

– Rebecca Parsons, Chief Technology Officer bei Thoughtworks

Die Datenlandschaft wird mit jedem Jahr komplexer. Der Druck der Regulierungsbehörden in Bezug auf Datenschutz und Datensouveränität sowie Transparenz, Erklärbarkeit und Fairness von Algorithmen nimmt weltweit zu. Es ist schwieriger denn je, Daten intelligent zu verwalten. Aber die Werkzeuge zur Bewältigung dieser Herausforderungen sind besser denn je, und dieses Buch ist eines dieser Werkzeuge. Katharines praxisorientierte, pragmatische und umfassende Behandlung des Themas Data Privacy ist genau das richtige Buch, um die Herausforderungen der 2020er-Jahre und darüber hinaus zu meistern. Sie schafft es, ihre fachlich fundierten Ausführungen mit leicht verständlichen Übersichten über die neuesten technologischen Ansätze und Architekturen zu verbinden. Dieses Buch ist für jeden nützlich, vom CDO bis zum Data Analyst und jedem dazwischen

– Emily F. Gorcenski, Principal Data Scientist und Data & AI Service Line Lead bei Thoughtworks

Manche Data Scientists sehen Datenschutz als etwas an, das sie in ihrer Arbeit beeinträchtigt. Wenn Sie jedoch nicht zu dieser Gruppe gehören, wenn Sie glauben, dass Datenschutz sowohl in moralischer als auch in wirtschaftlicher Hinsicht erstrebenswert ist, wenn Sie die Stringenz und die Möglichkeiten des Privacy Engineering schätzen, wenn Sie sich über den aktuellen Stand der Technik auf diesem Gebiet informieren möchten, dann ist dieses Buch genau das richtige für Sie.

– Chris Ford, Head of Technology bei Thoughtworks Spanien

Copyright und Urheberrechte:

Die durch die dpunkt.verlag GmbH vertriebenen digitalen Inhalte sind urheberrechtlich geschützt. Der Nutzer verpflichtet sich, die Urheberrechte anzuerkennen und einzuhalten. Es werden keine Urheber-, Nutzungs- und sonstigen Schutzrechte an den Inhalten auf den Nutzer übertragen. Der Nutzer ist nur berechtigt, den abgerufenen Inhalt zu eigenen Zwecken zu nutzen. Er ist nicht berechtigt, den Inhalt im Internet, in Intranets, in Extranets oder sonst wie Dritten zur Verwertung zur Verfügung zu stellen. Eine öffentliche Wiedergabe oder sonstige Weiterveröffentlichung und eine gewerbliche Vervielfältigung der Inhalte wird ausdrücklich ausgeschlossen. Der Nutzer darf Urheberrechtsvermerke, Markenzeichen und andere Rechtsvorbehalte im abgerufenen Inhalt nicht entfernen.

Data Privacy in der Praxis

Datenschutz und Sicherheit inDaten- und KI-Projekten

Katharine Jarmul

Deutsche Übersetzung vonMarcus Fraaß

Katharine Jarmul

Lektorat: Alexandra Follenius

Übersetzung: Marcus Fraaß

Korrektorat: Sibylle Feldmann, www.richtiger-text.de

Satz: III-satz, www.drei-satz.de

Herstellung: Stefanie Weidner

Umschlaggestaltung: Karen Montgomery, Michael Oréal, www.oreal.de

Bibliografische Information der Deutschen Nationalbibliothek

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

ISBN:

Print     978-3-96009-233-9

PDF      978-3-96010-816-0

ePub     978-3-96010-817-7

1. Auflage 2024

Translation Copyright für die deutschsprachige Ausgabe © 2024 dpunkt.verlag GmbH

Wieblinger Weg 17

69123 Heidelberg

Authorized German translation of the English edition of Practical Data Privacy ISBN 9781098129460

© 2023 Kjamistan, Inc. This translation is published and sold by permission of O’Reilly Media, Inc., which owns or controls all rights to publish and sell the same.

Dieses Buch erscheint in Kooperation mit O’Reilly Media, Inc. unter dem Imprint »O’REILLY«.

O’REILLY ist ein Markenzeichen und eine eingetragene Marke von O’Reilly Media, Inc. und wird mit Einwilligung des Eigentümers verwendet.

Schreiben Sie uns:

Falls Sie Anregungen, Wünsche und Kommentare haben, lassen Sie es uns wissen: [email protected].

Die vorliegende Publikation ist urheberrechtlich geschützt. Alle Rechte vorbehalten. Die Verwendung der Texte und Abbildungen, auch auszugsweise, ist ohne die schriftliche Zustimmung des Verlags urheberrechtswidrig und daher strafbar. Dies gilt insbesondere für die Vervielfältigung, Übersetzung oder die Verwendung in elektronischen Systemen.

Es wird darauf hingewiesen, dass die im Buch verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken- oder patentrechtlichem Schutz unterliegen.

Alle Angaben und Programme in diesem Buch wurden mit größter Sorgfalt kontrolliert. Weder Autorin noch Übersetzer noch Verlag können jedoch für Schäden haftbar gemacht werden, die in Zusammenhang mit der Verwendung dieses Buchs stehen.

Inhalt

Vorwort

Einleitung

1Data Governance und einfache Datenschutzansätze

Data Governance: Was ist das?

Sensible Daten identifizieren

Persönlich identifizierende Informationen (PII) identifizieren

Datennutzung dokumentieren

Grundlagen der Datendokumentation

Unbekannte Daten aufspüren und dokumentieren

Data-Lineage-Tracking

Versionskontrolle für Daten

Grundlegender Datenschutz: Pseudonymisierung beim Privacy by Design

Zusammenfassung

2Anonymisierung

Was ist Anonymisierung?

Definition von Differential Privacy

Das Epsilon verstehen: Was ist der Privacy Loss?

Was Differential Privacy garantiert und was nicht

Differential Privacy verstehen

Differential Privacy in der Praxis: Anonymisierung der Zensusdaten in den USA

Differential Privacy auf Basis des Laplace-Mechanismus

Differential Privacy auf Basis des Laplace-Mechanismus: ein simpler Ansatz

Sensitivität und Fehler

Privacy Budgets und deren Aufteilung

Weitere Mechanismen erkunden: Differential Privacy mittels des gaußschen Rauschens

Laplace-verteiltes und gaußsches Rauschen im Vergleich

Differential Privacy in der Praxis: Debiasing von Differential-Privacy-Ergebnissen

Sensitivität und Privacy Units

Wie steht es mit k-Anonymity?

Zusammenfassung

3Datenschutz in Datenpipelines integrieren

Datenschutz in Datenpipelines integrieren

Geeignete Datenschutzmaßnahmen konzipieren

Die Nutzerinnen und Nutzer besser einschätzen können

Datenschutz in Datenpipelines integrieren

Testen und validieren

Datenschutz und Data Governance in Pipelines integrieren

Ein Beispiel für einen Workflow zur gemeinsamen Nutzung von Daten

Informationen zur Datenherkunft und Einwilligung im Rahmen der Datenerhebung zusätzlich erfassen

Differential-Privacy-Bibliotheken in Pipelines verwenden

Daten anonymisiert erheben

Datenerhebung unter Anwendung von Differential Privacy bei Apple

Warum bei Chrome der ursprüngliche Differential-Privacy-Ansatz im Rahmen der Datenerhebung eingestellt wurde

Zusammenarbeit mit dem Data-Engineering-Team und Führungskräften

Verantwortung teilen

Workflows zur Dokumentation von Datenschutzmaßnahmen und -empfehlungen erstellen

Datenschutz als zentrales Wertversprechen

Zusammenfassung

4Angriffe auf die Privatsphäre

Angriffe auf die Privatsphäre: eine Analyse gängiger Angriffsvektoren

Der Netflix-Prize-Angriff

Linkage Attacks

Singling Out Attacks

Der Strava-Heat-Map-Angriff

Membership Inference Attack

Auf sensible Merkmale zurückschließen

Andere Leakage Attacks auf Modelle: Memorierung

Data Exfiltration Attacks auf ChatGPT und andere LLMs

Model-Stealing Attacks

Informationen aus Prompts und zusätzlichen Dokumenten extrahieren

Angriffe auf Privacy-Mechanismen

Datensicherheit

Zugriffskontrolle

Schutz vor Datenverlust

Zusätzliche Sicherheitsvorkehrungen

Threat Modeling und Incident-Response-Pläne

Angriffe mithilfe von Eintrittswahrscheinlichkeiten bewerten

Ein »durchschnittlicher« Angreifer

Risiken bewerten und Bedrohungen einschätzen

Vorkehrungen für die Datensicherheit, die auch dem Schutz der Privatsphäre dienen können

Die Websicherheit-Basics anwenden

Trainingsdaten und Modelle schützen

Über neue Angriffe auf dem Laufenden bleiben

Zusammenfassung

5Machine Learning und Data Science datenschutzkonform gestalten

Privacy-preserving Machine Learning (PPML)

Techniken zur Wahrung der Privatsphäre in einem typischen Data-Science- bzw. ML-Workflow

Privacy-preserving Machine Learning in der Praxis

Stochastisches Gradientenabstiegsverfahren mit Differential Privacy (DP-SGD)

Open-Source-Bibliotheken für PPML

Differential Privacy bei LLMs und vergleichbaren generativen Systemen anwenden

Feature Engineering mit Differential Privacy

Einfachere Methoden anwenden

Machine Learning dokumentieren

Andere Wege, um die Privatsphäre beim Machine Learning zu schützen

Datenschutz in die Architektur für Daten- und Machine-Learning-Projekte integrieren

Ihre Datenschutzanforderungen verstehen

Monitoring des Datenschutzes

Zusammenfassung

6Federated Learning und Data Science

Verteilte Daten

Warum verteilte Daten nutzen?

Wie funktioniert die verteilte Datenanalyse?

Datenschutz bei verteilten Daten mittels Differential Privacy gewährleisten

Federated Learning

Die Entwicklung des Federated Learning im Überblick

Weshalb, wann und wie Sie Federated Learning einsetzen sollten

Federated-Learning-Systeme konzipieren

Mögliche Arten des Deployments

Potenzielle Sicherheitsrisiken

Anwendungsbereiche

Deployment mit Federated-Learning-Bibliotheken und -Tools

Open-Source-Bibliotheken für Federated Learning

Flower: eine Federated-Learning-Bibliothek für verschiedene Open-Source-Backends

Federated Data Science – ein Ausblick

Zusammenfassung

7Encrypted Computation

Was genau ist Encrypted Computation?

Wann Encrypted Computation verwendet werden sollte

Unterschied zwischen Datenschutz und Geheimhaltung

Threat Modeling

Verschiedene Arten der Encrypted Computation

Secure Multiparty Computation

Homomorphe Verschlüsselung

Reale Anwendungsfälle im Zusammenhang mit Encrypted Computation

Private Set Intersection

Private Join and Compute

Sichere Aggregierung (Secure Aggregation)

Encrypted Machine Learning

Die ersten Schritte mit PSI und Moose

Vision einer Welt mit sicherem Datenaustausch

Zusammenfassung

8Datenschutzrechtliche Aspekte

Die DSGVO im Überblick

Grundlegende Rechte nach DSGVO

Datenverantwortlicher und Datenverarbeiter – eine Abgrenzung

Technologien zur Verbesserung des Datenschutzes (PETs) im Hinblick auf die DSGVO einsetzen

Die Datenschutz-Folgenabschätzung der DSGVO: agile und iterative Risikobewertung

Recht auf Erläuterung: Nachvollziehbarkeit und Datenschutz

Der California Consumer Privacy Act (CCPA)

Technologien zur Verbesserung des Datenschutzes (PETs) im Hinblick auf den CCPA einsetzen

Weitere Vorschriften: HIPAA, LGPD, PIPL und andere

Datenschutzrechtliche Aspekte des AI Act

Data Governance Act

Data Act

Interne Richtlinien und Verträge

Datenschutzrichtlinien und Nutzungsbedingungen lesen

Auftragsverarbeitungsverträge lesen

Richtlinien, Leitfäden und Verträge lesen

Zusammenarbeit mit Rechtsexperten

Einhaltung von vertraglichen Vereinbarungen und Vertragsrecht

Datenschutzbestimmungen auslegen

Unterstützung und Rat einholen

Gemeinsam Definitionen und Ideen erarbeiten

Technische Beratung leisten

Data Governance 2.0

Was ist Federated Governance?

Eine Kultur des Experimentierens fördern

Den Schutz der Privatsphäre (PETs) verbessern mit funktionierender Dokumentation und Plattformen mit integrierten Technologien

Zusammenfassung

9Datenschutz und Anwendungen aus der Praxis

Datenschutz- und Sicherheitsrisiken in der Praxis managen

Datenschutzrisiken bewerten und managen

Mit Ungewissheit umgehen und gleichzeitig für die Zukunft planen

Der Einsatz von Datenschutztechnologien in der Praxis: eine Analyse konkreter Anwendungsfälle

Federated Marketing: Marketingkampagnen unter Berücksichtigung des Datenschutzes durchführen

Public-Private-Partnerships: gemeinsame Nutzung von Daten im öffentlichen Gesundheitsdienst

Machine Learning mit anonymisierten Daten: DSGVO-konforme Lösungen in einem iterativen Trainings-Setting

Business-to-Business-Anwendung: Zugriff auf Daten aus erster Hand

Schrittweise Integration und Automatisierung von Datenschutz im Rahmen von Machine Learning

Iterative Erkundung

Datenschutzanforderungen dokumentieren

Ansätze evaluieren und kombinieren

Prozesse zunehmend automatisieren

Datenschutz zur Normalität werden lassen

Den Weg in die Zukunft ebnen: mit Forschungsbibliotheken arbeiten und Forschungsgruppen einbeziehen

Mit externen Forscherinnen und Forschern zusammenarbeiten

In interne Forschung investieren

Zusammenfassung

10Häufig gestellte Fragen und ihre Antworten!

Encrypted Computation und Confidential Computing

Ist Secure Computation quantensicher?

Kann ich Enklaven verwenden, um Datenschutzprobleme oder Probleme im Zusammenhang mit der Geheimhaltung von Daten zu lösen?

Was, wenn ich die Daten des Clients bzw. Nutzers, der eine Datenbankanfrage bzw. -abfrage sendet, schützen muss?

Lösen Clean Rooms bzw. Remote Data Analysis/Access mein Datenschutzproblem?

Ich möchte für perfekte Privacy oder perfekte Geheimhaltung sorgen. Ist das möglich?

Wie stelle ich fest, ob Encrypted Computation sicher genug ist?

Wenn ich Encrypted Computation verwenden möchte, wie handhabe ich dann den Schlüsselaustausch?

Was ist die Privacy Sandbox von Google? Verwendet sie Encrypted Computation?

Data Governance und Privacy-Mechanismen

Warum reicht k-Anonymity nicht aus?

Ich denke, dass Differential Privacy nicht für meinen Anwendungsfall geeignet ist. Was kann ich stattdessen tun?

Kann ich mithilfe von synthetischen Daten Datenschutzprobleme lösen?

Wie können Daten auf verantwortungsvolle Weise weitergegeben werden, bzw. welche Alternativen gibt es zum Verkauf von Daten?

Wie kann ich alle privaten Informationen finden, die ich schützen muss?

Ich habe die persönlichen Identifikatoren entfernt, also sind die Daten jetzt geschützt, richtig?

Wie kann ich mit unzureichend geschützten Daten verfahren, die ich in der Vergangenheit veröffentlicht habe?

Ich arbeite an einem BI-Dashboard bzw. einer Visualisierung. Wie kann ich es datenschutzfreundlich gestalten?

Wer trifft die Entscheidungen bezüglich des Privacy Engineering? Wie kann ich Privacy Engineering in meinem Unternehmen einbinden?

Welche Fähigkeiten oder Vorkenntnisse benötige ich, um Privacy Engineer zu werden?

Warum haben Sie (Technologie oder Unternehmen hier einfügen) nicht erwähnt? Wo erhalte ich weitere Informationen? Hilfe!

DSGVO und Datenschutzvorschriften

Muss ich wirklich Differential Privacy verwenden, um Daten den Anforderungen der DSGVO/CPRA/LGPD usw. zu entziehen?

Ich habe gehört, dass ich personenbezogene Daten gemäß DSGVO aus berechtigtem Interesse verwenden kann. Ist das richtig?

Ich möchte Schrems II im Hinblick auf transatlantische Datenflüsse einhalten. Was sind mögliche Lösungen?

Persönliche Entscheidungen und soziale Aspekte von Privacy

Welche E-Mail-Provider, Browser und Anwendungen sollte ich verwenden, wenn mir meine Privatsphäre am Herzen liegt?

Mein Freund hat einen automatisierten Haushalts- bzw. Telefonassistenten. Ich möchte nicht, dass er mir zuhört. Was soll ich tun?

Ich habe mich schon lange damit abgefunden, keine Privatsphäre zu haben. Ich habe nichts zu verbergen. Warum sollte ich mich ändern?

Kann ich meine eigenen Daten einfach an Unternehmen verkaufen?

Ich mag personalisierte Werbung. Warum nicht auch Sie?

Hört (Füllen Sie die Lücke) gerade mit? Was kann ich dagegen tun?

Zusammenfassung

11Machen Sie sich ans Werk und entwickeln Sie Privacy-Lösungen!

Überwachungskapitalismus und Data Science

Gig-Worker und Überwachung am Arbeitsplatz

Überwachung aus Gründen der »Sicherheit«

Luxury Surveillance

Massenhafte Datensammlung und Auswirkungen auf die Gesellschaft

Machine Learning als Datenwäsche

Desinformation und Fehlinformation

Sich zur Wehr setzen

Nachforschen, dokumentieren, hacken und lernen

Daten kollektivieren

Die Aufsichtsbehörden schlagen zurück

Die Arbeit von Communitys unterstützen

Als Vorkämpfer für Privacy (»Privacy Champion«) vorangehen

Ihr Privacy-Multitool

Vertrauenswürdige Machine-Learning-Systeme aufbauen

Privacy by Design

Privacy und Macht

Tschüss

Index

Vorwort

Angesichts der zahlreichen Vorteile der digitalen Vernetzung ist es nicht immer offensichtlich, dass futuristische Technologien auch Nachteile mit sich bringen. Instant Messaging, biometrisches Scannen, Echtzeit-Bewegungserfassung, digitaler Zahlungsverkehr und vieles mehr waren schon immer der Stoff für Science-Fiction-Fantasien. Für diejenigen unter uns, die in der Technologiebranche arbeiten (oder diese als Konsumenten erleben), ist der »Coolness-Faktor« digitaler Tools in unserer täglichen Routine schwer zu leugnen.

Die Kehrseite des digital vernetzten Lebens ist das Recht, sich vom Netz zu trennen. Für einige Tech-Millionäre der ersten Generation ist es selbstverständlich, ihre Kinder zu Hause und in der Schule vom Internet fernzuhalten. Das mag seltsam klingen, wenn man daran gewöhnt ist, die digitale Kluft als eine Trennung zwischen Besitzern von mehreren Apple-Produkten und Habenichtsen ohne 24/7-Hochgeschwindigkeitsinternet zu sehen. Da so viele unserer täglichen Interaktionen digital geworden sind, ist es jedoch für die meisten von uns eine Herausforderung, ohne unbegrenzten Onlinezugang auszukommen.

Die Nutzung digitaler Werkzeuge und der Zugang zu Onlineräumen wird uns heute genauso angepriesen wie zu Beginn des Internets: als eine bequeme, einfache Erfahrung, die völlig freiwillig ist und Spaß macht. Aber nichts ist lustig an einer Interneterfahrung, die sich wie ein Aufenthalt im Hotel California anfühlt – »du kannst auschecken, wann immer du willst, aber du kannst niemals abreisen«. Nichts ist fair an einer Onlinewelt, die das Offlineleben in Bezug auf alles einschränkt, was man sehen und tun kann und wie man behandelt werden könnte. Die Vorstellung, dass wir uns in der Internetwelt lediglich für eine Reihe von zwanglosen Interaktionen entscheiden, ist nicht mehr wahr: Wenn überhaupt, sind wir oft gezwungen, uns auf einer Autobahn zu bewegen, die mit Daten über uns und andere vollgestopft ist.

Viele von uns gehen fälschlicherweise davon aus, dass unsere Daten für alle anderen uninteressant sind. Aber in diesem Fall sehen wir nicht das ganze Bild. Moderne Apps und Algorithmen horten unsere Daten, um zu verknüpfen, wo wir leben, was wir verdienen, mit wem wir ausgehen und ob wir psychische Probleme oder eine sexuell übertragbare Infektion gehabt haben. Das passiert, wenn wir nicht erkennen, dass die Vorhersagefunktion von Algorithmen in der Regel dazu verwendet wird, ein »Profil« von uns zu erstellen. Denn dafür werden Daten verwendet, die wir bereitwillig und unwissentlich zur Verfügung gestellt haben, wenn Anbieter uns Finanzprodukte, Versicherungsschutz, Arbeitsplätze, Wohnungen oder potenzielle Liebespartner verkaufen wollen (oder uns den Zugang dazu zu verwehren).

Digitale Konnektivität soll Spaß machen und sich nicht anfühlen, als würde man kriminell verfolgt. Aber genau dieses Gefühl war mein Einkaufserlebnis in der realen Welt, seit ich ein Kind in New York City war: Damals war es in der Regel alles andere als angenehm, als sichtbare Minderheit einkaufen zu gehen oder sich nach einem Taxi umzusehen. Ich kenne das Gefühl sehr gut, gescannt, überwacht und aus einer Gruppe herausgegriffen zu werden. Genau das zeigt ein Enthüllungsbericht nach dem anderen: Unsere privaten, persönlichen und dauerhaften Daten werden in »Profilen« zusammengefasst und an Datenhändler, Regierungen und Strafverfolgungsbehörden weitergegeben und zerstören somit unsere Privatsphäre. Genau wie bei verurteilten Kriminellen.

Der Schutz der Privatsphäre ist wie der Zugang zu einem Kredit oder einem guten Anwalt – etwas, das man besser hat und nicht braucht, als etwas, das man braucht und nicht hat. Es sollte nicht erst einer biometrischen Datenerfassung beim Einsteigen in ein Flugzeug bedürfen (wogegen ich kürzlich in San Francisco protestieren musste), um zu erkennen, dass unsere persönlichen Daten zu oft ohne unsere Einwilligung oder unser Wissen erhoben werden. Es sollte nicht nötig sein, dass eine Person, die einer ethnischen Minderheit angehört, einen datengesteuerten Gesundheits- oder Finanzalgorithmus als diskriminierend einstuft. Diejenigen von uns, die in der Technologiebranche tätig sind, sollten keine Gerichtsverfahren, Geldstrafen für Unternehmen oder staatliche Regulierung benötigen, um zu erkennen, dass Systeme, die unsere Daten fast zwangsweise abgreifen, uns weder Privatsphäre noch Wahlmöglichkeiten lassen. Und was ist mit denen, die ihre Privatsphäre bewahren wollen, indem sie offline bleiben? Ähnlich wie die Kreditwürdigkeit oder der Zugang zu einem guten Anwalt ist die Wahrung der Privatsphäre zum neuen Privileg der Wohlhabenden geworden.

Diese Kluft ist vielleicht das eklatanteste Problem unseres digital vernetzten Lebens. Wenn wir jemals zu einer digitalen Welt zurückkehren wollen, in die wir uns freiwillig begeben können, müssen wir den Raum begrenzen, in dem digitale Systeme ihre Fühler nach uns ausstrecken. Wenn wir den Menschen das Recht zurückgeben wollen, anonym zu surfen oder sich online zu melden, müssen wir die Mechanismen der Datenerfassung einschränken, die derzeit die meisten digitalen Systeme steuern. Mit Data Privacy in der Praxis bietet Frau Jarmul erprobte Techniken für den Aufbau einer Onlinewelt, die sich von der heutigen unterscheidet. Ihre Beispiele aus dem wirklichen Leben beweisen, dass man kein Privacy Engineer sein muss, um den Datenschutz sinnvoll zu gestalten.

Ich hoffe, dass alle, die sich über algorithmische Diskriminierung und »ethische Technologie« Sorgen machen, dieses Buch lesen werden. Darüber hinaus möchte ich jeden, der digitale Systeme entwirft, entwickelt oder testet, ermutigen, für sich selbst zu entscheiden, ob Datenschutz die Komponente darstellt, die unsere derzeitigen Onlineerfahrungen von denen unterscheidet, die wir wollen und brauchen.

– Dr. Nakeema Damali Stefflbauer CEO, FrauenLoop and Global AI Ethics lecturer, Stanford University

Einleitung

Willkommen in der wunderbaren Welt des Datenschutzes! Möglicherweise haben Sie sich bereits eine Meinung zum Datenschutz (engl. Data Privacy) gebildet – dass er eine lästige Angelegenheit ist, dass er bürokratisch und deshalb langweilig ist, oder Sie sind vielleicht der Meinung, dass es ein Thema ist, für das lediglich Juristinnen und Juristen Interesse aufbringen können. In diesem Buch werden Sie herausfinden, wie technisch komplex und interessant die Herausforderungen des Datenschutzes sind – und auch in Zukunft sein werden. Sollte Ihre Begeisterung für knifflige mathematische und statistische Fragestellungen zu Ihrer Entscheidung geführt haben, sich mit Data Science zu befassen, dann werden Sie mit Sicherheit auch Gefallen daran finden, Datenschutz aus der Perspektive der Data Science zu erforschen. Die in diesem Buch vermittelten Inhalte werden Ihre Kenntnisse in den Bereichen Wahrscheinlichkeitstheorie, Modellierung und sogar Kryptografie erweitern.

Für Data-Science-Fachleute wird es zunehmend wichtiger, zu lernen, wie auch Datenschutzprobleme gelöst werden können. Nachdem Sie das Buch gelesen haben, werden Sie in der Lage sein, reale Probleme in Bereichen wie Cybersicherheit, Gesundheitswesen und Finanzwirtschaft zu lösen und Ihre Karriere innerhalb eines Irrgartens aus Datenschutzbestimmungen, -richtlinien und -rahmen voranzutreiben. Seit Inkrafttreten der Europäischen Datenschutz-Grundverordnung (DSGVO oder DS-GVO, engl. General Data Protection Regulation – GDPR) im Jahr 2018 ist die weltweite Datenschutzlandschaft noch komplexer geworden. Diese Komplexität wird weiter zunehmen, da Aufsichtsbehörden und Gesetzgeber fortwährend die Regeln dahin gehend ändern, wie, wo, warum und wann Sie Daten speichern dürfen. Wenn Sie jetzt Ihre Kompetenzen rund um den Bereich Datenschutz und Datensicherheit erweitern, ist das zweifelsohne eine sinnvolle Investition in Ihre berufliche Zukunft.

Darüber hinaus leisten Sie, wenn Sie Zeit darin investieren, neue Kenntnisse über den Datenschutz zu erlangen, einen Beitrag im Bereich der Data Science und fördern Vertrauen, Verantwortlichkeit, gegenseitiges Verständnis und soziale Verantwortung. Maschinelles Lernen (Machine Learning) zur Lösung von Problemen in der realen Welt stößt gegenwärtig dort auf Angst und Widerstände, wo Daten, Modelle und Systeme in nicht vertrauenswürdiger Weise genutzt wurden und sich Fragen nach Gerechtigkeit und Fairness stellen. Ein Beispiel: Clearview AI sammelt Bilder von Gesichtern aus sozialen Netzwerken und verkauft das auf dieser Grundlage entwickelte Gesichtserkennungsmodell an Strafverfolgungsbehörden (https://oreil.ly/PE6u1)1, was Fragen hinsichtlich des Eigentums an den Daten, dem Schutz der Privatsphäre und der Haftung aufwirft. Um diesem Reputationsverlust entgegenzuwirken und Wege für eine verantwortungsbewusste und vertrauenswürdige Datennutzung zu schaffen, bedarf es in der Branche Data Scientists und Machine Learning Engineers, die die vorliegenden Aufgaben und die damit verbundenen Risiken verstehen und bei der Entwicklung von Systemen diese Fragen kompetent berücksichtigen können. Der Datenschutz kann Ihnen dabei helfen, gerechtere, ethisch besser zu vertretende und verantwortungsvollere Systeme zu entwickeln, bei denen die Benutzerinnen und Benutzer die Macht und die Möglichkeit haben, sich einzubringen, und im Mittelpunkt Ihrer Ausgestaltung stehen. Mithilfe dieses Buchs können Sie diese Herausforderungen meistern und dank praxisnaher Anleitungen neue Wege finden.

Ich hoffe, dass dieses Buch einen Beitrag zur neuen Data Science leisten kann, indem es das Bewusstsein dafür schärft, wie der Schutz sensibler Daten in geeigneter Weise umgesetzt werden kann. Weltweit sind die Ängste vor der Digitalisierung persönlicher Daten – selbst für den verantwortungsvollen Einsatz durch die Regierung – so groß, dass sie die Nutzung von Daten zur Unterstützung bei sozialen Problemen wie dem Klimawandel, der Finanzaufsicht und globalen Gesundheitskrisen behindern. Wenn wir den Datenschutz in die Data Science integrieren, eröffnen sich neue Wege für die Nutzung von Daten bei wichtigen Entscheidungen für unsere Gesellschaft und unsere Welt.

Was ist Data Privacy?

Vereinfacht gesagt, schützt Privacy Daten und Menschen, indem es durch Beschränkungen hinsichtlich des Zugriffs, der Nutzung, der Verarbeitung und der Speicherung einen besseren Schutz der Privatsphäre ermöglicht und garantiert. In der Regel handelt es sich dabei um personenbezogene Daten, es umfasst aber jegliche Art der Verarbeitung. Diese Definition greift allerdings zu kurz, um Data Privacy in seiner ganzen Breite zu begreifen.

Privacy ist ein komplexes Konzept – mit Aspekten aus vielen verschiedenen Bereichen unserer Welt, sei es in rechtlicher, technischer, sozialer, kultureller oder individueller Hinsicht. Werfen wir zunächst einen Blick auf diese Aspekte und ihre Überschneidungen, damit Sie eine Vorstellung davon bekommen, wie weitreichend die Auswirkungen der in diesem Buch behandelten Themen und Vorgehensweisen sind. In Abbildung E-1 sehen Sie die verschiedenen Arten der Definitionen von Privacy (bzw. des Datenschutzes oder der Wahrung der Privatsphäre)2, und ich habe versucht, das jeweilige Ausmaß in der Abbildung zu illustrieren. Gehen wir sie durch und beginnen wir mit den rechtlichen Definitionen.

Im juristischen Kontext umfasst Privacy die Vorschriften, die Rechtsprechung und die Richtlinien, die festlegen, welche Maßnahmen erforderlich sind und was in einem bestimmten Staat oder einer bestimmten Gerichtsbarkeit unter Privacy zu verstehen ist. Wie Sie in den Kapiteln 1 und 8 erfahren werden, handelt es sich dabei um ein sich ständig wandelndes Rechtsverständnis und eine Landschaft, die sich in den letzten Jahren drastisch verändert hat. Es ist wichtig, dass Sie sich mit den rechtlichen Aspekten von Privacy vertraut machen, da sie sich direkt auf Ihre Arbeit auswirken können. Was passiert zum Beispiel, wenn Ihr Unternehmen von einem Audit, einer Datenschutzverletzung oder einer Verbraucherbeschwerde betroffen ist? Diese gesetzlichen Definitionen wirken sich auch auf Ihr persönliches Leben aus, beispielsweise bei der Frage, welche Rechte Sie als Datenbürger haben.

Abbildung E-1: Definitionen von Privacy

Die wissenschaftlichen bzw. technischen Definitionen von Privacy und deren Umsetzung in Ihrer täglichen Arbeit stehen im Mittelpunkt dieses Buchs. Sie lernen diese Definitionen kennen und erfahren, wie Sie wissenschaftliche Technologien zum Schutz der Privatsphäre in großem Umfang einsetzen und wie Sie technische Entscheidungen zum Thema Privacy treffen können. Mit den Tools in diesem Buch lernen Sie modernste Best Practices kennen, die in Ihrem Unternehmen möglicherweise noch nicht bekannt sind, da sie erst seit Kurzem in Produktionssystemen zur Verfügung stehen. Über diese Praktiken auf dem Laufenden zu bleiben, wird Teil Ihres Jobs sein – jedenfalls sofern Sie sich dazu entscheiden, sich auf diesen Bereich zu konzentrieren. Als technischer Experte für dieses Thema werden Sie gebeten werden, geschäftliche und juristische Entscheidungen zum Datenschutz zu unterstützen und diese in funktionsfähige Software und Systeme umzusetzen. Dies ist eine wichtige Aufgabe, denn viele der anderen Beteiligten werden kein technisches und zeitgemäßes Verständnis von Data Privacy haben.

Die sozialen und kulturellen Aspekte von Privacy lassen sich am besten anhand einer Studie zu Data Privacy von danah boyd (http://www.danah.org) erklären. Sie untersuchte jugendliche Mädchen und ihre Interaktion mit sozialen Medien, um zu verstehen, wie die Technologie ihr Verständnis von Konzepten wie Privacy beeinflusst. Ihre Definition lautet wie folgt:

Bei Privacy geht es weder um die Kontrolle über Daten, noch ist sie eine der Eigenschaften von Daten. Es geht um ein kollektives Verständnis der Grenzen einer gesellschaftlichen Situation und um das Wissen, wie man innerhalb dieser Grenzen agiert. Mit anderen Worten, es geht darum, die Kontrolle über eine Situation zu besitzen. Es geht darum, das jeweilige Gegenüber zu verstehen und zu wissen, wie weit Informationen verbreitet werden. Es geht darum, den Menschen, der Situation und dem Kontext zu vertrauen.

– danah boyd, in »Privacy and Publicity in the Context of Big Data« (https://oreil.ly/ThnPz)

boyd weist uns mit dieser Definition auf einen neuen Aspekt von Privacy hin, der wesentliche Veränderungen bei der Gestaltung von Privacy in Systemen mit sich bringt. Im Gegensatz zu technischen und rechtlichen Definitionen stellt boyd das soziale und kulturelle Verständnis, den Kontext und die individuelle Wahl und das Bewusstsein in den Mittelpunkt. Wenn Sie ihre Arbeit lesen oder sie sprechen hören, erfahren Sie Wahrheiten, die Sie zwar oft gefühlt, aber nie vollständig erfasst haben, und zwar darüber, wie wir als Menschen und als Gesellschaft Privatsphäre und Informationen verstehen.

Wenn ich zum Beispiel meine Stimme senke und flüstere, um Ihnen etwas mitzuteilen, verstehen Sie, dass diese Information nicht für die Öffentlichkeit bestimmt ist. Wenn ich es auf einem öffentlichen Platz herausschreie und die Leute auffordere, zuzuhören, verstehen Sie, dass ich möchte, dass so viele Menschen wie möglich es hören. Wie eine Person entscheidet, mit wem sie kommuniziert, und wie sie kommuniziert, wird stark davon beeinflusst, wie diese Person den Begriff »Privacy« definiert und betrachtet (siehe Abbildung E-1). Die Fähigkeit, die eigene Kommunikation mit anderen auszuprobieren und zu verändern, hat sich im Laufe der Zeit erheblich verändert. Technologie und das Internet erlauben allen, ihre Kommunikation und die aus ihr resultierenden Möglichkeiten im Hinblick auf Privacy auf Kontexte auszudehnen, die nicht in der physischen Welt verhaftet sind. Dadurch ergeben sich neue Möglichkeiten, Kontakte zu knüpfen, sich mit anderen auszutauschen und Informationen zu teilen – und das ist wunderbar!

Diese Verlagerung von der physischen in die Onlinewelt hat jedoch auch dazu geführt, dass wir nicht mehr wissen, in welchem Kontext wir uns bewegen. Wie lauten die Regeln für diesen Raum? Wer kann mich sehen und hören? Spreche ich mit Ihnen oder mit einer Gruppe, und wie groß ist diese Gruppe? Helen Nissenbaums Forschung zur kontextuellen Integrität (https://oreil.ly/SZ0iF) zeigt, dass die technische Entwicklung die Wahrnehmbarkeit und Transparenz dieser Grenzen verändert hat – nicht nur über die Benutzeroberflächen, sondern auch in der grundlegenden Art und Weise, wie Systeme und Software entwickelt werden. Entscheidungen über die Standardeinstellungen von Anwendungen wirken sich auf die Privatsphäre von potenziell Millionen von Menschen gleichzeitig aus. Entscheidungen über Sicherheit und Verschlüsselung machen private Gespräche offen für Strafverfolgung und staatliche Überwachung. Data Warehouses können aus sensiblen Informationen, die nur für eine Person bestimmt sind, Zugriffsmöglichkeiten für Mitarbeitende und Datendienste Dritter schaffen. Wenn der Kontext verloren geht oder kaschiert wird und das Systemdesign die sozialen und kulturellen Definitionen von Privacy nicht berücksichtigt, hat die Technologie den menschlichen Aspekt von Privacy im Wesentlichen ignoriert.

Dieses Buch zeigt Ihnen Möglichkeiten auf, wie Sie diese gesellschaftlichen Erkenntnisse in Systemen in der Praxis umsetzen können. Sie werden viele schwierige Entscheidungen treffen müssen – aber den Nutzenden Möglichkeiten geben, sich in digitalen Räumen in Bezug auf ihre Privatsphäre zurechtzufinden; und sichere Standardeinstellungen sind Geschenke von unschätzbarem Wert, von denen die Welt mehr braucht. Während Sie dieses Buch lesen und mehr über die technischen Aspekte von Privacy erfahren, sollten Sie die soziale und die rechtliche Definition im Hinterkopf behalten – sie sind und werden für immer miteinander verwoben sein.

An wen richtet sich dieses Buch?

Dieses Buch richtet sich an Data Scientists, die sich gezielt im Bereich Data Privacy und Sicherheit weiterbilden möchten. Sie könnten dafür viele Gründe haben, wie etwa:

Sie möchten eine Spezialisierung in Richtung »Data Privacy« verfolgen, für die Sie sich interessieren und die in der Branche eine langfristige Perspektive hat.

Sie möchten in einen stärker regulierten Sektor wie die Finanz- oder Gesundheitsbranche wechseln, und mit diesen Kompetenzen sind Sie dort ein vielversprechender Kandidat.

Sie arbeiten mit Forschungsdaten und würden gern eine raschere Genehmigung von Ethikkommissionen und Veröffentlichungen erhalten.

Sie sind Freiberufler oder Berater im Bereich Data Science und möchten Ihren Kundenstamm erweitern, indem Sie kompetent mit sensiblen Daten umgehen können.

Sie leiten ein Datenteam und möchten in der Lage sein, Produkte und Lösungen unter Berücksichtigung des Datenschutzes zu konzipieren und zu entwickeln.

Sie möchten KI für Gutes (»AI for good«) einsetzen und halten den Schutz der Privatsphäre für ein wichtiges Menschenrecht.

Ihrem Team wurde gesagt, dass Datenschutz wichtig sei, aber Sie sind sich nicht sicher, was das eigentlich bedeutet oder wie Sie es umsetzen können.

Sie arbeiten mit sensiblen Daten und möchten sicherstellen, dass Sie sich an die Best Practices halten.

Sie möchten ein Privacy Engineer werden und sich auf die Integration des Datenschutzes in Datenprodukte konzentrieren.

Datenschutz und Sicherheit sind spannende Themen, und es macht Ihnen einfach Spaß, mehr darüber zu erfahren.

Ich könnte noch etliche weitere Beispiele anführen, und ich habe schon viele Menschen mit diesen unterschiedlichen Hintergründen getroffen. Eines kann ich Ihnen mit Sicherheit sagen: Die Nachfrage nach diesen Fähigkeiten steigt rapide an, und zwar nicht nur aufgrund neuer Vorschriften. Die Unternehmen investieren in diese Fähigkeiten, damit sie das Datenmanagement in eine sichere Zukunft führen können. Durch Investitionen in den Datenschutz können Unternehmen nicht nur teure Pannen vermeiden, sondern auch eine vertrauenswürdige Marke und Unternehmenskultur in Bezug auf das Datenmanagement schaffen, was sich positiv auf die Personalbeschaffung, das Marketing und die Haftung auswirkt.

Wenn Sie mit Python, Jupyter Notebooks, Mathematik und Statistik vertraut sind, werden Sie alle Abschnitte gut verstehen können. Sie können diesen tiefergehenden theoretischen und implementierungsorientierten Abschnitten folgen, aber bei der Lektüre auch weglassen, solange Sie die grundlegenden Konzepte verstehen.

Machen Sie sich keine Sorgen, wenn Sie sich schon länger nicht mehr mit Mathematik beschäftigt haben. Zu jedem der Beispiele habe ich Ihnen eine Erklärung mitgeliefert. Es wird Ihnen helfen, sich beim Durchlesen Zeit zu lassen.

Beim Schreiben dieses Buchs habe ich Feedback von Softwareentwicklerinnen und -entwicklern, Sicherheitsspezialisten und sogar Datenschutzanwälten erhalten, denen dieses Buch nützlich erschien. Obwohl diese Leute nicht meine Zielgruppe sind, hoffe ich, dass dieses Buch jedem helfen kann, der sich für Privacy und Technologie sowie deren Überschneidung in Datensystemen interessiert.

Beim Lesen dieses Buchs und beim Durcharbeiten der Übungen werden Sie sehen, wie Aspekte der Data Privacy die Wunder der Data Science hervorheben, die Sie bereits kennen und lieben. Wie in anderen herausfordernden Bereichen der Data Science führt Sie dieses Buch von einfachen Methoden für die Lösung im Bereich Privacy zu schwierigeren Methoden, von denen einige noch nicht vollständig gelöst sind. Genau wie bei der linearen Regression, die »einfach funktioniert«, möchten Sie mit einfachen und offensichtlichen Lösungen beginnen. Aber wenn die Lösung, die Sie benötigen, über die einfache Lösung hinausgeht, müssen Sie detailliertere Fragen stellen, die technische und ethische Implikationen haben. Diese Fragen zu finden und sie und ihre Antworten zu erforschen, wird Sie zu einem besseren Data Scientist und Technologen oder einer besseren Statistikerin und Mathematikerin machen.

Vielleicht ist dieses Buch alles, was Sie benötigen, um ein Technologe zu werden, der über ein paar zusätzliche Kenntnisse im Bereich Data Privacy verfügt. Das ist okay! Vielleicht ist dieses Buch aber auch das erste von mehreren Büchern, das Sie weiter in dieses Gebiet führt. Sollte das für Sie verlockend klingen, möchte ich Sie nun mit dem Konzept des Privacy Engineering vertraut machen.

Privacy Engineering

Ich gehe davon aus, dass der Bereich Privacy Engineering (https://oreil.ly/XENvQ) in den nächsten zehn Jahren weiter an Bedeutung gewinnen wird.3 Die Fähigkeiten, die Sie in diesem Buch erwerben, indem Sie die Übungen durcharbeiten und das neu erlangte Wissen auf Ihre Arbeit anwenden, werden Sie auf diese Rolle vorbereiten.

In Unternehmen, in denen Data Science ein wichtiger Bestandteil ist, ist ein Privacy Engineer zum Teil Data Scientist und zum Teil Engineer. Das bedeutet, dass Sie im Gegensatz zu anderen Rollen in der Data Science aktiv an der Entwicklung und Architektur von Lösungen arbeiten, anstatt Daten zu untersuchen oder eine Idee in einer experimentellen Umgebung zu testen. Das könnte bedeuten, dass Sie direkt mit den Data-Engineering-Teams, den Software- bzw. Anwendungsteams oder sogar den Systemarchitektinnen Ihres Unternehmens zusammenarbeiten, um sicherzustellen, dass Data Privacy sowohl in den Produkten als auch in den internen Anwendungen berücksichtigt wird. Dies gilt für alle Datenströme von Verbrauchern und Mitarbeitenden, für Software, die für das Datenmanagement verwendet wird, sowie für interne und externe Datenverwendungszwecke. Im Rahmen dieser Arbeit müssen Sie die Grundlagen der Technik und der Architektur verstehen, insbesondere was die Entwicklung von Systemen und die Integration von Systemen untereinander betrifft. Zu diesen Themen gibt es einige verwandte Bücher, mit denen Sie sich befassen können:

Software Architecture in Practice

, 4th Edition (

https://oreil.ly/5M2Zt

)

Handbuch moderner Softwarearchitektur

(

https://dpunkt.de/produkt/handbuch-moderner-softwarearchitektur/

)

Entwurfsmuster von Kopf bis Fuß

(

https://dpunkt.de/produkt/entwurfsmuster-von-kopf-bis-fuss-2/

)

Datenintensive Anwendungen designen

(

https://dpunkt.de/produkt/datenintensive-anwendungen-designen/

)

Practical MLOps

(

https://oreil.ly/tXioO

)

Um bestmöglich zu bestimmen, welche Tools und welche Software für ein Unternehmen geeignet sind, ist eine ausgeklügelte Architektur erforderlich. Die einfache Implementierung von Datenschutzrichtlinien durch Plug-and-play-Anbieter greift daher oft zu kurz, um diese Probleme zu lösen. Abgesehen davon bedeutet die wachsende Zahl von Anbietern von Datenschutztechnologien, dass Sie zum Entscheidungsträger werden, wenn es darum geht, Technologien zu entwickeln oder zu kaufen und für das Datenschutzmanagement einzusetzen. Dabei werden Sie die in diesem Buch gelernten Konzepte anwenden, um Bewertungskriterien aufzustellen, Fragen zur Implementierung zu stellen und die Flexibilität, den Support und die Produktmerkmale zu analysieren. In dieser Rolle werden Sie feststellen, wie gut potenzielle Anbieter die Anforderungen Ihres Unternehmens erfüllen können, da die Abhängigkeit von privaten, sensiblen und vertraulichen Daten wächst.

Ein Privacy Engineer ist nicht einfach nur ein weiterer Data Scientist oder Data Architect, der sich um die Einhaltung des Datenschutzes sorgt, letztlich aber keine Befugnis, keine Zeit und kein Budget zur Verfügung hat, Entscheidungen bezüglich Data Privacy treffen zu können. Es ist zwar erfreulich, dass das Engagement (engl. Advocacy) Teil der Rolle des Data Scientist geworden ist, aber beim Privacy Engineering geht es darum, Privacy-Techniken zu entwickeln und diese anzuwenden, wenn Daten eingespeist (engl. ingest), gesammelt, transformiert, gespeichert und schließlich in Data-Science-Anwendungen eingesetzt werden. Das Eintreten für Privacy mag vielleicht hilfreich sein, aber erst die Umsetzung erbringt den Beweis, dass diese Technologien funktionieren.

Ein Privacy Engineer ist auch nicht nur ein Data Engineer, der sich mit Privacy beschäftigt. Privacy Engineers können zwar mit Data Engineers zusammenarbeiten – und werden oft für ein Projekt oder ein Proof of Concept in ein Team eingegliedert –, aber sie müssen mit verschiedenen Teilen des Unternehmens zusammenarbeiten und werden in viele Projekte einbezogen, bei denen ihr Fachwissen gefragt ist. Als Spezialistinnen und Spezialisten sind sie nicht allzu lange an ein einzelnes Projekt oder einen Anwendungsfall gebunden. Ihr Wissen ist vielmehr eine ungeheuer wertvolle Ressource, die für die dringendsten geschäftlichen Fragestellungen im Zusammenhang mit Data Privacy eingesetzt werden sollte.

Das Berufsbild des Privacy Engineer ist noch nicht ausdefiniert begriffen und erfährt eine stetige Weiterentwicklung. Obwohl größere Technologieunternehmen mittlerweile aktiv Personal für diese Position einstellen, erinnert mich das Aufkommen dieser Berufsbezeichnung an das Aufkommen des Begriffs Machine Learning Engineer im Jahr 2018. Privacy Engineering – also der Umgang mit dem Datenschutz in der Praxis – ist eine relativ neue Qualifikation im Bereich Data Science, die sich aufgrund der Bedürfnisse und Anforderungen der Branche entwickelt. Ich bin gespannt, wie sich die Rolle des Privacy Engineer in zwei oder auch in zehn Jahren darstellen wird –, und hoffe, dass dieses Buch dazu beiträgt, ein paar weitere Menschen für diesen Bereich zu begeistern.

Warum ich dieses Buch geschrieben habe

Als das Thema Data Privacy für mich zum ersten Mal interessant wurde, kam es mir wie ein riesiges Labyrinth vor. Der Großteil der Materialien war für mich nicht verständlich, und die einführenden Leitfäden wurden oft von Menschen geschrieben, die mir ihre Software verkaufen wollten. Glücklicherweise kannte ich ein paar Leute in der Data-Privacy-Community, die mir dabei halfen, ein tieferes und umfassenderes Verständnis erlangen zu können. Es bedurfte vieler Stunden des Studiums und zahlreicher hilfsbereiter Personen, damit ich mich von einem neugierigen Data Scientist zu jemandem entwickeln konnte, der die Themen, die Sie in diesem Buch antreffen, beherrscht. Ich kann Ihnen verraten, ich lerne weiterhin jedes Jahr aufs Neue dazu und tauche tiefer in das Gebiet ein.

Ich bin davon überzeugt, dass die Fähigkeiten, die Sie in diesem Buch erlernen werden, heute und auch künftig für Data Scientists unerlässlich sind. Meine eigene Lernkurve verlief viel zu steil. Und genau das soll Ihnen dieses Buch ersparen. Ich habe dieses Buch geschrieben, um Ihnen eine ansprechende, schnelllebige und praxisorientierte Umgebung zu verschaffen, in der Sie dazulernen, Fragen stellen, hilfreiche Ratschläge finden und sich näher mit den anspruchsvollen Themen befassen können.

Dieses Buch ist als ein nützlicher Überblick gedacht, der Ihnen dabei hilft, den Datenschutz ohne Vorkenntnisse aktiv in Ihre Arbeit zu integrieren. Sie lernen gängige Strategien wie Pseudonymisierungs- und Anonymisierungsverfahren und neuere Ansätze wie Berechnungen auf Basis verschlüsselter Daten (Encrypted Computation) und Federated Data Science kennen. Wenn dieses Buch als Sprungbrett für Ihre akademische Karriere dient oder dazu verhilft, dass Sie als Forscherin tätig werden, wäre das großartig. Das Berufsfeld braucht intelligente und neugierige Menschen, die an ungelösten Problemen in diesem Bereich arbeiten möchten. Doch im Großen und Ganzen ist dieses Buch ein praxisorientierter Überblick, der, sollten Sie mehr wissen wollen, unterwegs Verweise liefert.

Data Scientists und Technologen, die Datenschutz- und Sicherheitsthemen in ihre tägliche Arbeit miteinbeziehen müssen, werden dieses Buch hilfreich finden. Es gibt einige Kapitel, die Ihnen als Kurzreferenz dienen, während Sie durch die Welt der Data Privacy navigieren. Wenn Sie das Buch von Anfang bis Ende lesen, werden Sie eine solide Kenntnis über die Materie erlangen und lernen, wie Sie neue, Ihnen zuvor unbekannte Datenschutzprobleme lösen können. Ein kurzes Nachschlagen liefert Ihnen unkomplizierte Ratschläge dazu, wie Sie mit bestimmten Datenschutznotfällen umgehen können, die in Ihrer täglichen Arbeit auftauchen.

Aufbau des Buchs

Dieses Buch soll Ihnen einen praktischen Ansatz für Data Privacy bieten und enthält eine Mischung aus Theorie, Übungen und Anwendungsfällen. Dabei gliedert es sich in die folgenden Kapitel:

In

Kapitel 1

,

Data Governance und einfache Datenschutzansätze

, geht es um Data Governance und einfache Ansätze zur Data Privacy. Sie erhalten eine Reihe von Hinweisen zur Verwaltung von Daten, zur Rückverfolgung von Einwilligungen und zur Pseudonymisierung von Daten, die Sie intern verwenden möchten.

Mit

Kapitel 2

,

Anonymisierung

, tauchen Sie in das Thema Anonymisierung ein und erfahren, welche modernen Ansätze Sie heute verwenden können und wie das US Census Bureau Differential Privacy als Werkzeug für Data Scientists entwickelt hat.

In

Kapitel 3

,

Datenschutz in Datenpipelines integrieren

, erfahren Sie, wie Sie damit beginnen können, Data Privacy in Datenpipelines und -workflows zu automatisieren, wobei verschiedene Anwendungsfälle rund um die Themen Einwilligung (engl.

Consent

), Anonymisierung (engl.

Anonymization

) und Data Engineering aufgezeigt werden.

Kapitel 4

,

Angriffe auf die Privatsphäre

, gibt Ihnen einen Überblick über die bisher bekannten Angriffe auf die Privatsphäre, z.B. wie der Netflix-Price-Datensatz de-anonymisiert wurde, und zeigt Ihnen, wie Sie mögliche Sicherheitslücken und Angriffe bei der Arbeit mit sensiblen Daten erkennen können.

Kapitel 5

,

Machine Learning und Data Science datenschutzkonform gestalten

, befasst sich damit, wie Machine Learning datenschutzkonform gestaltet werden kann und wie Sie Datenschutz in Data-Science-Projekte integrieren können. Dieses Kapitel sollte als Schnellreferenz verwendet werden, um bestimmte Ansätze in einem projekt- oder produktbezogenen Data-Science-Team zu evaluieren.

Kapitel 6

,

Federated Learning und Data Science

, erläutert, wie föderale Ansätze beim Machine Learning (Federated Learning) und in der Data Science funktionieren und vergleicht diese mit anderen Privacy-Ansätzen und Datensparsamkeit.

In

Kapitel 7

,

Encrypted Computation

, finden Sie Informationen zum Thema Encrypted Learning und Encrypted Computation für Data Privacy in der Data Science, wobei Sie sich mit Multiparty Computing und homomorphen Verschlüsselungsprotokollen (engl.

Homomorphic Encryption Protocols

) und -bibliotheken beschäftigen.

Kapitel 8

,

Datenschutzrechtliche Aspekte

, vermittelt Ihnen, wie Sie Datenschutzbestimmungen und -richtlinien interpretieren und anwenden können. Dabei werden die DSGVO, das kalifornische Verbraucherschutzgesetz (California Consumer Privacy Act, CCPA) und verschiedene Beispiele für interne Richtlinien vorgestellt, die Sie dabei unterstützen, die rechtliche Seite von Privacy zu durchdringen.

Kapitel 9

,

Datenschutz und Anwendungen aus der Praxis

, hilft Ihnen, das Gelernte anzuwenden, um sichere und private Datensysteme in realen Anwendungsfällen zu konzipieren. Dieses Kapitel dient ebenfalls als Schnellreferenz, insbesondere für Data Architects und das Data-Science-Management.

Kapitel 10

,

Häufig gestellte Fragen und ihre Antworten!

, fasst häufig gestellte Fragen und Anwendungsfälle zusammen und dient dementsprechend als praktische Referenz für Datenschutznotfälle. So können Sie selbstbewusst vorangehen und sicherstellen, dass Data Privacy in jedem Projekt und in Ihrem normalen Arbeitsablauf integraler Bestandteil ist. Außerdem erfahren Sie mehr über die sozialen und auch persönlichen Aspekte von Privacy und können diese auf Ihr Privatleben übertragen.

Das letzte Kapitel des Buchs,

Kapitel 11

,

Machen Sie sich ans Werk und entwickeln Sie Privacy-Lösungen!

, soll Ihnen helfen und Sie dazu motivieren, Ihre neu erworbenen Datenschutzkenntnisse dafür zu nutzen, das Fachgebiet und Ihren eigenen Weg weiter voranzutreiben!

Die im englischsprachigen Buch enthaltenen Links wurden der Einfachheit halber zu O’Reilly-URLs verkürzt. Diese URLs unterliegen nur einem Mindestmaß an Tracking und wurden auf Konformität mit der DSGVO und auf den Schutz der Privatsphäre überprüft. Sollte Ihnen dieses Maß an Tracking nicht zusagen, können Sie die vollständige Liste der URLs des englischsprachigen Buchs unter https://practicaldataprivacybook.com einsehen.

Neuerungen in der deutschsprachigen Ausgabe

Die deutsche Übersetzung dieses Buchs enthält einige zusätzliche Abschnitte und überarbeitete Passagen, um der zunehmenden Verbreitung von Large Language Models (LLMs) und GPT-basierten Anwendungen Rechnung zu tragen. Diese Ergänzungen sollen das Bewusstsein für Angriffe auf die Privatsphäre bei der Verwendung dieser Modelle schärfen und den aktuellen Stand der Technik in Bezug auf den Schutz bzw. die Bereitstellung datenschutzfreundlicher generativer KI-Dienste aufzeigen.

In diesem Buch verwendete Konventionen

Die folgenden typografischen Konventionen werden in diesem Buch verwendet:

Kursiv

Kennzeichnet neue Begriffe, URLs, E-Mail-Adressen, Dateinamen und Dateiendungen.

Konstante Zeichenbreite

Wird für Programmlistings und für Programmelemente in Textabschnitten wie Namen von Variablen und Funktionen, Datenbanken, Datentypen, Umgebungsvariablen, Anweisungen und Schlüsselwörter verwendet.

Konstante Zeichenbreite, fett

Kennzeichnet Befehle oder anderen Text, den der Nutzer wörtlich eingeben sollte.

Konstante Zeichenbreite, kursiv

Kennzeichnet Text, den der Nutzer je nach Kontext durch entsprechende Werte ersetzen soll.

Dieses Symbol steht für einen Tipp oder eine Empfehlung.

Dieses Symbol steht für einen allgemeinen Hinweis.

Dieses Symbol warnt oder mahnt zur Vorsicht.

Verwenden von Codebeispielen

Zusätzliche Materialien (Codebeispiele, Übungen und so weiter) können Sie unter https://github.com/kjam/practical-data-privacy herunterladen.

Wir haben eine Webseite für dieses Buch, auf der wir Errata, Beispiele und zusätzliche Informationen veröffentlichen. Sie können diese Seite unter https://oreil.ly/practicalDataPrivacy aufrufen.

Dieses Buch dient dazu, Ihnen bei der Erledigung Ihrer Arbeit zu helfen. Im Allgemeinen dürfen Sie die Codebeispiele aus diesem Buch in Ihren eigenen Programmen und der dazugehörigen Dokumentation verwenden. Sie müssen uns dazu nicht um Erlaubnis bitten, solange Sie nicht einen beträchtlichen Teil des Codes reproduzieren. Beispielsweise benötigen Sie keine Erlaubnis, um ein Programm zu schreiben, in dem mehrere Codefragmente aus diesem Buch vorkommen. Wollen Sie dagegen eine CD-ROM mit Beispielen aus Büchern von O’Reilly verkaufen oder verbreiten, benötigen Sie eine Erlaubnis. Eine Frage zu beantworten, indem Sie aus diesem Buch zitieren und ein Codebeispiel wiedergeben, benötigt keine Erlaubnis. Eine beträchtliche Menge Beispielcode aus diesem Buch in die Dokumentation Ihres Produkts aufzunehmen, bedarf hingegen unserer ausdrücklichen Zustimmung.

Wir freuen uns über Zitate, verlangen diese aber nicht. Ein Zitat enthält Titel, Autor, Verlag und ISBN. Beispiel: »Data Privacy in der Praxis von Katharine Jarmul, O’Reilly 2024, ISBN 978-3-96009-233-9.«

Wenn Sie glauben, dass Ihre Verwendung von Codebeispielen über die übliche Nutzung hinausgeht oder außerhalb der oben vorgestellten Nutzungsbedingungen liegt, kontaktieren Sie uns bitte unter [email protected].

Danksagungen

Zunächst möchte ich meinem Lebensgefährten Aaron Glenn für die langen Kaffeerunden, die Diskussionen und die tägliche Unterstützung danken, die die Entstehung und das Schreiben dieses Buchs ermöglicht haben. Wenn Sie mehr über Open Source, communitygetriebene und softwaregestützte Computernetzwerke erfahren möchten oder einfach nur neugierig sind, wie das Internet tatsächlich funktioniert, dann finden Sie seine Arbeit unter Predicted Paths (https://predictedpaths.com).

Meine Erfahrungen im Bereich der Datenschutztechnologie haben mich mit Menschen zusammengebracht, die mir mehr beigebracht haben, als ich mir je hätte vorstellen können. Vor allem meine Zeit mit dem »PETs«-Team bei Dropout Labs bzw. Cape Privacy (Morten Dahl (https://oreil.ly/WjCQt), Jason Mancuso (https://oreil.ly/jZUgU) und Yann Dupis (https://oreil.ly/d9myd)) brachte mir nicht nur eine der besten Arbeitserfahrungen meines Lebens, sondern ich habe auch all das gelernt, was ich über Encrypted Computation weiß. Morten, ich danke dir für deine Beiträge, die mir neue Denkanstöße zu den Themen Verschlüsselung und Machine Learning gegeben haben, für die zahllosen Stunden, die du mit Jamboarding und der Beantwortung von Fragen verbracht hast, und dafür, dass du der beste Nicht-Professor bist – der eigentlich Professor sein könnte –, von dem ich in meinem Leben lernen durfte. Jason, ich vermisse es, deine Gedanken über neue Durchbrüche im Bereich des Multitasking Learning zu hören und darüber, was du als Nächstes im Sinn hast, um das Privacy Preserving Machine Learning (PPML) zu revolutionieren. Yann, dein pragmatisches »Lass es uns einfach bauen und dann weitersehen« und deine unzähligen Erklärungen haben mir und unseren Kunden vor Augen geführt, wie diese Technologien nicht nur zu besseren Ergebnissen, sondern auch zu echten Datenschutzgarantien führen können. Die Zeit, die ich mit euch allen verbracht habe, werde ich immer in bester Erinnerung behalten.

Als ich zusammen mit Dr. Andreas Dewes KIProtect (https://kiprotect.com) mitbegründete, begann meine Reise in die Entwicklung von Datenschutztechnologien. Andreas, ich danke dir, dass du in diesen Jahren mein Sparrings-, Geschäfts- und Denkpartner warst! Ohne all das, was wir gemeinsam aufgebaut und gelernt haben, wäre ich heute nicht da, wo ich bin.

Ein besonderes Dankeschön geht an Damien Desfontaines (https://desfontain.es/serious.html), der mich zu Beginn des Verfassens dieses Buchs durch ein Bootcamp zum Thema Differential Privacy geführt hat. Damien, ich danke dir für die vielen Gespräche, für deine Beiträge zu diesem Thema und dafür, dass du ein bescheidener und wunderbarer Mensch bist. Deine Bereitschaft, dein Wissen zu teilen, deine Bemühungen, Open Source Differential Privacy in der Praxis nutzbar zu machen, und dein tolles Blog (https://desfontain.es/) sind von unschätzbarem Wert. Bleibe weiterhin so kämpferisch!

An die Technologen und guten Freundinnen und Freunde in meinem Leben, die mich gesund, motiviert und glücklich halten: Dr. Nakeema Stefflbauer (https://www.nakeema.net), Dr. Carma Lüdtke (https://oreil.ly/t91bF), Ellen König (https://www.ellenkoenig.de), Christine Cheung (https://www.xtine.net) und Sandy Strong (https://oreil.ly/Zs85P). Ich habe so viel Glück, dass ich euch alle kenne – danke, dass ihr mich durch alle Höhen und Tiefen des Lebens in dieser verrückten Welt begleitet habt. Ohne eure Inspiration hätte ich nicht die nötige Chuzpe, ein solches Buch zu schreiben.

Meiner Mutter und unermüdlichen, unbezahlten Lektorin danke ich dafür, dass sie sich durch meinen Text gekämpft und ihren Ruhestand damit verbracht hat, meine Passivsätze auszubessern. Ich wette, du hättest nie gedacht, dass du das auch 30 Jahre später noch korrigieren würdest! Es hat nicht wirklich geholfen, dass ich Deutsch gelernt habe; das tut mir leid. Ich könnte nie all die Dinge in Worte fassen, für die ich dir dankbar bin, doch an dieser Stelle kann ich dir zumindest für die Buchkorrekturen danken.

Meinem Vater und Cathy danke ich dafür, dass sie mich angespornt und an meine Arbeit geglaubt haben. Auf der Veranda zu sitzen und auf den Fluss zu schauen, hat mir geholfen, den Kopf freizubekommen, während ich einige der schwierigsten Abschnitte dieses Buchs verfasst habe. Auch die Pausen, in denen ich mit den Welpen gespielt habe, spazieren gegangen bin und ein Glas Wein getrunken habe, haben geholfen!

An Dai und Rhys – ihr seid immer da, wenn es darum geht, mich zu motivieren – sowohl in den sozialen Medien als auch im echten Leben! Wie schön, dass ihr mir in Zeiten, in denen Projekte wie dieses Buch etwas entmutigend wirken, so viel positive Energie schenkt.

An meine Lektorin und meinen Lektor bei O’Reilly: Rita Fernando und Andy Kwan. Rita, vielen, vielen Dank für die ganzen Anregungen, Ratschläge und die Geduld, während ich herausgefunden habe, wie und worüber ich dieses Buch schreibe. Ich werde unsere Gespräche vermissen und hoffe, dass wir uns irgendwann einmal im »richtigen« Leben sehen können. Andy, du warst der Erste, der an dieses Buch geglaubt hat – danke, dass du ihm eine Chance gegeben hast!

An meine Fachgutachter Natalie Beyer (https://www.lavrio.solutions), Clarence Chio (https://cchio.org) und Timothy Yim (https://oreil.ly/XkAgF): Natalie, vielen Dank, dass du mir deine Sicht auf die Data Science gezeigt und mir Feedback gegeben hast. Das hat mir geholfen, die unverständlichen Stellen in diesem Buch zu vereinfachen, und das wird im Idealfall vielen Data Scientists dabei helfen, ihren Weg zu gehen. Clarence, ich bin ein großer Fan deiner Arbeit über Adversarial Machine Learning. Es war mir eine Ehre, deine durchdachten Beiträge und deine jahrelange Erfahrung auch in dieses Buch einfließen zu lassen. Timothy, deine Expertise hat dazu beigetragen, die Ratschläge in den ersten Kapiteln zu Governance und Einwilligungsworkflows zu verdeutlichen – vielen Dank dafür!

Ich danke auch meinen Kolleginnen und Kollegen bei Thoughtworks, die mich unterstützt haben, indem sie mir zugehört haben, wenn ich laut nachgedacht habe, die mich durch interessante Fragen und neue Ideen zum Nachdenken gebracht haben, die mir geholfen haben, mich weiterzubilden und zu arbeiten, indem sie mich auf meinem Weg ermutigt und mir Feedback gegeben haben, und die mir geholfen haben, meine Ideen zu dem zu entwickeln, was in diesem Buch steckt. Besonderer Dank gilt Chris Ford (https://oreil.ly/eJOEG), der ebenfalls als Fachgutachter fungierte, sowie Enrico Massi (https://oreil.ly/nNNny) und Lisa Junger (https://oreil.ly/EKQn5), die durch ihre regelmäßigen Unterhaltungen und ihr Fachwissen dazu beigetragen haben, die in diesem Buch dargelegten Sicherheitsprobleme greifbar und präzise wiederzugeben. Weiterer Dank geht auch an Clara Brünn (https://oreil.ly/xmgYP), die mir wertvolles Feedback und interessante Einblicke in ihre eigene Arbeit und ihre Erfahrung im Bereich der Data Science gegeben hat, sowie an Mitchell Lisle (https://oreil.ly/16N7v) und Menghong Li (https://oreil.ly/oqe4z), deren Interesse für Privacy Engineering viele neue Ideen in mir geweckt und zu der »Reconstruction Attack« auf die Datenbank des Repositorys des Buchs geführt hat – vielen Dank! Meiner »Nicht-Chefin« Emily Gorcenski (https://oreil.ly/ViIc5), die mir Unterstützung und Zeit zum Schreiben gab und mein Denken über die Verflechtung von Datenschutz und Strategie angeregt hat. Und ein herzliches Dankeschön an Sowmya Ganapathi Krishnan (https://oreil.ly/rMA6q), Nimisha Asthagiri (https://oreil.ly/l8trh) und Erin Nicholson (https://oreil.ly/sVZmW), deren eigene Leidenschaft für Sicherheits- und Datenschutztechnologien und wirklich erstaunliche neue Freundschaften mir auf dem langen Weg geholfen haben, dieses Buch von einer Idee in den Druck zu bringen.

An meine Fachautoren vielen Dank dafür, dass ihr mich motiviert habt und mich an euren Ideen, eurem Feedback und euren eigenen Wegen habt teilhaben lassen! Obwohl unsere engen Terminkalender uns nur wenige Treffen erlaubten, hat mir das Team dabei geholfen, die anfänglichen Schwierigkeiten beim Schreiben zu überwinden und wieder in einen geregelten Schreibfluss zu kommen.

An Freddie Hubbard und Beyoncé, deren Songs mir durch die frühen Morgenstunden und späten Nächte geholfen haben.

An meine Nichte Charlotte, an mein Patenkind Neorth, an Ragnar und Horik – ich hoffe, dieses Buch ist ein kleiner Tropfen einer Welle der Veränderung. Ich hoffe, dass ihr in einer Welt aufwachsen werdet, in der Privatsphäre ein Grundrecht für jeden ist, unabhängig davon, wer er ist oder wo er lebt.

KAPITEL 1

Data Governance und einfache Datenschutzansätze

Privacy ist ein großes und langlebiges Feld. Stellen Sie es sich wie eine alte Straße vor – voller interessanter Seitenstraßen und Abzweigungen, auf der man sich aber nur schwer zurechtfindet, wenn man den Weg nicht kennt. Dieses Kapitel soll Ihnen eine erste Orientierung auf dieser Straße bieten. In diesem Kapitel und im gesamten Buch helfe ich Ihnen, wichtige Abschnitte der Datenschutzlandschaft zu kartieren, und Sie werden Bereiche finden, in denen Sie mehr erfahren und vom ursprünglichen Weg abweichen wollen. Diese Landkarte in Ihrem Unternehmen anzuwenden, heißt, herausfinden, wer was tut, wer wofür verantwortlich ist und welche Anforderungen hinsichtlich des Datenschutzes in Ihrem Unternehmen bestehen.1

Den Begriff Data Governance (im engeren Sinne im Deutschen auch bekannt als Datenqualitätsmanagement) haben Sie vielleicht schon einmal oder auch Hunderte Male gehört, aber oft wird er nicht näher erläutert oder lässt einen gewissen Interpretationsspielraum zu. In diesem Kapitel erfahren Sie, wo sich Data Governance und Datenschutz für praktische Zwecke der Data Science überschneiden, und lernen relativ simple Ansätze zur Lösung von Datenschutzproblemen im Zusammenhang mit der Arbeit mit Daten kennen, wie z.B. die Pseudonymisierung. Darüber hinaus erfahren Sie, wie Data-Governance-Methoden wie die Dokumentation und Nachverfolgung der Datenhistorie – das sogenannte Data-Lineage-Tracking – dabei helfen können, Datenschutzprobleme zu identifizieren oder Methoden zur Implementierung des Datenschutzes zum richtigen Zeitpunkt zu implementieren.

Wenn Sie bereits mit Data Governance vertraut sind oder in diesem Bereich arbeiten, empfehle ich Ihnen, dieses Kapitel nur zu überfliegen oder gänzlich zu überspringen. Sind Ihnen Governance und Datenmanagement jedoch noch nicht geläufig, werden in diesem Kapitel die Grundlagen gelegt, die Sie benötigen, um die fortgeschrittenen Methoden anzuwenden, die Sie in den späteren Kapiteln kennenlernen werden.

In diesem Kapitel werden Werkzeuge und Systeme vorgestellt, mit denen Sie sensible Daten identifizieren, nachverfolgen und verwalten können. Ohne diese Grundlage wird es schwierig sein, Datenschutzrisiken zu bewerten und entsprechende Bedenken auszuräumen. Es ist sinnvoll, mit der Governance zu beginnen, da sich der Datenschutz gut in Governance-Rahmen und -Paradigmen einfügt und diese Arbeitsbereiche in Datensystemen ineinandergreifen.

Data Governance: Was ist das?

Der Begriff Data Governance wird oft als »allumfassende« Art und Weise verwendet, wie wir über unsere Entscheidungen in Bezug auf Daten nachdenken, z.B. ob Sie einem Dienst erlauben, Sie zu kontaktieren, oder zu entscheiden, wer Zugriffsrechte auf eine bestimmte Datenbank hat. Doch was bedeutet der Begriff nun wirklich, und wie können Sie ihn in die Praxis umsetzen?

Data Governance bedeutet im wörtlichen Sinne, Daten zu »regieren«. Governance kann einerseits durch die Übertragung von Rechten erfolgen, die Menschen individuell und kollektiv besitzen. Diese Rechte werden an Bevollmächtigte übertragen, die Aufgaben und Verantwortlichkeiten für Personen übernehmen, die dafür nicht die Zeit, das Fachwissen oder das Interesse haben. Bei der Data Governance überträgt der Einzelne Rechte, wenn er Daten an ein Unternehmen oder eine Organisation weitergibt. Mutzen Sie eine Webseite, einen Dienst oder eine Anwendung, erklären Sie sich mit den Datenschutzbestimmungen, -bedingungen und -vereinbarungen einverstanden, die Ihnen zu diesem Zeitpunkt von diesen Datenverarbeitern (oder denjenigen, die die Daten erheben) auferlegt werden. Das ist vergleichbar mit der Tatsache, dass Sie in einem bestimmten Land leben und damit implizit zustimmen, sich an die dort geltenden Gesetze zu halten.

Data Governance hilft Ihnen dabei, zu steuern, wessen Daten Sie erheben (bzw. sammeln), wie Sie sie erheben und anreichern und was Sie anschließend mit den erhobenen Daten machen. Abbildung 1-1 veranschaulicht, in welchem Zusammenhang Datenschutz und Sicherheit mit Data Governance stehen – und zwar anhand einer imaginären Insel, auf der die Nutzer und ihre Daten sowohl durch Datenschutz- als auch durch Sicherheitsinitiativen (engl. Security Initiatives) angemessen geschützt sind. In der Illustration sind die sensiblen Daten in einem Turm platziert. Sicherheitsinitiativen werden durch Privacy by Design unterstützt.2 Regulierung und Compliance bilden eine Art Graben, durch den die sensiblen Daten abgetrennt werden. Die Datenschutztechnologien, die Sie in diesem Buch kennenlernen werden, dienen als Brücke für die Nutzenden und die an den Daten Interessierten (Data Stakeholders), damit diese aus sensiblen Daten Erkenntnisse gewinnen und Entscheidungen treffen können, ohne die Privatsphäre einer oder eines Einzelnen zu verletzen.

Abbildung 1-1: Data Governance veranschaulicht

Data Governance kann als eine Mischung aus Menschen, Prozessen und Technologien beschrieben werden. Unabhängig von der Größe Ihres Unternehmens existiert immer ein gewisses Maß an Data Governance, das erfüllt werden muss. In einem großen Unternehmen gibt es wahrscheinlich ein großes Team oder ein Gremium, das Standards erarbeitet, die dann in Form von Richtlinien und Verfahrensanweisungen umgesetzt und in die entsprechende technische Infrastruktur des Unternehmens implementiert werden müssen. Wenn Ihr Unternehmen klein ist, könnte dies die Aufgabe Ihres technischen oder juristischen Leiters sein. Sehen wir uns den technischen Bereich etwas genauer an, denn hier werden Sie wahrscheinlich gebeten, bei der Umsetzung dieser Richtlinien und Verfahrensanweisungen zu helfen und dafür zu sorgen, dass sie auch tatsächlich in die laufende Datenverarbeitung einfließen.

Welche Elemente der Governance-Standards und -Richtlinien und deren Umsetzung in Technologie sind für Data Scientists von Bedeutung? Tabelle 1-1 umreißt wichtige Bereiche und damit verbundene Fragen innerhalb der Data Governance, mit denen Sie sich als Data Scientist auseinandersetzen werden.

Tabelle 1-1: Data Governance in der Data Science

Data Lineage/Datenhistorie

Richtlinien und Bestimmungen

Woher stammen die Daten?

Welche Gesetze oder internen Richtlinien gelten für diese Daten?

Wessen Daten sind das? Ist es möglich, mit ihnen Kontakt aufzunehmen?

Wo, wann und wie wurden die Daten erhoben?

Wurden diese Daten von jemand anderem erworben? Wenn ja, hat derjenige dokumentiert, wie sie verarbeitet wurden und wem sie gehören?

Welchen Bedenken hinsichtlich des Datenschutzes oder der Sicherheit müssen Sie bei der Verwendung dieser Daten Rechnung tragen?

Wie wurden die Daten durch die Verarbeitung verändert?

Wie lauteten die Datenschutzerklärung und die Nutzungsbedingungen zum Zeitpunkt der Erhebung bzw. Sammlung?

Sind die Metadaten, die Informationen zur Historie (Lineage) enthalten, leicht zugänglich und abzufragen?

Stammen die Daten von einem Dritten? Wenn ja, welche vertraglichen oder sonstigen Beschränkungen und Verpflichtungen bestehen für diese Daten?

Verlässlichkeit/Kenntnis der Daten

Datenschutz und -sicherheit

Welche Bedenken gibt es hinsichtlich des Einblicks in die Daten und Systeme (d.h. einschließlich der Datenerhebung, -verarbeitung und der nachgelagerten Systeme)?

Wie wird der Zugriff auf sensible Daten verwaltet und überwacht?

Ist die Dokumentation der Daten nachvollziehbar, und zwar bereits ab dem Zeitpunkt ihrer Beschaffung bzw. Erhebung?