#Anonymisierung

Gretchenfrage Big Data

von , 25.2.13

Dem einen oder anderen Beobachter mag aufgefallen sein, dass vieles von dem, was ich seit 2010 hier in diesem Blog aufschreibe, sich in Big Data manifestiert (hier eine gute Deutschlandradiosendung zu Big Data). Und ich bin mittlerweile auch zu der Ansicht gelangt, dass wir mit der Entwicklung von Big Data direkt am Scheideweg des Kontrollverlustes stehen. Ich glaube, dass die Kämpfe – insbesondere auch die um die EU-Datenschutzverordnung – in Wirklichkeit auch eine Richtungsentscheidung zu diesem Thema sein sollen.

Der Kontrollverlust, so, wie ich ihn definiere, ist die generelle Unabsehbarkeit von Informationen, die aus Daten gewonnen werden können. Er schließt ein, dass ich 1. nicht mehr wissen kann, welche Daten erhoben werden, 2. welche Wege sie gehen, bzw. welche Kopien von ihnen angefertigt werden, und 3. und wichtigstens, ich nicht wissen kann, wie diese Daten, verknüpft mit anderen Daten, welche Aussagen zulassen.

Der dritte Punkt nun ist im großen und ganzen der Coup hinter Big Data. Big Data greift meist auf Bestandsdaten zurück, die zu einem ganz anderen Zweck erhoben wurden (Tracking, Suchabfragen, Mobiltelefonzellenortung, medizinische Daten, etc.) und korreliert sie mit anderen Datensätzen. Das erlaubt verblüffende Erkenntnisse. Und zwar in jeder Hinsicht verblüffend: vielleicht auch über mich.

Wenn – so die Datenschützer – Big Data ausschließlich vollständig anonymisierte Daten nutzen würde, dann wäre da auch gar nichts gegen einzuwenden. “Jaja“, antworten Startups und Konzerne, “wir anonymisieren doch!

Leider gibt es da ein kleines Problem. Zu den oben erwähnten Unkalkulierbarkeiten von Big Data gehört unter anderem die ständige Gefahr der Deanonymisierbarkeit. Die meisten Daten (vor allem die interessanten) werden auf die eine oder andere Art eben doch durch den Menschen induziert. Nimmt man beispielsweise einen Datensatz eines Telefonanbieters, ersetzt alle personenbezogenen Daten (Telefonnummern, Namen, Adressen, etc.) mit Aliasen, so dass man nur noch anonymisierte Bewegungsprofile irgendwelcher Menschen hat, glaubt man sich sicher. Korreliert man sie mit zum Beispiel Daten aus Foursquare (welcher Alias ist an Orten, wo sich ein User eincheckt?), lassen sich einzelne Daten nicht nur wunderbar rückübersetzen, sondern auch alle Lücken des Foursquare-Users füllen. Korreliert man die paar Treffer wiederum mit Facebook und den jeweiligen Social Graphs (Freundesnetzwerken), bekommt man auch einen Großteil aller anderen raus. (Dies ist ein einfaches, plakatives Beispiel. Das geht natürlich noch viel mehr von hinten durch die Brust ins Auge.)

Und hier sind wir mitten drin in der wohl wichtigsten Streitfrage der aktuellen Datenschutzdiskussion: der Frage nach der Definition von personenbezogenen Daten, die auch bei der Diskussion um die EU-Datenschutzverordnung eine große Rolle spielt.

Datenschützer hätten deswegen gerne eine generell sehr weite Definition von “personenbezogenen Daten”. Alle Daten, die – auch nur potentiell – auf Personen beziehbar sind, sollen dazugehören. In Anbetracht unserer obigen Überlegungen hieße das nichts anderes, als dass fast alle Daten personenbezogen sind.

Würden sich die Datenschützer an dieser Stelle durchsetzen, hieße das das Ende von Big Data. (Klar, es gibt den Erlaubnisvorbehalt, aber wie ich oben beschrieben habe, ist bei Big Data ja eben das Spannende, dass man unvorhergesehene Berechnungen macht. Und dafür können dann ja schlecht Erlaubnisse nachträglich eingeholt werden.)

Es würden – zumindest in Europa – alle Entwicklungen in Richtung Big Data extrem behindert werden. Aber nicht nur: Wenn zum Beispiel IP-Adressen zum personenbezogenen Datum werden (wie von manchen gefordert), kann ich keine Reportings mehr für meine Websites machen. Eine ganze Reihe von Netzwerkanalysetools würde illegal werden. Usertracking würde enorm erschwert werden und die eh schon dürren Geschäftsmodelle von Websitebetreibern ruinieren. Das Web würde sehr leiden unter einer solchen Definition.

Es war klar, dass der Datenschutz an einen Punkt kommen wird, an dem er von einem freiheitsermöglichenden Schutzrecht zu einem freiheitseinschränkenden Regime wird. Ich glaube, dieser Zeitpunkt ist jetzt.

Wenn der Datenschutz seine Vorstellungen von “Personenbezug” durchsetzt, erweitert er seine Kompetenzen auf beinahe alles. Dann wird er entweder totalitär, oder er wird an dieser Stelle schlicht und ergreifend ebenso armselig scheitern, wie es die tragische Figur Thilo Weichert heute schon beinahe täglich vormacht.

Die Alternative dazu wäre nicht nur, den “Personenbezug” so eng zu definieren wie möglich, sondern den Datenschutz vom Ansatz her neu zu denken. Es würde nämlich bedeuten, dass die Datenverarbeiter zwar zusichern können, alles zu tun, um Daten zu anonymisieren, dass sie aber keine Garantie geben könnten, dass die Daten nicht wieder deanonymisierbar sind. Es bräuchte einen Datenschutz, der den grundsätzlichen Kontrollverlust akzeptiert und dennoch alles Mögliche tut, die Folgen einzuschränken. (Beispielsweise wäre die derzeit wichtigste Aufgabe in dieser Hinsicht, gegen die Vorratsdatenspeicherung zu kämpfen.)

Ich denke, die Wahl ist nicht ganz leicht, aber sie stellt sich derzeit genau so. Ich bin für die letzte Variante, wie ich nicht müde werde zu betonen, aber ich kann schon verstehen, dass man sich damit schwer tut.

Ein paar Gedanken dazu:

1. Wir stehen in Sachen Datenverarbeitung immer noch am Anfang. Die Datenberge werden weiterhin exponentiell wachsen und ihre Möglichkeiten und Mächtigkeiten mit ihnen. Wenn wir jetzt einen restriktiven Faktor einbauen, dann wird diese Institution keine andere Chance haben, als mit den von ihr unter dem Deckel zu haltenden Möglichkeiten mitzuwachsen. Wenn wir also über eine machtvolle Datenschutzbehörde nachdenken, dann müssen wir bedenken, dass sie in zwei Jahren doppelt so mächtig sein muss, und in 10 Jahren 64 mal. Mir macht das mehr Angst, als jeder Kontrollverlust über meine Daten.

2. Wir stehen mit unserem gesamten “Way of Life” derzeit an einer Weggabelung. Und zwar nicht in erster Linie durch das Digitale, sondern vor allem wegen der Endlichkeit der Ressourcen. Die Welt – aber zuerst der Westen – kann es sich nicht mehr länger leisten, seine Ökonomie auf einem ständigen Wachstum – und damit auf ständigem Mehrverbrauch von Ressourcen aufzubauen.

Meines Erachtens gibt es nur zwei Möglichkeiten aus der Misere: wir verbrauchen weniger, d.h., wir alle schnallen den Gürtel enger, schränken uns ein, etc. Das wird hart, vielleicht in gewissem Maße auch unumgänglich. Und/oder zweitens: Wir schaffen es, die vorhandenen Ressourcen effizienter zu verteilen. Ich bin überzeugt, dass wir uns keine Vorstellung davon machen, was für enorme Potentiale für Wohlstand bei gleichzeitiger Umweltverträglichkeit in der effizienteren Umorganisation von Ressourcen steckt. Und ich glaube, dass da gar kein Weg dran vorbei geht.

Wir können uns auf Dauer keinen motorisierten Individualverkehr mehr leisten. Wir könnten uns aber wenige selbstfahrende, jederzeit über ihre Fahrgäste und ihre Position bewusste Taxis leisten. Wir können uns nicht leisten, auf regenerative Energie zu verzichten. Dafür aber brauchen wir intelligente Stromnetze, die in Echtzeit Strom dorthin schicken, wo er gebraucht wird. Wir können uns Fehlplanungen beim Wohnungsbau nicht mehr leisten. Wir können uns nicht leisten, weiterhin intransparente Märkte zu haben, indem wir uns weiter selbst zutrauen, sie zu durchforsten. Wir können uns nicht mehr leisten, mit Werbung, die enorme Streuverluste hat, die Welt vollzustellen. Wir können uns nicht mehr leisten, Butterberge, Getreideberge etc. herzustellen und dann verrotten zu lassen. Und es gibt viele, viele andere Beispiele, wie unsere Ökonomie zwar nicht mehr wachsen kann, aber trotzdem nicht weniger lebenswert werden muss. Das Wachstum muss und wird sich nach innen verlagern.

Um diese Dinge aber zu lösen, müssen wir von der Milchtüte bis zum Fensterscharnier alles mit Intelligenz ausstatten. Und um die Dinge intelligent und effizient auf einander einzustellen, werden wir jede Sekunde viele Petabyte an Daten auswerten müssen. Und wir werden keine Rücksicht darauf nehmen können, wenn Dinge aus diesen Daten herauslesbar sein werden, die uns manchmal nicht passen. Big Data wird in jeder Hosentasche stattfinden, ob die Datenschützer es nun wollen oder nicht.
 

Crosspost von ctrl+verlust

Zustimmung, Kritik oder Anmerkungen? Kommentare und Diskussionen zu den Beiträgen auf CARTA finden sich auf Twitter und auf Facebook.