It can take a while depending on the size of the document..please wait
Discuto
Big Data, Innovation und Datenschutz
Wirtschaftspolitische Empfehlungen diskutieren
0 days left (ends 23 Oct)
description
Update: Feedback eingearbeitet, Endbericht und "Change-Report" zum Download
Vielen Dank für das umfangreiche Feedback zur Rohfassung der Studie. Dieses wurde in der Zwischenzeit eingearbeitet. Welche Änderungen vorgenommen wurden, können im "Change-Report" nachvollzogen werden.
Die Studie wurde mittlerweile dem BMVIT übermittelt und abgenommen.
Wir glauben, dass eine konsequente Umsetzung der Datenschutz-Grundverordnung - trotz aller noch offenen Punkte - ein wesentlicher Schritt in Richtung einer eigenständigen europäischen Digitalisierungsstrategie sein kann und daher deutlich mehr Aufmerksamkeit erhalten sollte als bisher.
Für weitere Diskussionen und Anregungen stehen wir gerne zur Verfügung (Mail: office(at)cbased.com).
Kann man Big Data, Innovation und Datenschutz unter einen Hut bringen?
Das war - salopp formuliert - die Aufgabenstellung für den hier zur Diskussion gestellten Entwurf unserer Studie für das Bundesministerium für Verkehr, Innovation und Technologie (BMVIT):
- Ist Big Data mit dem Inkrafttreten der neuen Datenschutz-Grundverordnung (DS-GVO) im Mai 2018 in Europa Geschichte? Wenn ja, ist das gut so?
- Wird Innovation massiv behindert oder gibt es Wege trotzdem neue Produkte und Dienstleistungen einzuführen?
- Etabliert die DS-GVO ein neues Paradigma und stellt sich Europa damit vollends ins Abseits in der Welt der digitalen Plattformökomie?
Die Fragen zum Thema sind vielfältig und fundamental. Wir stellen daher unsere Sicht der Dinge auf den Prüfstand, versuchen unterschiedliche Sichtweisen, neue Einsichten oder schlicht Fehler zu finden, mißverständliche Aussagen zu korrigieren etc. und die grundlegenden Handlungslinien festzuzurren - wenn Sie uns dabei helfen.
Die Empfehlungen der Studie können hier bis zum 09.10.17 diskutiert werden. Danach werden Sie von uns überarbeitet und an das BMVIT übermittelt. Wir geben Feedback, was wir aus der Diskussion übernommen und eingebaut haben bzw. wo wir einen anderen Standpunkt vertreten.
Wir freuen uns auf Ihr Feedback!
LATEST ACTIVITY
LEVEL OF AGREEMENT
MOST DISCUSSED PARAGRAPHS
LATEST COMMENTS
-
Wie schon von anderen erwähnt geht es hier zuviel um die Quantität und weniger um die Qualität der Daten - in diesem Zusammenhang vor allem um die passenden Daten für den richtigen Zweck (Thema Korrelation against Causation). Ausserdem geht es in Data Science immer mehr um das Thema Algorithmen und deren Schwachstellen - hier sind die Themen 'black boxes', 'Objektivität von Algorithmen' usw. extrem wichtig. Ein gutes Buch zu diesem Thema ist 'Weapons of math destruction' von Cathy O'Neill.
P36
Basierend auf den in diesem Projekt durchgeführten Analysen haben sich die untenstehenden Forschungsfragen als wesentlich herauskristallisiert. Dabei handelt es sich nicht nur um rein technische Fragestellungen, sondern vor allem um Fragen, die einen integrierten Forschungsansatz zwischen technischen und rechtswissenschaftlichen Experten erfordern:
Add/View comment (1)
P37
- Die Wahl der konkreten Sicherheitsparameter zur Anonymisierung, speziell des Sicherheitsfaktors „k“ im Rahmen von k-anonymity oder verwandten Verfahren. Das gleiche gilt auch für den Einsatz von Differential Privacy, hier ist die Wahl des Faktors Epsilon zu klären. Im Fall von Datenperturbation, d.h. der Verschneidung von Echtdatensätzen mit synthetischen Daten, ist zu klären, ab welchem Verhältnis zwischen Echtdaten und Perturbationsdaten die Privacy der beteiligten Personen gewahrt bleibt.
Add/View comments (2)
P38
- Speziell im Fall von Sensordaten kann die Einteilung, ob es sich bei den Daten um sensible Informationen handelt, nicht trivial sein. Hier wird, unter Umständen branchenspezifisch, zu klären sein, wodurch sich Quasi Identifier auszeichnen und generelle Kriterien festzulegen, wie diese zu erkennen und mit ihnen umzugehen ist.
Add/View comments (3)
P39
- Entstehen im Rahmen interner Datenverarbeitung sensitive Datenströme durch die Verschneidung von (u.U. teilweise sensiblen) Daten, so wäre zu klären, ab wann eine Anonymisierung durchgeführt werden muss, bzw. ob der Akt der Verschneidung noch unanonymisiert durchgeführt werden darf. Dies ist speziell wichtig, da eine Verschneidung anonymisierter Daten oftmals nicht möglich ist.
Add/View comments (5)
P40
- Welche Form des Löschens ist ausreichend und welche forensischen Methoden existieren? Dies umfasst auch die Entwicklung neuer forensischer Methoden, die einfach umzusetzen sind und speziell in sehr komplexen Systemen vorhandene, nicht gelöschte, Metainformationen zur Datenrekonstruktion ausnutzen. Dies ist extrem relevant, um den durch die DSGVO implizierten Schutz der Daten durch Löschen auch in der Realität umzusetzen. Dabei ist die Frage nicht nur auf „physikalisches“ oder „logisches“ Löschen beschränkt, sondern umfasst auch den Umgang mit Backups, Sicherheitsmechanismen, internen (Security-)Logs, sowie anderen Methoden fortschrittlichen Datenmanagements.
Add/View comment (1)
P41
- Zu klären ist auch der Zielkonflikt in Hinblick auf die Transparenz der Datenverarbeitung. Da es auch notwendig sein kann Löschungen rückgängig zu machen, muss der gelöschte Inhalt in entsprechenden Mechanismen vorgehalten werden. Bestimmte Regulierungen verlangen, dass Daten nicht gelöscht werden, damit man die Entscheidungen zu einem bestimmten Zeitpunkt nachvollziehen kann. Die gelöschten Zellen werden in der Datenbank in einem eigenen Index verwaltet, der sogenannten Garbage Collection, und somit nicht nur bezüglich ihres Inhalts, sondern auch der Lösch-Timeline analysiert. Wie mit diesen Zielkonflikten umzugehen ist, sollte geklärt werden.
Add/View comments (2)
P42
Anonymisierung von sensiblen Daten gewinnt durch die DS-GVO an Bedeutung, weil sie eine Alternative zur Einholung von expliziter Zustimmung zur Verwendung von personenbezogenen Daten darstellt. Allerdings muss festgehalten werden, dass auch die Anonymisierung von Daten eine Verarbeitung ist und daher expliziter Zustimmung bedarf.
Add/View comments (3)
P43
Wesentlich für die Sicherstellung der Anonymität ist dabei eine genaue Analyse der in den Daten enthaltenen Informationen in Hinblick auf die Möglichkeit, aus scheinbar unpersönlichen Informationen Personen eindeutig identifizieren zu können. Dabei werden die Daten grundsätzlich in drei Typen eingeteilt: Identifizierende Daten, quasi-identifizierende Daten - d.s. Daten die für sich gestellt unproblematisch sind, in Kombination jedoch die Identifizierung ermöglichen-, und die Nutzungsdaten. Bei der Anonymisierung geht es hauptsächlich um die ersten zwei Gruppen.
Add/View comments (2)
P44
Es gibt eine Reihe von Strategien und Methoden, die die Anonymisierung von Daten erlauben. Das Spektrum reicht von synthetischen Daten, Katastern u.a., k-anonymisierten Daten und davon abgeleitete Verfahren bis zu differential privacy.
Add/View comment (1)
P45
Ohne an dieser Stelle auf die verschiedenen Methoden einzugehen kann festgehalten werden, dass es einen Zielkonflikt zwischen starker Anonymisierung und dem Informationsgehalt der Daten gibt. Je stärker die Anonymisierung, desto geringer ist der Informationsgehalt der Daten und damit deren Nutzen für analytische Zwecke.
Add/View comments (2)
P46
Eines der Hauptprobleme beim praktischen Einsatz von Anonymisierungsverfahren ist das Fehlen – auch bei der DS-GVO - exakt definierter rechtlicher Anforderungen an die Stärke der Anonymisierung (z.B. entspricht im Fall von k-anonymity der Faktor k der Mindestgröße der Äquivalenzklassen). Hinzu kommt, dass Datenmanipulationen, die heute Anonymität sichern, mit fortschreitender technologischer Entwicklung “geknackt” werden können und dann so nicht mehr zulässig sein würden. Anonymisierung ist also ein “moving target”.
Add/View comments (4)
P47
Geringer Informationsgehalt bedeutet, dass die Daten für Big Data Analysen und für Innovationsprozesse einen deutlich geringeren Wert haben. Dabei geht es nicht um die nicht vorhandene Zuordenbarkeit zu Datensubjekten, sondern um den geringen Informationsgehalt der Daten und den daraus resultierenden geringen analytischen Wert.
Add/View comment (1)
P48
Diese Faktoren bewirken, dass der Einsatz von Anonymisierungstechnologien, mit relativ vielen Unwägbarkeiten verbunden ist. Hinzu kommt, dass die verschiedenen Ansätze ein relativ hohes Niveau an Expertise verlangen, das oftmals in Klein- und Mittelbetrieben nicht vorhanden ist und so ein weiterer limitierender Faktor ist.
Add/View comments (3)
P49
Die Forderung nach einer transparenten Verarbeitung der Daten entspringt direkt der DS-GVO und ermöglicht damit dem Besitzer der Daten eine sehr weitreichende Kontrolle über die Verwendung der Informationen. Zusätzlich kann abgeleitet werden, ob wirklich nur die angegebenen Daten und Informationen für eine datengetriebene Anwendung verwendet wurden.
Add/View comments (4)
P50
Allerdings kann diese Forderung auch mit dem Recht auf Vergessenwerden kollidieren, speziell wenn die Forderung nach Transparenz aufgrund anderweitiger Regularien begründet wird. Regularien wie SOX (Sarabanes Oxley Act) und Basel II stellen die Integrität der in einer datengetriebenen Verarbeitung verwendeten Daten sicher, d.h. sie garantieren, dass die verwendeten Daten zu keiner Zeit manipuliert wurden. Dies gilt speziell auch für externe Anreicherungsinformationen, sodass hiermit auch eine Wiederverarbeitung (reprocessing) ermöglicht wird, d.h. es ist möglich Daten so zu verarbeiten, wie das an einem bestimmten Zeitpunkt mit den damals vorliegenden Informationen gemacht worden wäre. Dies ist speziell wichtig in Billing-Workflows und generiert eine gewisse Beweisbarkeit gegenüber Forderungen und Anfechtungen, ist daher speziell im Bereich der Finanztransaktionen von hoher Bedeutung.
Add/View comments (4)
P51
Wesentlich bei der Durchsetzung dieses Aspekts der DS-GVO ist besonders die Frage, welches Recht und welche Pflicht als höherwertiger anzusehen sind: Das Recht auf Vergessenwerden, oder die lückenlose Nachvollziehbarkeit, bzw. sogar eine etwaige Forderung des Wiederverarbeitung. Hierbei wird es nach unserem Dafürhalten keine allgemeingültige Entscheidung geben, sondern eine, die auf den jeweiligen Use Case und die Art der Verarbeitung abstellt.
Add/View comments (2)
P52
Transparenz im Zusammenhang mit der Verarbeitung von personenbezogenen Daten kann auch insofern eine Hürde darstellen, da keine Standard-Schemata für personenbezogene Daten bzw. noch keine allgemein anerkannten „Best Practices“ für entsprechende Granularität der Transparenz-aufzeichnungen existieren. Im Bereich der Forschung aus dem Bereich des Semantischen Web existieren einige Vorschläge zu Ontologien (konzeptuelle Schemata, die mittels RDF Daten instanziiert werden können) zur Beschreibung von personenbezogenen Daten und deren Provenienz (vgl. z.B. Bartolini et al. (2015)). Jedoch handelt es sich bei dieser und ähnlichen Arbeiten mehr um akademische Schemata denn um Standards die unmittelbar zum Einsatz kommen könnten. Es kann angenommen werden, dass die Entwicklung und Einführung solcher Standards zur leichteren Verarbeitbarkeit und Überprüfung von Transparenzaufzeichungen beitragen würde.
Add/View comment (1)
P53
Eine weitere technische Lösung stellt eine sogenannte Transparenzschicht dar, die mit bestimmten Eigenschaften ausgestattet ist (Vollständigkeit, Vertraulichkeit, Korrektheit, Unveränderbarkeit, Integrität, Interoperabilität, Unleugbarkeit, Richtigstellung und Löschung, Nachverfolgbarkeit/Nachvollziehbarkeit) und robuste Services (hohe Verfügbarkeit und Performanz, Skalierbarkeit und effiziente Speicherung) garantiert.
Did you know you can vote on comments? You can also reply directly to people's comments.