Die Datenschatzsucherin

„Water, water everywhere / Nor any drop to drink“ – „Wasser, überall Wasser / Doch nirgends ein Tropfen zu trinken“: Frauke Kreuter gefällt diese Gedichtzeile von Samuel Taylor Coleridge. Weil sie so schön ein Gefühl ausdrückt, das sie in ihrem Beruf als Statistik-Professorin immer wieder erlebt und in leichter Abwandlung des Originals so formuliert: „Daten, überall Daten – aber was macht man damit?“

Frauke Kreuter hat keinen Zweifel daran, dass sich die enormen Mengen an Daten, die an verschiedensten Stellen gesammelt werden, einsetzen lassen, um das Leben der Menschen zu verbessern.

Ein paar Ideen hat Frauke Kreuter aber doch, was sie im Datenmeer finden könnte, auch mit Hilfe von Algorithmen. Jenseits der Lyrik findet die Professorin für Statistik und Data Science ganz prosaische Worte, um ihre eigene Arbeit zu beschreiben: „Ich interessiere mich für Qualität von Daten.“ Wenn man länger mit ihr redet, hat ihre Forschung dabei mit überraschend viel mehr zu tun, als diese sieben knappen Worte vermuten lassen. Sie geht der Frage nach, wie Menschen im Arbeitsleben gehalten werden können. Wie sich Armut bekämpfen lässt. Wie man Krankheiten besiegt. Oder wie sich die automatisierte Entscheidungsfindung auf Urteile in der amerikanischen Strafjustiz auswirkt.

Um verständlich zu machen, worauf es ihr bei dieser „Qualität“ ankommt, erzählt sie eine Geschichte. Damit wird in ihrem Fachbereich immer wieder mal darauf hingewiesen, dass Daten, die man nicht hat, relevanter sein können als Daten, die man hat. „Sich dessen bewusst zu sein, kann über Leben und Tod entscheiden“, sagt Kreuter. In dieser Geschichte steht der 1903 geborene Mathematiker und Statistiker Abraham Wald im Mittelpunkt. Der empfahl Ingenieuren, die im Zweiten Weltkrieg versuchten, Flugzeuge der Alliierten so kampftauglich wie möglich zu machen, ein komplettes Umdenken. Die Ingenieure hatten sich einige Zeitlang angeschaut, an welchen Stellen vom Einsatz zurückgekehrte Flieger Einschusslöcher zu sehen waren und diese Stellen zusätzlich gepanzert. Wald wies darauf hin, dass dahinter ein Denkfehler steckte: Wenn ein Einschuss eine Rückkehr nicht verhindert, hat er offensichtlich keinen allzu zerstörerischen Schaden angerichtet. Also müsse man sich nicht darum kümmern, die getroffene Stelle zu verstärken. Wichtiger sei es, andere Stellen besser zu panzern. Denn offensichtlich wurden ja Flieger, die an jenen Stellen getroffen wurden, durch die entsprechenden Einschüsse zum Absturz gebracht. Diese Einschusslöcher konnte man allerdings nicht untersuchen, weil die Maschinen ja nicht zurückgekehrt waren. „Die wirklich wichtigen Informationen fehlten“, sagt Kreuter.

Mit diesem Beispiel kommentiert die Statistikerin auch eine im vergangenen Jahr verabschiedete Gesetzesregel, die ab dem Jahr 2023 eine „freiwillige Datenspende“ über die elektronische Patientenakte ermöglichen soll: „Wer wirklich krank oder schwer pflegebedürftig ist, denkt nicht auch noch an eine Datenspende. So erhält man viele Daten, aber nicht die, die wir wirklich bräuchten. Weil die interessanten Fälle fehlen.“

Oft muss man die Fragestellungen so präzisieren, dass man nur Daten nutzt, die wirklich hilfreich sind.

Prof. Dr. Frauke Kreuter, Inhaberin des Lehrstuhls für Statistik und Data Science in den Geistes- und Sozialwissenschaften

Training für Algorithmen

Kreuter hat keinen Zweifel, dass sich die enormen Mengen an Daten, die schon seit vielen Jahren an verschiedenen Stellen gesammelt werden, einsetzen lassen, um das Leben der Menschen zu verbessern. Sie will dafür die neuesten Methoden der Künstlichen Intelligenz (KI) nutzen und die Algorithmen mit möglichst guten Daten trainieren. Sie ist sich gleichzeitig der Gefahren bewusst, die ihre Berufsgruppe der Data Scientists mit heraufbeschwört. Wenn sie über Smartphones redet, spricht sie vom „Beobachtungsgerät, das wir alle dauernd mit uns herumtragen“. Gerade am Umgang mit dem Smartphone lässt sich ihrer Ansicht nach gut zeigen, wo die großen Chancen der Data Science liegen. Und wo die Risiken.

Eine Chance sieht Kreuter etwa darin, genauer zu erforschen, wie sich das Leben von Menschen verändert, wenn sie ihren Arbeitsplatz verlieren. Mit Kolleginnen und Kollegen vom Institut für Arbeitsmarkt und Berufsforschung der Bundesagentur für Arbeit hat sie eine App entwickelt, die an eine Untersuchung aus den frühen 1930er Jahren anknüpft: die Marienthal-Studie. Diese gehört zu den Klassikern der soziologischen Forschung. Damals hat eine Wissenschaftlergruppe im österreichischen Ort Marienthal mit umfangreichen Befragungen und Beobachtungen erkundet, wie sich die Schließung einer Fabrik, dem wichtigsten Arbeitgeber, auf das soziale Gefüge und die einzelnen Menschen auswirkte.

Mit einer von ihnen entwickelten Smartphone-App verfolgen Kreuter und ihr Team dasselbe Ziel. So können Studienteilnehmer eingeben, welche Angebote etwa der Berufsberatung sie in Anspruch genommen haben. Mit einer entsprechenden Freigabe zeichnet die App aber auch auf, wie sich die Menschen bewegen, ob sie nach dem Verlust des Arbeitsplatzes ihren Bewegungsradius verkleinern oder ausdehnen, ob sie soziale Kontakte einschränken oder vertiefen. Und welche Apps am Smartphone sie nutzen.

„Einstweilen wird es Mittag“, schrieb einer der Befragten der Marienthal-Studie Anfang der 1930er Jahre als Antwort auf die Frage, wie er den Vormittag verbringt. Dieser Satz sei in der Soziologie zum Inbegriff einer entleerten Tagesstruktur Arbeitsloser geworden, erklärt Kreuter. Eine Strukturlosigkeit, die wiederum die Chancen verringert, einen Arbeitsplatz zu finden. Um dieses im Fachjargon „Employability“ genannte Phänomen zu erforschen, biete sich eine Smartphone-App an, „als kleiner Forscher, der im Telefon sitzt und Verhaltensdaten aufzeichnet.“

Signale im Datenrauschen

Porgrammcode ist siluettenhaft vor technischem Hintergrund zu sehen. — Künstliche Intelligenz hiflt, große Datenmengen sinnvoll auszuwerten. | © monsitj/fotolia

Das Projekt sei aber auch ein gutes Beispiel dafür, dass die Auswertung großer Datenmengen niemals trivial sei, sagt Kreuter: Es entstehe ein „Daten-Tsunami“, wenn man ein halbes Jahr lang so viele Informationen vom Smartphone abzieht. Auch die inzwischen hervorragenden Möglichkeiten, mithilfe Künstlicher Intelligenz im Daten-Tsunami nach Verwertbarem zu fischen, könnten dabei an einem nichts ändern, sagt sie: „Man hat wenig Signal in dem ganzen Rauschen.“ Noch mehr Daten zu erheben, sei deswegen nicht immer die richtige Antwort: „Oft muss man die Fragestellungen so präzisieren, dass man nur Daten nutzt, die wirklich hilfreich sind.“ Und genau dabei können die Algorithmen ein nützliches Instrument sein. KI sei so gesehen auch nur Mathematik und Statistik, meint Kreuter. „Wir müssen das einfach ausprobieren.“

Ihr Wunsch ist dabei eine „evidenzbasierte Politik“. In der Gesundheitsversorgung ist es inzwischen eine Selbstverständlichkeit, dass für Behandlungsmethoden die Wirksamkeit nachgewiesen werden sollte. Nach dem Konzept der evidenzbasierten Medizin wird mit verschiedenen Gruppen getestet, ob etwa ein Wirkstoff sein Ziel erreicht: Eine Gruppe, die den Wirkstoff erhält, wird mit einer Gruppe verglichen, die ein wirkstoff-freies Placebo bekommt. Gegebenenfalls wird auch ein Vergleich gezogen zu einer Gruppe, die weder den Wirkstoff noch ein Placebo zu sich nimmt. Ähnliche Datenerhebungen seien auch etwa zu sozialpolitischen Fragestellungen gut möglich, sagt Kreuter. Als Beispiel nennt sie ein bedingungsloses Grundeinkommen oder andere Formen der Grundsicherung.

Entsprechend sieht die Forscherin in der Vergabe des Nobelpreises für Wirtschaftswissenschaften im Jahr 2019 ein wichtiges Signal. Er ging an die in den USA tätige Forschergruppe von Esther Duflo, Abhijit Banerjee und Michael Kremer. Sie setzen auf ein Forschungsdesign, das aus der evidenzbasierten Medizin stammt: randomisierte kontrollierte Studien, bei denen Gruppen mit einer, statistisch gesehen, vergleichbaren Zusammensetzung gebildet werden „Sie haben sich experimentell damit befasst, was in der Entwicklungshilfe funktioniert“, erklärt Kreuter deren Ansatz. Konkret haben die Nobelpreis-Träger verschiedene Gruppen von Eltern in Indien verglichen, die zu Impfungen ihrer Kinder motiviert werden sollten. Den einen wurde angekündigt, dass sie bei der Impfung auch ein Kilo Linsen erhalten würden, die anderen bekamen keinen solchen Anreiz. Die Daten zeigten: Die Impfquote konnte durch die Abgabe von Linsenrationen deutlich gesteigert werden. Eine klare Aussage.

Manchmal müssten Forschende aber auch gar nicht selbst eingreifen, um bestimmte Fragestellungen zu erforschen, ergänzt Frauke Kreuter. Die diesjährigen Nobelpreisträger David Card, Joshua Angrist und Guido Imbens etwa erforschen sogenannte natürliche Experimente. So nutzten sie zum Beispiel Daten von Schülern in den USA, um den Zusammenhang von Bildung und Einkommen zu untersuchen. Kinder werden dort alle zum selben Tag eines Jahres eingeschult, können aber oft schon abgehen, wenn sie 16 werden. Aus der Tatsache, dass sie also je nach ihrem Geburtsdatum unterschiedlich lange zur Schule gehen, konnten sie ein Berechnungsverfahren dafür ermitteln, was ein zusätzliches Jahr Schule für den späteren Verdienst ausmacht.

© Stephan Rumpf/SZ-Photo/Picture Alliance

Freischankflächen auf der Straße, Glockenbachviertel, München. Mehr Sicherheit und mehr normales Leben soll auch die Corona-Warn-App ermöglichen, die erfunden wurde, um das Infektionsrisiko zu senken. Doch manche Menschen sind skeptisch, was dabei mit ihren sensiblen Gesundheitsdaten passiert. Frauke Kreuter versichert: „Die ist vom Datenschutz fantastisch.“

Neue Erkenntnisse dank Datenverknüpfung

Beim Erheben und Auswerten von Daten mit guter Qualität habe es in den vergangenen Jahren viele Fortschritte gegeben, sagt Kreuter. Mit Kopfschütteln sieht sie allerdings auch die immer größere Zahl von Befragungen, die nur auf den ersten Blick etwas mit sozialen oder politischen Fragestellungen zu tun haben. Überschriften nach dem Muster „Mehrheit der Deutschen befürwortet Sanktionen bei Hartz-IV-Verstößen“ lösen bei ihr Skepsis aus: „Viele Befragungen sind nichts als Infotainment.“ Man müsse schon genau hinschauen um festzustellen, ob die Erhebung auch tatsächlich so durchgeführt wurde, dass die Aussage belastbar ist.

Gleichzeitig ist Frauke Kreuter sicher, dass sich viele relevante Erkenntnisse auch gewinnen ließen, ohne neue Daten zu erheben. Bereits zur Verfügung stehende Daten besser zu verknüpfen und miteinander in Beziehung zu setzen, könnte in vielen Bereichen mit wenig Aufwand einen großen Erkenntnisgewinn stiften.

Kreuter weiß, dass solche Ideen bei vielen Menschen auf Ablehnung stoßen. Eine einzelne und abschließende Lösung für das Problem, wie sich die Privatsphäre der Menschen schützen lässt, gebe es aber nicht. Keine Lösung sei es, „das auf jeden einzelnen abzuwälzen, und zu sagen: Entscheide Du!“. Damit meint sie die Regeln der Datenschutz-Grundverordnung, die dafür sorgen, dass Internet-Nutzer laufend mit Einblendungen konfrontiert werden, auf denen sie bestimmte Formen der Datennutzung akzeptieren oder ablehnen sollen.

Ein besserer Weg, um mit dem Bedürfnis nach Privatheit richtig umzugehen, sei ein Prinzip, das die US-Informationswissenschaftlerin Helen Nissenbaum mit dem Begriff Contextual Integrity beschreibt, sagt Kreuter. Es geht also um die Frage, in welchem Kontext die Nutzung und Weitergabe von Daten angemessen ist. Ein Beispiel: „Wenn Sie am Eingang eines Clubs dem Türsteher Ihren Ausweis zeigen müssen, damit er sehen kann, ob Sie volljährig sind, dann sind wir uns einig: Das ist okay. Wenn der Mann auf Ihre Adresse schaut, sich die merkt, und nachts vor Ihrer Tür steht, ist es nicht okay.“ Auf die Frage, ob die Contextual Integrity nicht ihrem Werben für die Verknüpfung von Datensätzen widerspricht, verweist Kreuter auf die vielfältigen Möglichkeiten, Daten zu anonymisieren. Allerdings habe sie in ihren Forschungen auch die Erfahrung gemacht, dass immer subjektive Einzelfallentscheidungen eine große Rolle dabei spielen, wie Menschen mit ihren Daten umgehen.

So zeigte eine Studie zur Weitergabe medizinischer Daten, die sie mit Kollegen vor und nach Ausbruch der Coronapandemie erstellt hat: Einerseits sind die Deutschen sehr zögerlich, Gesundheitsdaten an öffentliche Einrichtungen zu geben. Weit eher sind sie bereit, Gesundheitsdaten an private Firmen zum Beispiel mit einer Smartwatch zu übermitteln, vor allem wenn ihnen im Gegenzug Unterstützung zu Gesundheitsthemen angeboten werden. Auch die Skepsis vieler Bürger zur Sicherheit der Daten, die über die Corona-Warn-App des Robert-Koch-Instituts gesammelt werden, sei mit rationalen Motiven eigentlich nicht zu erklären. „Die ist vom Datenschutz fantastisch.“ Aber als gelernte Soziologin weiß sie, dass menschliches Verhalten nicht durchgängig rational ist.

In welchem Kontext ist die Nutzung und Weitergabe von Daten angemessen? Wenn Sie dem Türsteher vor dem Club ihren Ausweis zeigen müssen, damit er sehen kann, ob Sie volljährig sind, dann ist das okay. Wenn der Mann auf Ihre Adresse schaut, sich die merkt, und nachts vor Ihrer Tür steht, nicht.

Frauke Kreuter

Was nicht der Urteilsfindung dient

Auch sie selbst reagiert auf manche Entwicklungen, die mit ihrem wissenschaftlichen Fachbereich zu tun haben, erst einmal emotional. Wenn sie sich ansieht, wie etwa in den USA Gerichte sich vom Automated Decision Making (ADM) Unterstützung bei der Urteilsfindung holen, laufe es ihr ein bisschen kalt den Rücken herunter, erzählt sie. Die Grundidee dahinter: Eine Richterin hat beispielsweise einen 38-jährigen Angeklagten vor sich, dem schwerer Raub vorgeworfen wird, und der bereits zwei Dutzend Einträge wegen des gleichen Verbrechens oder ähnlicher Vergehen in seinem Strafregister hat. Das ADM-Instrument nutzt Techniken der Künstlichen Intelligenz, um – auf entsprechende Algorithmen gestützt – die Richterin darauf hinzuweisen, wie Berufskollegen in vergleichbaren Fällen geurteilt haben. „Da besteht ganz klar die Gefahr eines Confirmation Bias“, sagt Kreuter – dass also die Richterin unbewusst in die Richtung gelenkt wird, mit ihrem Urteil stets ein ähnliches Strafmaß wie in vorangegangenen Urteilen zu verhängen. Was also zunächst gedacht ist, Rechtsprechung zu vereinheitlichen und damit Entscheidungen fairer zu machen, kann also unbeabsichtigte Konsequenzen haben.

Solche Verzerrungen können allein schon dadurch zustandekommen, dass Algorithmen aus historischen Daten lernen, der Rechner also mit älteren Trainingsbeispielen gefüttert werden. Das kann dazu führen, dass die KI nicht auf neuesten Stand ist, was gesellschaftliche Entwicklungen angeht – in manchen Fällen eine Quelle verletzter Fairness. Wenn etwa Onlinemedien Anzeigen automatisch an das Leserprofil angepasst schalten, kann dies im Fall von Stellenanzeigen zum Beispiel zu handfesten Benachteiligungen führen. „Da bekommen Frauen womöglich systematisch weniger Angebote für bestimmte Tätigkeiten zu sehen – allein deshalb, weil solche Jobs von Frauen insgesamt in den Stellenbörsen in der Vergangenheit weniger geklickt wurden“, erläutert Kreuter.

Um Diskussionen über solche Fragen zu beleben, und damit möglichst große Teile der Gesellschaft von den Erkenntnissen der Data Science profitieren zu können, hat Kreuter gemeinsam mit anderen Forscherinnen und Forschern in den USA die Coleridge Initiative gestartet. An Aktivitäten der Initiative, die nach dem englischen Lyriker Samuel Taylor Coleridge benannt ist, beteiligen sich inzwischen 15 US-Bundesstaaten und zwölf amerikanische Universitäten. Doch auch nicht-amerikanische Institutionen wie das GESIS Leibniz Institut für Sozialwissenschaften aus Mannheim oder das Beratungsunternehmen Capgemini sind mit dabei. Ziel sei es, Regierungen dabei zu unterstützen, Datenbestände bei ihrer Entscheidungsfindung effizienter einzusetzen, erklärt die nicht gewinnorientierte Organisation in ihrer Selbstbeschreibung.

An Daten herrsche oft kein Mangel, sagt Frauke Kreuter – so wie der Seemann, den Coleridge die Worte sagen ließ „Water, water everywhere“, keinen Mangel an Wasser hatte. Der Seemann blieb aber darin gefangen, dass er das Salzwasser nicht nutzen konnte, das ihn umgab. Frauke Kreuter will sich nicht damit abfinden, dass es oft schier unmöglich scheint, die Datenmassen der modernen Welt für Entscheidungen zu nutzen, die dem Gemeinwohl dienen. Sie will das ändern.

Text: Nikolaus Nützel

Porträt von Frauke Kreuter, Professorin für Statistik und Data Science in den Sozial- und Humanwissenschaften an der LMU — © Fotostudio klassisch-modern

Prof. Dr. Frauke Kreuter ist Inhaberin des Lehrstuhls für Statistik und Data Science in den Sozial- und Geisteswissenschaften an der LMU. Kreuter studierte Soziologie an der Universität Mannheim. Promoviert wurde sie an der Universität Konstanz, bevor sie als Postdoc an das Department of Statistics der University of California at Los Angeles (UCLA), USA, ging. Nach Stationen an der University of Maryland, College Park und der University of Michigan in Ann Arbor, USA, war sie bereits zwischen 2010 und 2014 Statistik-Professorin an der LMU mit dem Auftrag die Arbeitsgruppe Statistische Methoden am Institut für Arbeitsmarkt- und Berufsforschung in Nürnberg zu leiten, bevor sie an die Universität Mannheim wechselte. 2020 kam sie nach Forschungsaufenthalten bei Facebook, in Stanford und der University of California, Berkeley zurück an die LMU. Sie ist außerdem Co-Direktorin des Social Data Science Center und Fakultätsmitglied im Joint Program in Survey Methodology an der University of Maryland und Co-Direktorin des Mannheim Data Science Centers.

Die Datenschatzsucherin

Training für Algorithmen

Signale im Datenrauschen

Neue Erkenntnisse dank Datenverknüpfung

Was nicht der Urteilsfindung dient

Wonach suchen Sie?