3. Big Data

3.3. Bias

Die Art und Weise, wie Daten für eine Analyse erfasst werden, hat großen Einfluss auf das Ergebnis der Analyse.
Data Bias

Wenn wir basierend auf den Sensordaten eines intelligenten Kühlschranks untersuchen möchten, wie oft Menschen ihren Kühlschrank öffnen, wen haben Sie dann ausgeschlossen? Wer könnte überrepräsentiert sein? Ein intelligenter Kühlschrank ist (zumindest aktuell) ein Luxusartikel. Deshalb werden vor allem reiche Menschen zu unserer Studie beitragen. Ist diese Gruppe repräsentativ für alle?

Dies ist nur ein dummes Beispiel, aber denken Sie darüber nach, was passiert, wenn wir "Big Data" zur Analyse der Wirksamkeit eines Medikaments einsetzen und unsere Daten nur Männer umfassen. Sollten wir unsere Erkenntnisse dann automatisch auf Frauen übertragen?

Natürlich nicht! Es gibt physiologische Unterschiede zwischen Männern und Frauen. Sie zu einer Gruppe zu verallgemeinern ist schlichtweg falsch. Das ist übrigens ein reales Problem: Bei der Analyse von Gesundheitsdaten wurden in der Vergangenheit häufig Personengruppen benachteiligt, die in den Datenstichproben unterrepräsentiert waren.

Von einem Data Bias (Datenbias) sprechen wir, wenn Daten Verzerrungen aufweisen, nicht repräsentativ sind oder unbewusste Vorurteile widerspiegeln.

Es ist dementsprechend enorm wichtig, aber auch eine große Herausforderung, dass die erfassten Daten auch die Gruppe von Menschen, die untersucht werden soll, genau wiedergibt. Daher sollte man sich über mögliche Verzerrungen in den Daten stets bewusst sein und entsprechende Maßnahmen treffen, diese Verzerrungen zu reduzieren. 

Um einen Eindruck davon zu bekommen, welche Auswirkungen die Perspektive auf die Erhebung von Daten hat, spielen Sie das folgende Spiel!

Algorithmic Bias

Daten können einen ungewollten Bias - Vorurteile, Verzerrungen oder Neigungen - enthalten. Gerade, wenn diese Daten in algorithmischen Entscheidungen (wir erinnern an Modul 05) involviert sind, sollte man deshalb besondere Vorsicht walten lassen. Verzerrungen in Daten führten dazu, dass

  • ein Algorithmus Menschen mit dunkler Hautfarbe als Gorillas identifizierte
  • oder ein intelligentes System zur Auswahl von Bewerbern, Bewerber aussortierte, von denen es annahm, es handle sich um Frauen.  Dies war sogar dann der Fall, wenn die Bewerbung gar kein Geschlecht erwähnte, sich dieses Merkmal aber aus anderen Informationen (etwa der Mitgliedschaft in einem Frauenverein) erschließen ließ.

Unter dem Stichwort Algorithmic Bias werden verschiedene damit verbundene Probleme bzw. Lösungen diskutiert und teilweise auch schon umgesetzt.

Der Abschnitt Bias stellt ein Derivat des unter CC-BY-SA stehenden CS Field Guide Kapitels dar.