Modul 08: Big Data

3. Big Data

3.1. Big Data

Muster in riesigen Datenmengen zu finden, kann unglaublich wertvoll sein – für die Gewinnung wissenschaftlicher Erkenntnisse genauso wie für die Festsetzung von Preisen, das Generieren von Kaufempfehlungen oder die Aufdeckung verdächtiger Aktivitäten.

Nicht umsonst setzen viele Unternehmen und Wirtschaftszweige auf "Big Data". Was aber bedeutet "Big Data"? Wie groß müssen Daten sein, um als "Big Data" bezeichnet werden zu dürfen?

Eine klare Grenze kann man hier nicht ziehen. Um aber eine Vorstellung davon zu vermitteln, wie groß Daten für "Big Data" nun sein müssen, wird meist das 3V-Modell von Gartner (das sind die mit dem Hypecycle) herangezogen. Im 3V-Modell bezieht sich die Größe (das "Big") auf drei Dimensionen.

Volume (Ansteigendes Volumen)

Volumen bezieht sich auf die stetig steigende Menge an Daten.

In Modul 00 haben wir uns bereits angesehen, wie unglaublich viele Daten in nur wenigen Sekunden in sozialen Netzwerken generiert werden: Jeder Videoupload oder jeder Tweet, aber auch jeder Klick und jeder Einkauf erzeugt Daten. Was dabei für Datenberge entstehen, zeigt diese Grafik. In nur 30 Sekunden entstehen beispielsweise über 500.000 Gigabyte an Daten.

Variety (zunehmende Vielfalt)

Die zunehmende Vielfalt bezieht sich auf die vielen verschiedenen Arten von Daten (Bilder, E-Mails, Tonaufnahmen, Banktransaktionen, Tracking-Daten), die erzeugt, gespeichert und verarbeitet werden.
Diese Vielfalt ist eine der großen Herausforderungen bei "Big Data". Neben sogenannten strukturierten Daten, die wir vorhin bereits verwendet haben, werden immer öfter auch unstrukturiert oder teilstrukturiert vorliegende Daten verwendet.

Könnten Daten auch strukturiert in Tabellen abgelegt werden, sprechen wir von strukturierten Daten. Beispiele für strukturierte Daten sind die Daten von John Snow, die wir im letzten Kapitel verwendet haben, oder die Kundenstammdaten eines Online-Shops. Solche Daten haben den Vorteil, dass Verwaltung und Zugriff effizient möglich sind (Wir wollen alle Vornamen unserer Kunden? Kein Problem!).
Mit dem Begriff unstrukturierte Daten bezeichnen wir digitalisierte Informationen, die eben nicht in einer solchen formalisierten Struktur vorliegen. Das können Bilder, digitale Texte, Tonaufnahmen, aber auch die kontinuierlich anfallenden Daten eines Sensors sein.
Teilstrukturierte Daten (auch: semistrukturierte Daten) stellen eine Mischform aus strukturierten und unstrukturierten Daten dar. In einer E-Mail beispielsweise finden sich einige strukturierte Daten (Absender, Adressat, Uhrzeit, Betreff). Der Rumpf der Nachricht besteht aus beliebigem Text, Bildern oder sonstigen Dateianhängen und ist damit unstrukturiert.

Der Anteil unstrukturierter Daten an der Gesamtdatenmenge liegt laut IBM übrigens bei circa 80%.

Velocity (ansteigende Geschwindigkeit)

Die zunehmende Geschwindigkeit hat zwei Dimensionen. Zum einen nimmt die Geschwindigkeit, mit der die Daten erzeugt werden, stetig zu (siehe auch Volumen). Zum anderen nimmt dadurch auch die notwendige Verarbeitungsgeschwindigkeit zu.

Oft muss diese Verarbeitung sogar in Echtzeit (also nahezu simultan mit den realen Ereignissen oder zumindest mit möglichlist geringer Verzögerung) erfolgen, was bei der schieren Menge an erzeugten Daten keine leichte Aufgabe ist. Wenn Sie beim Onlineshopping mit Ihrer Kredtikarte bezahlen, wird nicht nur geprüft, ob die eingegebene Kreditkartennummer bei Ihrer Bank registriert ist. Es wird auch geprüft, ob Sie Ihr Kreditkartenlimit einhalten, ob die Zahlung verdächtig aussieht, usw. Erst, wenn alle Prüfungen erfolgreich sind, wird eine Zahlung an den Händler angestoßen. Und das alles darf natürlich nur wenige Sekunden in Anspruch nehmen. Ähnlich sollte ein Frühwarnsystem für Erdbeben bereits bei ersten Signalen Warnungen geben können und nicht erst einige Stunden auf die Auswertung der Daten warten müssen.