Modul 08
2. Von Daten zu fachlichem Wissen
2.3. Datenbereinigung
Eine Datenbereinigung wird nötig, falls die vorliegenden Datensätze ungültige (z. B. Auslesefehler von Daten eines Sensors oder Werte außerhalb des definierten/zulässigen Wertebereichs), falsche (z. B. erkennbare Messfehler) oder ungeeignet formatierte Daten (z. B. Datumsangaben als Klartext oder im falschen Format) enthalten, die gefiltert und/oder korrigiert werden müssen.
Hilfreich ist es, sich zu Beginn einen Überblick über die vorhandenen Daten zu schaffen.
Da alle Werte einer Spalte üblichwerweise vom selben Datentyp sind, könnten wir dazu beispielsweise Maximum, Minimum und den Mittelwert der Spalte ansehen. In Snap! könnte das Beispielsweise so aussehen.
Hätten wir etwa falsche Koordinaten in unserem Datensatz, die sich bspw. auf andere Londoner Stadtviertel beziehen, könnte das unser Ergebnis verfälschen.