Statistik 240 Kursnotizen
7.3 Datenherausforderungen
Jede der als Freitext erfassten Variablen.Die gleichen Informationen können in verschiedenen Beobachtungen sehr unterschiedlich ausgedrückt werden, je nachdem, wer die Aufnahme gemacht hat.Zum Beispiel könnten fehlende Daten leer gelassen und von R als NA eingelesen werden.Aber Text wie „n / a“, „N/a“, „None“, „N/A“ oder andere bedeuten dasselbe.Ebenso gibt es viele alternative Möglichkeiten, wie die Polizei Informationen über das Geschlecht, die Rasse oder das Alter von Opfern, Verdächtigen und verhafteten Personen eingeben kann.,Beispiele sind: „15-jähriger Mann“, „erwachsener Mann“, „M/B 18 Jahre alt“, „2 Männer, beide 20 Jahre alt, 1 Frau, 19 Jahre alt“, „Zwei weiße Frauen, 18-20 Jahre alt“ und viele andere.Einige Personen werden mit Namen identifiziert und Sex könnte abgeleitet werden.
Dieses Fehlen eines universellen Mittels zur Aufzeichnung der Daten ist im Allgemeinen kein Problem für einen intelligenten menschlichen Leser,der versucht, Daten aus einer kleinen Anzahl von Vorfällen zu lesen, stellt jedoch eine erhebliche Herausforderung dar, wenn er versucht, zusammenfassende Informationen aus dem gesamten Datensatz zu extrahieren.,Zusätzlich zu den gleichen Informationen, die auf viele Arten gespeichert werden,besteht eine weitere Herausforderung darin, dass es einige offensichtliche Fehler in Daten, Fallzahlen und anderen Variablen gibt.Werte aus Fallzahlen und anderen Variablen für dieselbe Beobachtung oder andere Beobachtungen in der Nähe des Datensatzes können nützlich sein, um Fehler zu korrigierenals die Vorfälle mehr oder weniger in der Reihenfolge der Zeit sind.