Articles

statystyki 240 notatki o kursie


7.3 wyzwania dotyczące danych

każda ze zmiennych zapisana jako dowolny tekst.Te same informacje mogą być wyrażone bardzo różnie w różnych obserwacjach, w zależności od tego, kto robił nagranie.Na przykład brakujące dane mogą być pozostawione puste i odczytywane przez R jako NA.Ale teksty takie jak „n / a”, „N/ a”, „None”,” N/A ” lub inne znaczą to samo.Podobnie, istnieje wiele alternatywnych sposobów, aby policja mogła wprowadzić informacje o płci, rasie lub wieku ofiar, podejrzanych i osób aresztowanych.,Przykłady obejmują: „15-letni mężczyzna”, „dorosły mężczyzna”, „M / B 18 lat” ,” 2 samce, oba 20 lat 1 kobieta, 19 lat”,” dwie białe kobiety, 18-20 lat ” i wiele innych.Niektóre osoby są identyfikowane po imieniu i płci można wywnioskować.

ten brak uniwersalnego sposobu zapisu danych nie jest zazwyczaj problemem dla inteligentnego czytelnika,który próbuje odczytać dane z niewielkiej liczby incydentów, ale stanowi poważne wyzwanie podczas próby wyodrębnienia informacji podsumowującej z całego zbioru danych.,Oprócz tego,że te same informacje są przechowywane na wiele sposobów, kolejnym wyzwaniem jest to,że istnieją pewne oczywiste błędy w datach, numerach spraw i innych zmiennych.Wartości z liczb przypadków i innych zmiennych dla tej samej obserwacji lub innych obserwacji w pobliżu w zbiorze danych mogą być przydatne do korygowania błędów, ponieważ incydenty są mniej więcej w kolejności czasu.