Articles

statistik 240 Course Notes


7.3 dataudfordringer

hver af variablerne registreret som fritekst.De samme oplysninger kan udtrykkes meget forskelligt i forskellige observationer, afhængigt af hvem der lavede optagelsen.For eksempel kan manglende data stå tomme og læses ind af R som NA.Men tekst som” n/A”,” N/A”,” Ingen”,” N/A ” eller andre betyder det samme.Tilsvarende, der er mange alternative måder, hvorpå politiet kan indtaste oplysninger om køn, race, eller alder af ofre, mistænkte, og arresterede mennesker.,Eksempler er: “15 – årig mand”, “voksen mand”,” M/B 18 år gammel”,” 2 mænd, begge 20 år gammel 1 Kvinde, 19 år gammel”,” to hvide kvinder, 18-20 år ” og mange andre.Nogle personer er identificeret ved navn og køn kan udledes.

denne mangel på et universelt middel til at registrere dataene er generelt ikke et problem for en intelligent menneskelig læser,der forsøger at læse data fra et lille antal hændelser, men udgør en betydelig udfordring, når man forsøger at udtrække sammenfattende oplysninger fra hele datasættet.,Ud over de samme oplysninger,der gemmes på mange måder,er en yderligere udfordring, at der er nogle åbenlyse fejl i datoer, sagsnumre og i andre variabler.Værdier fra sagsnumre og andre variabler for den samme observation eller andre observationer i nærheden af i datasættet kan være nyttige til at rette fejl, da hændelserne er mere eller mindre i rækkefølge.