Articles

Statistikk 240 kursmateriell


7.3 Data Utfordringer

Hver av variablene registrert som fri tekst.Den samme informasjonen kan uttrykkes forskjellig i ulike observasjoner, avhengig av hvem som gjorde opptaket.For eksempel, mangler data som kan være blank og lese i av R som NA.Men tekst som for eksempel «n/a», «N/a», «Ingen», «N/A» eller andre som mener det samme.På samme måte er det mange alternative måter at politiet kan legge inn informasjon om kjønn, rase eller alder av ofre, mistenkte og personer arrestert.,Eksempler på dette er: «15-år gammel mannlig», «voksen mann», «M/B 18 år gammel», «2 menn, begge 20 år, 1 kvinne, 19 år gammel», «To hvite kvinner, 18-20 år», og mange andre.Noen individer er identifisert ved navn og kjønn kan utledes av disse.

Denne mangelen av en universal middel til å registrere data er generelt ikke et problem for et intelligent menneske leser prøver å lese data fra et lite antall hendelser,men presenterer en betydelig utfordring når du prøver å trekke ut sammendrag informasjon fra hele datasettet.,I tillegg til den samme informasjonen blir lagret på mange måter,en ytterligere utfordring er at det er noen åpenbare feil i datoer,sak nummer, og i andre variabler.Verdier fra sak tall og andre variabler for den samme observasjon eller andre observasjoner i nærheten av i datasettet som kan være nyttig for å rette errorsas hendelsene er, mer eller mindre, for tid.