Statistics 240 Course Notes
7.3 Data Challenges
elk van de variabelen opgenomen als vrije tekst.Dezelfde informatie kan zeer verschillend worden uitgedrukt in verschillende observaties, afhankelijk van wie de opname deed.Bijvoorbeeld, ontbrekende gegevens kunnen leeg worden gelaten en gelezen door R als NA.Maar tekst zoals “n / a”, “N/a”, “None”, “N/A” of anderen betekenen hetzelfde.Ook zijn er veel alternatieve manieren waarop de politie informatie kan invoeren over het geslacht, ras of leeftijd van slachtoffers, verdachten en mensen die zijn gearresteerd.,Voorbeelden zijn: “15-jarige man”, “volwassen man”, “M/B 18 jaar oud”, “2 mannen, beide 20 jaar oud 1 Vrouw, 19 jaar oud”, “twee blanke vrouwen, 18-20 jaar oud”, en vele anderen.Sommige personen worden geïdentificeerd door naam en geslacht kan worden afgeleid.
Dit gebrek aan een universeel middel om de gegevens vast te leggen is over het algemeen geen probleem voor een intelligente menselijke lezer die probeert gegevens van een klein aantal incidenten te lezen,maar vormt een belangrijke uitdaging wanneer hij probeert beknopte informatie uit de gehele gegevensverzameling te halen.,Naast dezelfde informatie die op vele manieren wordt opgeslagen, is een andere uitdaging dat er duidelijke fouten zijn in datums, hoofdletters en andere variabelen.Waarden uit case numbers en andere variabelen voor dezelfde waarneming of andere waarnemingen in de buurt van in de gegevensverzameling kunnen nuttig zijn om fouten te corrigeren aangezien de incidenten zijn, min of meer, in volgorde van de tijd.