Articles

Statistik 240 Naturligtvis Noter


7.3 Data Utmaningar

Var och en av de variabler som registreras som fri text.Samma information kan uttryckas mycket annorlunda i olika observationer, beroende på vem som gjorde inspelningen.Till exempel kan saknade data lämnas tomt och läsa in av R som NA.Men text som” n/a”,” n/a”,” None”,” N/A ” eller andra betyder samma sak.På samma sätt finns det många alternativa sätt som polisen kan ange information om kön, ras eller ålder av offer, misstänkta och personer arresterade.,Exempel är: ”15-årig man”, ”vuxen man”, ”m/B 18 år gammal”, ”2 män, både 20 år gammal 1 kvinna, 19 år gammal”, ”två vita kvinnor, 18-20 år” och många andra.Vissa individer identifieras med namn och kön kan härledas.

denna brist på ett universellt sätt att registrera data är i allmänhet inte ett problem för en intelligent mänsklig läsare som försöker läsa data från ett litet antal incidenter,men utgör en stor utmaning när man försöker extrahera sammanfattande information från hela datamängden.,Förutom att samma information lagras på många sätt är en ytterligare utmaning att det finns några uppenbara fel i datum, fallnummer och i andra variabler.Värden från kundcasenummer och andra variabler för samma observation eller andra observationer i närheten av datauppsättningen kan vara användbara för att korrigera felsom incidenterna är mer eller mindre i tidsordning.