Articles

Statistics 240 Course Notes (Italiano)


7.3 Sfide di dati

Ciascuna delle variabili registrate come testo libero.Le stesse informazioni possono essere espresse in modo molto diverso in diverse osservazioni, a seconda di chi stava facendo la registrazione.Ad esempio, i dati mancanti potrebbero essere lasciati vuoti e letti da R come NA.Ma testo come “n” a”, “N/a”, “Nessuno”,” N/A ” o altri significano la stessa cosa.Allo stesso modo, ci sono molti modi alternativi in cui la polizia potrebbe inserire informazioni sul sesso, sulla razza o sull’età delle vittime, dei sospetti e delle persone arrestate.,Gli esempi includono: “maschio di 15 anni”,” maschio adulto”,” M/B 18 anni”,” 2 maschi, entrambi 20 anni 1 femmina, 19 anni”,” Due femmine bianche, 18-20 anni ” e molti altri.Alcuni individui sono identificati per nome e sesso potrebbe essere dedotto.

Questa mancanza di un mezzo universale per registrare i dati non è generalmente un problema per un lettore umano intelligente che cerca di leggere i dati da un piccolo numero di incidenti,ma presenta una sfida significativa quando si cerca di estrarre informazioni di riepilogo dall’intero set di dati.,Oltre alle stesse informazioni memorizzate in molti modi,un’ulteriore sfida è che ci sono alcuni errori evidenti nelle date, nei numeri dei casi e in altre variabili.Valori da numeri di caso e altre variabili per la stessa osservazione o altre osservazioni vicine nel set di dati possono essere utili per correggere gli erroricome gli incidenti sono, più o meno, in ordine di tempo.