Articles

Statistică 240 curs Note


7.3 provocări de date

fiecare dintre variabilele înregistrate ca text liber.Aceleași informații pot fi exprimate foarte diferit în diferite observații, în funcție de cine a făcut înregistrarea.De exemplu, datele lipsă ar putea fi lăsate necompletate și citite de R Ca NA.Dar text precum „n/a”, „N/a”, „Nici unul”, „N/A” sau altele înseamnă același lucru.În mod similar, există multe modalități alternative prin care poliția ar putea introduce informații despre sexul, rasa sau vârsta victimelor, suspecților și persoanelor arestate.,Exemplele includ:” bărbat de 15 ani”,” bărbat adult”,” M/B 18 ani”,” 2 bărbați, ambii 20 de ani 1 femeie, 19 ani”,” două femei albe, 18-20 de ani ” și multe altele.Unele persoane sunt identificate prin nume și sex ar putea fi dedusă.această lipsă a unui mijloc universal de înregistrare a datelor nu este,în general, o problemă pentru un cititor uman inteligent care încearcă să citească date dintr-un număr mic de incidente, dar prezintă o provocare semnificativă atunci când încearcă să extragă informații sumare din întregul set de date.,Pe lângă faptul că aceleași informații sunt stocate în mai multe moduri,o provocare suplimentară este că există unele erori evidente în date,Numere de cazuri și în alte variabile.Valorile din numerele de caz și alte variabile pentru aceeași observație sau alte observații apropiate în setul de date pot fi utile pentru a corecta eroriledeoarece incidentele sunt, mai mult sau mai puțin, în ordinea timpului.