Statistika 240 kurz Notes
7.3 datové výzvy
každá z proměnných zaznamenaných jako volný text.Stejné informace mohou být vyjádřeny velmi odlišně v různých pozorováních, v závislosti na tom, kdo nahrával.Například chybějící údaje by mohly být ponechány prázdné a číst v R jako NA.Ale text jako „n / A“, „N/a“, „None“, „N/a“ nebo jiné znamenají totéž.Podobně, existuje mnoho alternativních způsobů, jak by policie mohla zadávat informace o pohlaví, rasa, nebo věk obětí, podezřelí, a lidé zatčeni.,Příklady zahrnují: „15-letý muž“, „dospělý muž“, „M/B 18 let“, „2 samci, oba 20 let, 1 žena, 19 let“, „Dvě bílé ženy, 18-20 let věku“, a mnoho dalších.Někteří jedinci jsou identifikováni podle jména a sex může být odvozen.
Tento nedostatek univerzální prostředek k záznamu dat je obecně není problém pro inteligentní lidské čtenáře, snaží číst data z malého počtu incidentů,ale představuje významnou výzvu, když se snaží získat souhrnné informace z celé datové sady.,Kromě stejné informace jsou uloženy v mnoha ohledech,další výzvou je, že tam jsou některé zjevné chyby v datech, čísla případů, a v jiných proměnných.Hodnoty z čísla případu a dalších proměnných pro stejné pozorování nebo další připomínky v blízkosti tím, že v souboru dat, může být užitečné pro správnou errorsas incidenty jsou, více či méně, v řádu času.