Articles

Statistics 240 Course Notes (Español)


7.3 data Challenges

cada una de las variables registradas como texto libre.La misma información puede expresarse de manera muy diferente en diferentes observaciones, dependiendo de quién estaba haciendo la grabación.Por ejemplo, los datos faltantes podrían dejarse en blanco y leerse por R como NA.Pero texto como «n / a», «N/a», «ninguno», «N/A» u otros significan lo mismo.Del mismo modo, hay muchas formas alternativas en que la policía puede ingresar información sobre el sexo, la raza o la edad de las víctimas, los sospechosos y las personas arrestadas.,Los ejemplos incluyen: «hombre de 15 años», «hombre adulto», «M/B 18 años», «2 hombres, ambos 20 años 1 Mujer, 19 años», «dos mujeres blancas, 18-20 años de edad», y muchos otros.Algunos individuos son identificados por su nombre y el sexo podría inferirse.

esta falta de un medio universal para registrar los datos generalmente no es un problema para un lector humano inteligente que intenta leer datos de un pequeño número de incidentes,pero presenta un desafío significativo al tratar de extraer información resumida de todo el conjunto de datos.,Además de que la misma información se almacena de muchas maneras,otro desafío es que hay algunos errores obvios en fechas,números de casos y en otras variables.Los valores de los números de casos y otras variables para la misma observación u otras observaciones cercanas en el conjunto de datos pueden ser útiles para corregir errores como los incidentes son, más o menos, en orden de tiempo.