statistiques 240 notes de cours
7.3 défis de données
chacune des variables enregistrées en texte libre.La même information peut être exprimée très différemment dans différentes observations, selon la personne qui faisait l’enregistrement.Par exemple, les données manquantes peuvent être laissées vides et lues par R comme NA.Mais des textes tels que » n / a”, « N/a”, « None”, » N/A » ou d’autres signifient la même chose.De même, il existe de nombreuses autres façons pour la police d’entrer des informations sur le sexe, la race ou l’âge des victimes, des suspects et des personnes arrêtées.,Les exemples incluent: « mâle de 15 ans”, « mâle adulte”, « M/B 18 ans”, « 2 hommes, les deux 20 ans 1 Femme, 19 ans”, « deux femmes blanches, 18-20 ans », et bien d’autres.Certaines personnes sont identifiées par leur nom et leur sexe peut être déduit.
cette absence de moyen universel pour enregistrer les données n’est généralement pas un problème pour un lecteur humain intelligent qui essaie de lire les données d’un petit nombre d’incidents,mais représente un défi important lorsqu’il essaie d’extraire des informations récapitulatives de l’ensemble de données.,En plus de stocker les mêmes informations de plusieurs façons,un autre défi est qu’il existe des erreurs évidentes dans les dates,les numéros de cas et dans d’autres variables.Les valeurs des nombres de cas et d’autres variables pour la même observation ou d’autres observations à proximité dans l’ensemble de données peuvent être utiles pour corriger les erreurs, car les incidents sont, plus ou moins, dans l’ordre du temps.