Statistics 240 Course Notes (Português)
7.3 Data Challenges
cada uma das variáveis registadas como texto livre.A mesma informação pode ser expressa de forma muito diferente em observações diferentes, dependendo de quem estava fazendo a gravação.Por exemplo, dados em falta podem ser deixados em branco e lidos por R como NA.Mas texto como “N/A”, “N/a”, “Nenhum”, “N/A” ou outros significam a mesma coisa.Da mesma forma, há muitas maneiras alternativas de a polícia entrar em informações sobre o sexo, raça ou idade das vítimas, suspeitos e pessoas presas.,Exemplos incluem: “homem de 15 anos”,” Homem Adulto”,” Homem M/B de 18 anos”,” dois homens, ambos de 20 anos 1 mulher, 19 anos”,” duas mulheres brancas, 18-20 anos de idade”, e muitos outros.Alguns indivíduos são identificados pelo nome e sexo pode ser inferido.
Esta falta de um meio universal para gravar os dados, não é geralmente um problema para o inteligente leitor humano tentando ler dados a partir de um pequeno número de incidentes,mas apresenta um desafio significativo ao tentar extrair informações de resumo de todo o conjunto de dados.,Além da mesma informação sendo armazenada de muitas maneiras,um outro desafio é que existem alguns erros óbvios em datas,números de casos e em outras variáveis.Valores a partir de números de casos e outras variáveis para a mesma observação ou outras observações próximas no conjunto de dados podem ser úteis para corrigir erros como os incidentes são, mais ou menos, em ordem de tempo.