Articles

統計240コースノート

7.3データ課題

フリーテキストとして記録された変数のそれぞれ。同じ情報は、記録を行っていた人に応じて、異なる観察で非常に異なって表現されることがあります。たとえば、欠損データは空白のままにして、RでNAとして読み込むことができます。しかし、”n/a”、”N/a”、”None”、”N/A”などのテキストは同じことを意味します。同様に、警察が被害者、容疑者、および逮捕された人々の性別、人種、または年齢に関する情報を入力する可能性のある多くの代替方法があります。,例としては、”15歳の男性”、”成人男性”、”M/B18歳”、”2人の男性、両方20歳の女性1人、19歳”、”二人の白い女性、18-20歳”などがあります。いくつかの個人は名前で識別され、性別が推測される可能性があります。

データを記録する普遍的な手段の欠如は、一般に、少数のインシデントからデータを読み取ろうとする知的な人間の読者にとっては問題ではありませんが、データセット全体から要約情報を抽出しようとするときには大きな課題となります。,同じ情報が多くの方法で格納されることに加えて、さらなる課題は、日付、ケース番号、およびその他の変数に明らかなエラーがあることです。データセット内の同じ観測値またはその他の観測値に対するケース番号およびその他の変数からの値は、インシデントが多かれ少なかれ時間順にあるため、エラーを修正するのに役立ちます。