Missing Values
3つのアプローチがある
- A Simple Option: Drop Columns with Missing Values(欠損値を含む列の除去)
- 欠損値がある列の値を消す
- 当該列の値の大半が欠損値であれば特に問題がないが、そうでなければ、重要な情報まで取り除いてしまう可能性が高い
- A Better Option: Imputation(インピュテーション)
- インピュテーション。統計学において欠損値を別の値で補うことを指す。
- 今回のレッスンでは当該列の平均値で補っている
- An Extension To Imputation(インピュテーションの拡張)
- インピュートされた値は実際の値より上振れたり下振れたりしている可能性がある
- どの値が元々欠損していたかの目印となる列を追加することで、モデルがより良い予測を行える可能性がある
- 結果が大きく改善される場合もあれば、全く役立たない場合もある