qnqn雑記

個人の学習ログの域は超えておりませんので間違っている可能性があり確かな情報を求められる場合は専門書等々に当たってください。体系的な情報については管理者ホームページへ(https://qnqn1927.github.io/)

kaggle - Intermediate Machine Learning Lesson 2

Missing Values

3つのアプローチがある

  • A Simple Option: Drop Columns with Missing Values(欠損値を含む列の除去)
    • 欠損値がある列の値を消す
    • 当該列の値の大半が欠損値であれば特に問題がないが、そうでなければ、重要な情報まで取り除いてしまう可能性が高い
  • A Better Option: Imputation(インピュテーション)
    • インピュテーション。統計学において欠損値を別の値で補うことを指す。
    • 今回のレッスンでは当該列の平均値で補っている
  • An Extension To Imputation(インピュテーションの拡張)
    • インピュートされた値は実際の値より上振れたり下振れたりしている可能性がある
    • どの値が元々欠損していたかの目印となる列を追加することで、モデルがより良い予測を行える可能性がある
    • 結果が大きく改善される場合もあれば、全く役立たない場合もある