qnqn雑記

個人の学習ログの域は超えておりませんので間違っている可能性があり確かな情報を求められる場合は専門書等々に当たってください。体系的な情報については管理者ホームページへ(https://qnqn1927.github.io/)

Think Stats 2nd edtionの要約

出典:https://greenteapress.com/wp/think-stats-2e/

実験中・・・画像だと重すぎるかなw だけど見やすいしなー。悩む。

f:id:qnqn1927:20210429184200p:plain

Think Stats 2nd edition

1 Exploratory data analysis

1.1 A statistical approach

  • 不確実性のもとでの意思決定

  • 例:第一子の出産は遅れやすい傾向にあるのか?

    • ある人は本当だという

    • 別のある人はその逆だという

    • 事例証拠(anecdotal evidence)

      • 不十分

        • 説得力の高い証拠

        • 信頼性の高い証拠

  • バイアス

    • 観察数が少ない(Small number of observations)

      • 観察数を増やさないことには、誤差にミスリードされてしまう
    • 選択バイアス(Selection bias)

      • この議論に参加する人の傾向として、実際に初産が遅かったから興味を持ったというパターンが多いかもしれない

        • 第一子の出産は遅れやすい傾向にあるのか?→そうそう遅れるよ、私がそうだった!
    • 確証バイアス(Confirmation bias)

      • 主張を信じている人

        • その主張を裏付ける事例を挙げる傾向が強い
      • 主張を信じていない人

        • 反例となる事例を挙げる傾向が強い
    • 不正確さ(Inaccuracy)

      • 事例は個人的な話であることが多い

        • 関連する事柄

          • 記憶違い

          • 表現違い

          • 不正確な繰り返し

  • どうすれば良い?

    • 統計的アプローチを使う

      • データ収集(Data collection)

        • 統計的に妥当な推論を行うことを目的として収集されたデータを使う
      • 記述統計(Descriptive statistics)

        • データの簡潔な要約を作成する

        • データを視覚化する様々な手法を評価する

      • 探索的データ分析(Exploratory data analysis)

        • 興味のある問いに対する「パターン、違い、その他の特徴」を探す

        • 同時に矛盾をチェックし、限界を特定する

      • 推定(Estimation)

        • サンプルから得られたデータを用いて母集団の特徴を推定する
      • 仮説検定(Hypothesis testing)

        • 2群間に差があるなど明らかな効果が見られた場合、その効果が偶然によるものかどうか評価する
    • 統計的アプローチを落とし穴に陥らないように注意して使うことによって、より正当で、正しい可能性の高い結論を得ることができる

1.2 The National Survey of Family Growth

  • NSFG

  • 家族成長に関する全国調査

    • 初産が遅い傾向にあるかどうかを調べるために利用する
  • クロスセクショナル調査(cross-sectional study)

    • ある時点での集団のスナップショットを捉える手法

1.3 Importing the data

1.4 DataFrames

1.5 Variables

1.6 Transformation

1.7 Validation

1.8 Interpretation

1.9 Exercises

1.10 Glossary

2 Distributions

2.1 Histograms
2.2 Representing histograms
2.3 Plotting histograms
2.4 NSFG variables
2.5 Outliers
2.6 First babies
2.7 Summarizing distributions
2.8 Variance
2.9 Effect size
2.10 Reporting results
2.11 Exercises
2.12 Glossary
3 Probability mass functions 3.1 Pmfs
3.2 Plotting PMFs
3.3 Other visualizations
3.4 The class size paradox
3.5 DataFrame indexing
3.6 Exercises
3.7 Glossary