Kaggle スタートブック~2章(2)
範囲:2.3章(p53)~2.5章(p88)
やったこと
- Pandas Profiling によるデータ外観
- 各種の特徴量 VS 正解ラベルのヒストグラム作成
- 再現性を保つために、乱数を使う場面では seed を固定する.
- seed を固定するための関数を定義
- 可視化→仮説→特徴量作成→submit →可視化 の繰り返し
- LightGBM を使う
- LightGBM では Early stopping を利用するために Validation data を作成する。
総括
- 可視化は大事
- 仮説が思いつくかどうかが結局の所勝負
- 仮説はデータの意味内容の理解から重要