かけだしデータサイエンティストの日報

最近勉強したデータサイエンティスト的な話題のブログです。

Kaggle スタートブック~2章(2)

範囲:2.3章(p53)~2.5章(p88)

やったこと

  • Pandas Profiling によるデータ外観
  • 各種の特徴量 VS 正解ラベルのヒストグラム作成
  • 再現性を保つために、乱数を使う場面では seed を固定する.

- seed を固定するための関数を定義

  • 可視化→仮説→特徴量作成→submit →可視化 の繰り返し
  • LightGBM を使う

- LightGBM では Early stopping を利用するために Validation data を作成する。


総括

  • 可視化は大事
  • 仮説が思いつくかどうかが結局の所勝負
  • 仮説はデータの意味内容の理解から重要