かけだしデータサイエンティストの日報

最近勉強したデータサイエンティスト的な話題のブログです。

Kaggle スタートブック~2章(2)

範囲:2.3章(p53)~2.5章(p88)

やったこと

Pandas Profiling によるデータ外観
各種の特徴量 VS 正解ラベルのヒストグラム作成
再現性を保つために、乱数を使う場面では seed を固定する.

- seed を固定するための関数を定義

可視化→仮説→特徴量作成→submit →可視化の繰り返し
LightGBM を使う

- LightGBM では Early stopping を利用するために Validation data を作成する。

総括

可視化は大事
仮説が思いつくかどうかが結局の所勝負
仮説はデータの意味内容の理解から重要