Kaggle スタートブック~2章(4)
範囲:2.7章(p89~p94)
やったこと
- 交差検証におけるデータ分割
- データ分割間で正例の割合が異なっているのでそこを整える必要がある。StratifiedKFoldを行う。
均等でない場合 y=1 を重視したり逆に軽視したりする。更に注意するべき点として
- データが時系列(参考資料:https://www.slideshare.net/ShotaOkubo/neko-kin-96769953)
- データセット内にグループが存在していないか(参考資料:https://speakerdeck.com/iwiwi/kaggle-state-farm-distracted-driver-detection)
総括 データの分割は重要だがデータに依存して毎回分割方法を熟慮する必要がある。
参考ページ 本のサポートページgithub https://github.com/upura/python-kaggle-start-book/blob/master/ch02/ch02_07.ipynb