かけだしデータサイエンティストの日報

最近勉強したデータサイエンティスト的な話題のブログです。

Kaggle スタートブック~2章(1)

開始:2章(p41 ~ p58)
やったこと

  • とりあえず submit

注意
p41の「Kaggle上にアップロードしている2.1接のサンプルコードを開き, copy and Edit してください」の指示内容の意味が取りづらい。これは筆者がKaggle 上にアップロードしている Notebook のことである。
www.kaggle.com
このリンク先のページは筆者が 2.1 章のためにアップロードしている Notebook である。Kaggleでは 他人が公開している Notebook をコピペして再利用することができる。
qiita.com

またOutputタグからsubmission.csv というファイルが現れるには少し時間がかかる。

Submit to competitionのタグを開くと LATEST SCORE と BEST SCORE の下にV1や V2というリンクがあるが、これをクリックすると submission.csv を開くことができ 図2.3 と同じ画面を見ることができる。Data のページから Submit ができる。

欠損値について
欠損値は欠損値そのもであることに意味が存在していることもあるので無闇矢鱈に埋めることが得策であるとは限らない

  • 欠損値としてそのまま扱う
  • 代表値による補完
  • 他の特徴量から欠損値を予測して保管する(←無駄な予測を挟むので僕はあまり好きじゃない)
  • 欠損値であったかどうかをフラグとして新たに特徴量を作る

train test の結合は特徴量の加工を行うことで一括で処理することができて便利である