かけだしデータサイエンティストの日報

最近勉強したデータサイエンティスト的な話題のブログです。

Python で始めるベイズ機械学習入門(3章)

ch3 3章の内容は回帰問題についてベイズ的にモデルを作成する話。 3.1~3.5 までは具体的なモデルを設定する方法(線形回帰、一般化線形回帰のベイズ推定) 3.6~3.7 まではガウス過程回帰をもちいてモデルを仮定しない方法 を取っている。 3.1~3.5(線形回帰、一…

Kaggle スタートブック~2章(4)

範囲:2.7章(p89~p94) やったこと 交差検証におけるデータ分割 データ分割間で正例の割合が異なっているのでそこを整える必要がある。StratifiedKFoldを行う。 均等でない場合 y=1 を重視したり逆に軽視したりする。更に注意するべき点として データが時系列(…

決算書の読み方(1)

不定期ですが決算書の読み方の勉強を始めようと思います。 最近話題のColabo の不正会計疑惑について興味を持ったから 会社の株式投資などにも興味があるから 勉強は基本的に https://www.kessansho.com/ を読み進めて気が向いたらどこかの会社(多分自社)…

Kaggle スタートブック~2章(3)

範囲:2.6章(p89~p94)やったこと Optuna によるハイパーパラメータチューニング 疑問点 verbose_eval = 10 に設定しているのに[Warning] No further splits with positive gain, best gain: -infの警告がでるがどうやって消すのかが不明。 総括 ハイパーパラ…

Kaggle スタートブック~2章(2)

範囲:2.3章(p53)~2.5章(p88)やったこと Pandas Profiling によるデータ外観 各種の特徴量 VS 正解ラベルのヒストグラム作成 再現性を保つために、乱数を使う場面では seed を固定する. - seed を固定するための関数を定義 可視化→仮説→特徴量作成→submit →可…

Kaggle スタートブック~2章(1)

開始:2章(p41 ~ p58) やったこと とりあえず submit 注意 p41の「Kaggle上にアップロードしている2.1接のサンプルコードを開き, copy and Edit してください」の指示内容の意味が取りづらい。これは筆者がKaggle 上にアップロードしている Notebook のことで…

Kaggle スタートブック~1章

開始:1章(p1 ~ p37)やったことアカウント作成 Titanic への登録 Notebook の作成Kaggle のポイントKaggleでは企業がデータセットと賞金を提供しており、コンペで勝利するとお金がもらえる。 成績上位チームには金銀銅のメダルが贈呈される。メダルについて一…

はじめに

とりあえずKaggleについて勉強したことについて日記的に記載している。 その他わからな方内容について調べたことの記述する予定。