かけだしデータサイエンティストの日報

最近勉強したデータサイエンティスト的な話題のブログです。

2023-01-01から1年間の記事一覧

Python で始めるベイズ機械学習入門(3章)

ch3 3章の内容は回帰問題についてベイズ的にモデルを作成する話。 3.1~3.5 までは具体的なモデルを設定する方法(線形回帰、一般化線形回帰のベイズ推定) 3.6~3.7 まではガウス過程回帰をもちいてモデルを仮定しない方法 を取っている。 3.1~3.5(線形回帰、一…

Kaggle スタートブック~2章(4)

範囲:2.7章(p89~p94) やったこと 交差検証におけるデータ分割 データ分割間で正例の割合が異なっているのでそこを整える必要がある。StratifiedKFoldを行う。 均等でない場合 y=1 を重視したり逆に軽視したりする。更に注意するべき点として データが時系列(…

決算書の読み方(1)

不定期ですが決算書の読み方の勉強を始めようと思います。 最近話題のColabo の不正会計疑惑について興味を持ったから 会社の株式投資などにも興味があるから 勉強は基本的に https://www.kessansho.com/ を読み進めて気が向いたらどこかの会社(多分自社)…

Kaggle スタートブック~2章(3)

範囲:2.6章(p89~p94)やったこと Optuna によるハイパーパラメータチューニング 疑問点 verbose_eval = 10 に設定しているのに[Warning] No further splits with positive gain, best gain: -infの警告がでるがどうやって消すのかが不明。 総括 ハイパーパラ…

Kaggle スタートブック~2章(2)

範囲:2.3章(p53)~2.5章(p88)やったこと Pandas Profiling によるデータ外観 各種の特徴量 VS 正解ラベルのヒストグラム作成 再現性を保つために、乱数を使う場面では seed を固定する. - seed を固定するための関数を定義 可視化→仮説→特徴量作成→submit →可…