勉強の記録

機械学習、情報処理について勉強した事柄など

機械学習

CounterFactual Machine Learning勉強会 #1 に参加してきた

cfml.connpass.com 元CyberAgentの谷口氏、CyberAgent AILab AdEconチームリーダーの安井氏、CyberAgent AILab AdEconでインターン中の斎藤氏による勉強会。 1. CFMLの概要と研究動向 (谷口和輝氏 (@kazk1018)) 本日のCFML勉強会の発表資料です。https://t.c…

個人因果効果を推測する②

github.com Microsoftによる因果推論ライブラリEconMLのなかの一つのモデル. econml.azurewebsites.net documentのdeep instrumental variablesの項目に簡潔にまとまっている. ひとことで言うと, 操作変数モデルにおいて各stageにNNを使用したモデル メリ…

Microsoft/InterpretMLの中身

一言でいうと ある一つの特徴量のみのdecision treeを作って残差を予測というのをcyclicに加えていくモデル 知ったきっかけ Microsoftが、解釈性が高くかつ精度も高いBoostingのモデル(Explainable Boosting Machine=EBM)をOSSで公開。LIMEやSHAPといった解…

不均衡データを扱うサンプリング以外の方法

不均衡データの扱いは要注意で、盲目的にbinary cross entropy lossなどを採用すると全部正と予測する役に立たないモデルができあがりがちというのは有名な話。 これはlossが全データの和・平均・期待値をとっていることを忘れてしまって、本来最適化したいm…

バリデーションセットのサンプル数

Train / Dev / Test sets - Practical aspects of Deep Learning | Coursera Stack Overflowの海を彷徨っていて、Andrew先生の動画に辿り着いた。やっぱりこのCourseraのコース1回しっかりやるべきか。 訓練用セットと検証用セット、テストセットをどう分割…

時系列データにCross validationするときの注意点

はじめに 論文ではなく、以下の記事から。 towardsdatascience.com splitting a time series without causing data leakage using nested cross-validation to obtain an unbiased estimate of error on an independent test set cross-validation with data…

multi-label learningについてメモ

マルチラベル分類(多ラベル分類)についてメモ。 BERTでNTCIR-18 MedWebを解かせてみた。各データに対して8個のラベルの正負が割り当てられており、それらを予測するタスク。最終的なembeddingから8出力の全結合層→sigmoid functionで8つのラベルを得てcros…