勉強の記録

機械学習、情報処理について勉強した事柄など

不均衡データを扱うサンプリング以外の方法

不均衡データの扱いは要注意で、盲目的にbinary cross entropy lossなどを採用すると全部正と予測する役に立たないモデルができあがりがちというのは有名な話。

これはlossが全データの和・平均・期待値をとっていることを忘れてしまって、本来最適化したいmetricじゃないものを最適化しているから。

towardsdatascience.com 日本語で不均衡データへの対処法を検索するとSMOTEとかADASYNとかのサンプリング方のみ紹介してる記事が多い(私見)が、この記事はきちんとloss functionの見直しが最初に載っていて好印象。

confusion matrixの形でweightを設定する方法も良いらしい。

サンプリング方のみ触れている記事も、書いてる人は分かって書いてるのだろうけど、困って検索してきた人々をmisleadingしてしまいそうでちょっとモヤモヤする笑