勉強の記録

機械学習、情報処理について勉強した事柄など

Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence

Nature関連誌今週のハイライトに載っていて目に止まったので読んだ。 が、なんとなくタイトルは誇大表現な気がする。F1スコアで0.9とか数字上は良い数字が並んでいる。

Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence | Nature Medicine

電子カルテ記録から55疾患の”診断”をしようという研究。受診時につけられた主病名をあてる、というアプローチ。 電子カルテ記録って「〜〜が疑わしい、●を処方した。」などと診断を記載することが多いと思うのだけど、その電子カルテ記録をみて疾患をあてるというのは診断と言ってよいのだろうか。中国のカルテはなにかうまいことそこが分かれているのだろうか。そこが分かれていなければそれは診断ではなく自動annotationである。

NLPモデルとロジスティック回帰モデルの階層構造となっている。

NLPモデル

これは電子カルテ記録から、「咳があるか」「お腹がいたいか」といった特徴量を抽出するためのモデル。 まずは、医師が診断のために聞きたいと思うような質問文からなるSchemaを作成(これが何項目あるのかは明らかにされていない)し、6183個のチャート(chart, は受診1回毎の電子カルテ記録全体のこと??)のうち3564チャートをtrain, 2619チャートをvalidとしてmecab+word2Vec, attention-based LSTMを用いたモデルを構築。概ねF1 scoreで90%超えとのこと。ほんと?

図1にLibrary of guidelines and consensusなんて項目があるのだけど、本文中に一切出てこない…。

LRモデル

上記で構築したNLPモデルを用いて、100万受診規模の電子カルテ記録を解析し構造化されたSchemaを取得。ここから55個の診断コードを当てるために、複数回分岐していくような階層的なLR分類器を各々学習させたよう。文中でAccuracyと何度も出てくるがこれはrecallのことっぽい。

ここはval, trainと記載なし。代わりに別の病院の12000レコードに対して最終的なNLP+LRモデルの結果と、医師による"診断"結果の比較。医師を経験年数別に5グループに分けて、12000レコードからランダム抽出した結果を比較している。一応経験年数が上がるとF1スコアがあがったとなっているので、それなりに"診断"をしているのかもしれない。細かいことだが、ここは実験結果を揃えるために数が減らして同じ症例で比較してほしかった。

私見

Letterなので細かいmedhodは載っていない。 NLPモデルのところはほんとにさらっとしか書いてないので再現できず、これだけだとなんとも言えないな、というところ。