勉強の記録

機械学習、情報処理について勉強した事柄など

NAACL 2019の医療関連論文を概観する.

North American Chapter of ACL (2019) - ACL Anthology

medic*, health, diseaseで検索.WS論文はおもしろそうなものだけ.

Biomedical Event Extraction based on Knowledge-driven Tree-LSTM - ACL Anthology

医学生物学分野におけるevent extractionにおいて背景を捉えるために外部知識を利用するknowledge base (KB) -driven tree-strucutred long short-term memory networks (Tree-LSTM)を提案.

Gene Ontologyにおけるentity typeとpropatyの記載からKB concept embeddingを作成し,sentence embeddingや他のword embeddingと組み合わせて使用した.説明的な文章の遠い依存関係をNNで捉えるために,先にe Stanford dependency

parserを用いて構文解析を行ったのちにtree-based LSTMを使用した.BioNLP2011のshared taskでstate-of-the-artを更新.

Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction - ACL Anthology

医療従事者によるアノテーションはハイコストだが,難しい文章のみを医療従事者に依頼すれば,効率的に有効なアノテーションができるのでは,という発想.crowdworkerのラベルのみで学習させたモデルと,そのラベルとの差を難しさとしてモデルを構築.このannotator間の不一致,とは相関していなかった.難易度の高い文章をコーパスから除くとむしろ学習結果が低下.その文章に医療従事者によるアノテーションを付加したところ学習結果が向上した.

→ weakly supervised learningとか,active learningにつながる話.医療コーパスはannotationがhigh costなのでこういう研究が出てくると有意義なコーパスづくりに繋がりそう.

Inferring Which Medical Treatments Work from Reports of Clinical Trials - ACL Anthology

毎日100以上のRCTが報告され,これを追うのは大変.Cochraneなど人手で情報収集している組織もあるが,NLPで自動化できる部分もあるのでは.本文から,介入,比較対象,アウトカムをアノテーションし,sig. decrease, no difference, sig increaseをラベル付けしたコーパスを作成した.annotation + RNNのモデルで推測.なお,データセットgithubに公開されている.

→ 介入,比較対象,アウトカムを抜き出す部分こそ自動化したいところ.

A Survey on Biomedical Image Captioning - ACL Anthology

ワークショップ.レントゲン読影レポート自動生成についてのsurvey論文.2018年までに公開されたdatasetもまとめられている.

→ この論文のあと,2019年にかなり大規模なdatasetが相次いで公開されている.

Medical Entity Linking using Triplet Network - ACL Anthology

疾患表現からのentity linkingにおける候補疾患のランキング学習において,triplet networkを使用して学習したところ既存研究を上回る成績だった.

Multilingual prediction of Alzheimer’s disease through domain adaptation and concept-based language modelling - ACL Anthology

会話や言語機能にアルツハイマー認知症の初期症状がでるというのはかねてから指摘されており,様々な言語で報告があるがいずれの研究でもsample数が少ないのが課題だった.言語間で共通するアルツハイマー認知症初期の言語特徴を特定し,サイズの小さいフランス語データセットに比較的大きな英語データセットを加えることで,フランス語での識別能を向上させた.

dictationする部分と,文章からinformation unitを抽出する部分は人手.そこinformation unitのsequence上でLanguage Modelを構築しprobabilityなどを特徴量に使用.

→ 新規性がよくわからず....

Distantly Supervised Biomedical Knowledge Acquisition via Knowledge Graph Based Attention - ACL Anthology

東北大乾研から.Knowledge Graphは,(head, relation, tail)というtripletで表され,Relation Extraction, Question Answeringなど種々のNLPタスクで有用だが,医学用のKnowledge Graphは,FreeBaseやWikiDBなどの汎用Knowledge Graphに比べて成熟しておらず語彙数が不足している.コーパスからKnowledge Graphのためのrelationを自動的に抽出するシステムが望まれるが,こちらにも教師データが不足しているという問題がある.

RE modelとKnowledge Graph Completion (KGC) modelをjointly trainingするモデルが,汎用KGの構築に有用であり,こちらをbase modelとして,entity typeによる成約を加えたモデルでUMLS + Medlineコーパスで学習させたところ,十分に医学分野に適用可能であり,拡張も有効であった.

→ 文章からKnowledge Graphを構築できるのは強い.Medlineは公開用のかなり整った文が多いので学習がうまくいきやすく大規模Knowledge Graphの構築につながるのかもしれない.将来的にはこうやって自動生成されたKnowledge GraphがSNOMED CTにとって代わるのかも.NN構造はもう少し詳しく読んでみたい.