勉強の記録

機械学習、情報処理について勉強した事柄など

Few-Shot Text Classification with Pre-Trained Word Embeddings and a Human in the Loop

Few-Shot Text Classification with Pre-Trained Word Embeddings and a Human in the Loop

https://katbailey.github.io/talks/Few-shot%20text%20classification.pdf

https://arxiv.org/pdf/1804.02063.pdf

Few shot text classificationについて知りたいのだけど、あまり検索でヒットしない。 arXiv投稿論文で、国際会議系へは投稿されていない(通っていない?)ようだが目を通してみた。

  1. Word embeddingの加重平均で文書のembeddingを得る
  2. 少数のラベルつき文書の平均で各クラスを代表し、未ラベル文書はその代表文書ベクトルとのcos類似度で分類する。
  3. 効率的な(各クラスの中心に位置する)文書にラベルをつけるため、LDAにより分類したいクラス数に分類し、そのクラスへの確信度が最も高い文書を選んでくることにする。

active-learningにLDAを使用した、という感じ。文書Embedding部分含めあまり目新しいものはないかな?

うーん、未ラベル文書なんて混沌としたコーパスなのだから、全てが目的の数クラスからなる状況って実験状況を除くとあまりないんじゃないか。まぁそれはcos類似度を何らかの閾値で切って、それ以上のものだけを該当クラスにラベリングして、それ以下のものはその他にラベリングするなどすれば対処可能か。

本文中によく似たラベルへの分類は精度が落ちたとあるけど、そこが大事なところなのでは。