勉強の記録

機械学習、情報処理について勉強した事柄など

2018-01-01から1年間の記事一覧

【論文メモ】Linguistically-Informed Self-Attention for Semantic Role Labeling

qiita.com EMNLP2018のベストペーパー4本のうちの1本です。 上記の日本語解説が詳しいのですが、マルチタスクなのと自然言語処理系の一見よく似たタスクがいろいろ出てくるので自分を含む自然言語処理初心者には全体像が掴みづらい(掴みづらかった)のです…

不均衡データを扱うサンプリング以外の方法

不均衡データの扱いは要注意で、盲目的にbinary cross entropy lossなどを採用すると全部正と予測する役に立たないモデルができあがりがちというのは有名な話。 これはlossが全データの和・平均・期待値をとっていることを忘れてしまって、本来最適化したいm…

attentionは何を見ているのか?

今週のWeekly machine learningで素晴らしい記事が紹介されていた。 https://www.getrevue.co/profile/icoxfog417/issues/weekly-machine-learning-103-150407?utm_campaign=Issue&utm_content=view_in_browser&utm_medium=email&utm_source=piqcy Deconstru…

バリデーションセットのサンプル数

Train / Dev / Test sets - Practical aspects of Deep Learning | Coursera Stack Overflowの海を彷徨っていて、Andrew先生の動画に辿り着いた。やっぱりこのCourseraのコース1回しっかりやるべきか。 訓練用セットと検証用セット、テストセットをどう分割…

時系列データにCross validationするときの注意点

はじめに 論文ではなく、以下の記事から。 towardsdatascience.com splitting a time series without causing data leakage using nested cross-validation to obtain an unbiased estimate of error on an independent test set cross-validation with data…

【論文メモ】Adaptive Input Representations for Neural Language Modeling

slackで流れてきたQiitaのアドベントカレンダーに参加してみました。12/1が欠番なのでトップバッターに。 qiita.com Adaptive Input Representations for Neural Language Modeling | OpenReview [1809.10853] Adaptive Input Representations for Neural La…

【論文メモ】Dynamic Evaluation for Neural Sequence Models

[1709.07432] Dynamic Evaluation of Neural Sequence Models 文体などは一文の中で一定であり、文の前半でも学習させることで文後半での精度が上昇するというアイデア。 n単語(論文中のmodelではn=5)ごとにパラメータの更新を行うdynamic evaluation (⇔ s…

multi-label learningについてメモ

マルチラベル分類(多ラベル分類)についてメモ。 BERTでNTCIR-18 MedWebを解かせてみた。各データに対して8個のラベルの正負が割り当てられており、それらを予測するタスク。最終的なembeddingから8出力の全結合層→sigmoid functionで8つのラベルを得てcros…

【論文メモ】 Importance of Self-Attention for Sentiment Analysis

BERTが世間を賑わせていますが、そもそもself-attentionって何してるんだか良くわからないんだよね…。 ということで、EMNLP2018からself-attentionについての論文です。 概要 self-attentionを使ったmodelを - Topic classification - Sentiment analysis に…

p値とは尤度である

p値=0.05だからといって、その(差があるという)仮説が95%の確率で正しいとは言えない、とよく言われる。 帰無仮説が正しいとすれば同じくらい偏った結果は5%以下の確率で得られる、という回りくどい難解な定義になっていて、これは大雑把な言い方をすると…