勉強の記録

機械学習、情報処理について勉強した事柄など

p値とは尤度である

p値=0.05だからといって、その(差があるという)仮説が95%の確率で正しいとは言えない、とよく言われる。

 

帰無仮説が正しいとすれば同じくらい偏った結果は5%以下の確率で得られる、という回りくどい難解な定義になっていて、これは大雑把な言い方をすると「尤度」に相当する概念と考えるとしっくりくる。

 

(差があるという)仮説の事前確率をqとすると、

差がある尤度:1-p

差がない尤度:p

なので、ベイズの定理による事後確率はq*(1-p) / q*(1-p)+(1-q)*pとなる。

このときの事前確率はdegree-of-beliefとも呼ばれるベイズ的な主観的確率であることには注意。

 

実際にある論文が目の前にあって、知りたいのは尤度ではなくて検査後確率である陽性適中率。

陽性適中率を知るためには、検査前確率が必要。これらの確率は純粋な頻度主義では定義できないので、ベイズ的な主観的確率で定義される。

 

・事前確率が1%の仮説(まぁたぶん違うけど検定してみよう)

・事前確率が80%の仮説(まず正しいはずだから検定してみよう)

いずれも1回標本を集めて検定したところp=0.05の結果が得られたという状況を考える。

 

・事前確率が1%の仮説(まぁたぶん違うけど検定してみよう)

 事後確率=0.01*0.95 / 0.01*0.95 + 0.99*0.05 = 0.161.. 約16%

・事前確率が50%の仮説(よく分からないから検定してみよう)

事後確率=0.5*0.95 / 0.5*0.95 + 0.5*0.05 = 0.95 約95%(事後確率がp値と等しくなる)

・事前確率が80%の仮説(まず正しいはずだから検定してみよう)

 事後確率=0.8*0.95 / 0.8*0.95 + 0.20*0.05 = 0.987.. 約99%(!)

 

差がある、差がないの2値としたかなり乱暴な計算だが、同じp値であっても、事後確率が大きく異なることがわかる。

 

Baysian credible interval(信用区間)とはまさに推定値が95%の"確率"で含まれる区間という概念で、これがまさに知りたい検査後確率を表している。しかし、実際の論文ではp値のみが記載されて、baysian credible intervalが記述されることはまずない。これはおそらく、事前確率は非常に恣意的な概念でこれを一緒に議論しだすとそこをどう設定するかで結論が大きく変わってしまい混迷を来たすので、モデルさえ仮定すれば客観的に計算できる尤度部分だけを取り出して記述しようということなのだと思う。

 

この数字で表現できない検査前確率を示唆するために、研究のbackgroundを書いたり仮説探索的な研究なのか、仮説検証的な研究なのかを書いたりしていると理解している。

 

すべてが真であるような検定を繰り返している場合は多重性は大きな問題にはならないが、たくさんの検定をした上で1個有意になりましたという状況では問題になってくる。このような状況では各仮説の事前仮説が著しく低いことが想定され、(他の仮説検証型の研究に比べて)事後確率が低い。それをp値の枠組みで表現するために多重性の補正が行われる。

 

多重性の補正についてもいろいろと議論がありBonferroni法では保守的すぎるとか、FWERを考えるとか、種々の方法があるらしいが、いずれにせよそもそも研究自体の多重性もあり、事後確率に強い影響を持つ事前確率にかなり幅がある状況で、p値だけをことさらに取り出して厳密な多重性の補正を行なってもどれだけ意味があるのか。

 

本質的に問題なのは各検定の事前確率が低いことであって、p値を変えても仕方ない気がする。多重性の補正は行わずに得られた値を有意水準なしでそのまま掲載する方法もあると読んだことがあるが、おそらくそれはこのような考え方からだろうと推察する。