power_analysis
をテンプレートにして作成
開始行:
* Power Analysis 検定力の分析 13 July 2019 [#j03bd639]
検定力(power/statistical power)は、第二種の過誤(type I...
β とすると1- β
#contents
----------------
** 仮説検定と検定力に関して(ここだけ 15 July 2019) [#bb...
*** 心理学の研究においての統計学的検定についてのガイドラ...
研究を始める前に検定力を考え、サンプルサイズを決めておか...
研究がデータの取得から分析に移ったら、検定力ではなくて信...
- Wilkinson, L. (1999). Statistical methods in psychology...
*** いつ検定力の算出をすべき? [#h61f930d]
観察/実験計画時の検定力の算出はよいが、
観察/実験後の検定力の算出はよくないよ(flawed)
- Hoenig, J. M., & Heisey, D. M. (2001). The Abuse of Pow...
*** そもそも帰無仮説の有意差検定(だけ)ではよくない [#oa...
そんなこと言われても……、という向きには
- Cumming, G. (2014). The New Statistics : Why and How. P...
- Timbs, O. (2019). It’s time to talk about ditching stat...
- Amrhein, V., Greenland, S., & McShane, B. (2019). Scien...
- Wasserstein, R. L., Schirm, A. L., & Lazar, N. A. (2019...
*** じゃ、どうしましょう? [#n056e409]
例えば、
[[Nature>https://www.nature.com/]] の [[Statistics for Bi...
> This collection highlights important statistical issues...
https://www.nature.com/collections/qghhqm/pointsofsignifi...
----------------
** 検定力(Power)について [#u524493e]
帰無仮説が正しいのにも拘らず棄却することを第一種の過誤(T...
と言い、その確率を有意水準という。通常 α で表わす。...
意水準は5%にすることが多い。
帰無仮説が偽であるのにも拘らず採択することを第二種の過誤...
error)と言い、その確率を通常 β で表わす。ここで 1- ...
定力(power)という。
| |BGCOLOR(white): |''有意差なし''|BGCO...
|''帰無仮説(H&subsc{0};)が真''|BGCOLOR(white): |正しい...
|''帰無仮説(H&subsc{0};)が偽''|BGCOLOR(white): |第二種...
統計的検定を行うにあたっては、有意かどうかの判定を有意水...
で見るが、有意かどうかはサンプルサイズ(観測数)に大きく...
- サンプルサイズが大きいと有意になりやすく
- サンプルサイズが小さいと有意になりにくい
ことが知られている。
つまり、適切なサンプルサイズがないと(サンプルサイズが小...
棄却されるべき帰無仮説が採択されてしまうことがあり、
第二種の過誤(Type II error)が起こってしまう。
第二種の過誤(Type II error)が(それなりに)起こらなくな...
サンプルサイズを十分取ればいいのだけれど、
(普通の人には直感でわからないので)その目安がほしくなる。
そこで、これこれ以上の観測数のデータを取ればよい、
との目安を知っておくのは重要になる。
この、必要なサンプルサイズがどれくらいかを算出するのが、
検定力の分析の基本になる。
このとき、検定力は 0.8 があればよいとする (Cohen 1988)。
一方、生物学の観察/測定データは、
あらかじめ観測数が決められないこともある((ワタシは他の分...
つまり、観察した中で「これこれこういうこと」
が起きたときのデータのみを分析したいという計画にあたって、
「これこれこういうこと」がどれくらい起こるかは
予備観察/実験をしても大ざっぱにしかわからないので、
観察/実験前にはサンプルサイズは決定できない
(検定力の分析によって算出したサンプルサイズにすることは...
検定結果が有意だった場合はよいとしても
(よいとは言い切れないと考える人もいるけど……)、
帰無仮説が棄却された場合に有意差がなかったのは、
単にサンプルサイズが小さかったために生じた第二種の過誤か...
そこで、観察/実験後ではあるけれども、
その「これこれこういうこと」が起きたときを
サンプルサイズ/観測数として用いて検定力を算出するのは、
第二種の過誤を見ていないかの目安になるだろう、
という考え方がある(意味がない、という人もいるらしい)。
ということで、このページでは、
- サンプルサイズが決まっているときの検定力の算出
- 検定力が決まっているときのサンプルサイズの算出
の方法をメモしておく。
「有意差があったのだから差があると考えてよい」、
「検定力の分析からサンプルサイズは十分な大きさと考えられ...
「有意差がなかったものに関して検定力を調べて問題なかった...
といった風に考えること自体が、
よくないかもしれないという考えもあるようですが、
ここで深くは立ち入りません。
95%の信頼限界も一緒に示しましょう、分布も示しましょう、と...
複雑な関係を見るときには、
信頼限界や分布のグラフは意味をなさないほど訳がわからない...
それぞれの場面で適切な対応をすべきと、ここではしておきま...
その適切な対応のひとつとして検定力の分析が必要なことはあ...
検定を探索的に利用しているのか(差があるものを見付ける/...
何らかの操作をしたときに差が生じているのかを見ているのか、
によっても統計学的検定の扱いは変わるのではないかと思いま...
何らかの操作をしたときは、保守的な検定で有意差があったな...
その操作によって差が生じたと信じてよさそうに思いますが、
そんなノンビリした考えは今はあまり受け入れ難いのかもしれ...
---------------------
** 経緯は [#p1d61263]
Reviewer から下のようなコメントをもらいまして……
>Lastly, a power analysis may need to be done to state th...
「may need」と書かれているということは、
(「やってもやらなくてもどっちでもいいのよ〜ん」で...
「やれ」と解釈すべきと判断しました。
Reviewer(↑)は、copulation latency(交尾までの時間)、つ...
時間データ(カウントデータではない)の分析についてのみ
検定力の算出をするようコメントを書いていますが、
論文としては他の検定についての検定力の算出をしないのはヘ...
と考えて、行った検定のほとんどについて、
検定力を算出することにしました。
検定力の算出においては、Cohen (1988)
'''Statistical Power Analysis for the Behavioral Sciences...
(Lawrence Elrbaum Associates, Hillsdale, NJ)
を参照し((ぼくにはとても読みづらいと感じました。「この場...
Cohen (1988) は、どのくらいの差が検出できればいいかしらん、
という「程度」を「effect size (ES)」と呼び、
目安として大中小を提案しています。
そして、large effect size(大きな差)、medium effect size
(中くらいの差)、weak effect size(小さな差)
が検出できるときのパラメータ(effect size index)を記述し、
かつ、そのときのサンプルサイズがどうなるかを表にしていま...
とても有り難いのだけれど、その一方、表を読み取るのは面倒...
間違えやすいしで。そこで、R の
[[pwr package>https://cran.r-project.org/web/packages/pwr...
かなり容易にサンプルサイズまたは検定力(1-β)が得ら...
** Cohen (1988) の size effect index と検定力の算出/サン...
R の pwr package では、検定力かサンプルサイズの一方を入れ...
もう一方が算出される。
なお、pwr.○○.test() の出力結果では、$power に検定力が格納...
サンプルサイズを得るときは、こうしたいとの考えがないのな...
Cohen (1988) に従い、power = 0.8 とすればよい。
有意水準を変更するなら sig.level= α を追加すればよ...
*** カイ二乗検定 Chi-square test [#y41019f6]
2 × 2 contingency table のみです。
|large effect size | w=0.5 |
|medium effect size | w=0.3 |
|weak effect size | w=0.1 |
large effect size のときの検定力の算出
library(pwr)
pwr.chisq.test(w = 0.5, N = カウントの合計, df = 1)
pwr.chisq.test(w = 0.5, N = カウントの合計, df = 1)$power
pwr.chisq.test(w = 0.5, power = 0.8, df = 1)
*** 2つの比の比較 Differences between proportions [#e575c...
|large effect size | h=0.8 |
|medium effect size | h=0.5 |
|weak effect size | h=0.2 |
nが等しい場合:large effect size のときの検定力の算出
library(pwr)
pwr.p.test(h=0.8, n=サンプルサイズ)
pwr.p.test(h=0.8, n=サンプルサイズ)$power
pwr.p.test(h=0.8, power=0.8)
nが異なる場合:large effect size のときの検定力の算出
library(pwr)
pwr.2p2n.test(h = 0.8, n1 = ひとつめのn, n2 = ふたつめの...
pwr.2p2n.test(h = 0.8, n1 = ひとつめのn, n2 = ふたつめの...
pwr.2p2n.test(h = 0.8, n1 = 一方のn、power=0.8)
*** 符号検定 sign tet [#yd6d94f1]
符号検定では effect size index(g)は他の検定と違って単純...
0.5 からの差を示している (Cohen 1988)。つまり、
0.5 ± g の範囲を外れているのが真の場合に、
第二種の過誤で採択する確率を算出するということになる。
|large effect size | g=0.25 |
|medium effect size|g=0.15|
|weak effect size | g=0.05|
pwr package の pwr.p.test() も似ているけれども、これは分...
る模様なので、よくないと判断。
large effect size のときの検定力の算出~
Cohen (1988) に従い、母確率が 0.5 で、
0.25以下または0.75以上の二項確率として β を求め、 1-...
を検定力とすればよい。
ここで、母確率が 0.5 の二項分布は 0.5 を中心に左右対称な...
0.25以下の二項確率の2倍が β である。
検定力を「小さめに」(conservative に)見積るために、0.25...
上げ(大きめ)にして、β が大きくなるようにしてある。
1-2*pbinom(q=ceiling(サンプルサイズ/4), size=サンプルサ...
*** 分散分析 ANOVA (Analysis of Variance) [#t6b0a9db]
|large effect size | f=0.4 |
|medium effect size | f=0.25 |
|weak effect size | f=0.1 |
Balanced ANOVA (各カテゴリで観測数が同数)の場合~
large effect size のときの検定力の算出
library(pwr)
pwr.anova.test(f=0.4, k=カテゴリの数, n=観測数/カテゴリ)
pwr.anova.test(f=0.4, k=カテゴリの数, n=観測数/カテゴ...
pwr.anova.test(f=0.4, k=カテゴリの数, power=0.8)
各カテゴリで観測数が異なる場合、
(生物学ではよくあることだが……)
n には(調和)平均を使うといいとかよくないとかあるらしい...
よくわからない。
*** t検定 t test [#g00da329]
|large effect size|d=0.80|
|medium effect size|d=0.50|
|weak effect size|d=0.20|
各群のサイズ(観測数)が同数の場合~
ここの n は各群のサイズで、合計ではない
library(pwr)
pwr.t.test(d=0.8, n=30)
pwr.t.test(d=0.8, n=30)$power
pwr.t.test(d=0.8, power=0.8)
各群のサイズ(観測数)が異なる場合
library(pwr)
pwr.t2n.test(d=0.8, n1 = ひとつめのn, n2 = ふたつめのn)
pwr.t2n.test(d=0.8, n1 = ひとつめのn, n2 = ふたつめのn)$...
pwr.t2n.test(d=0.8, n1 = 一方のn, power=0.8)
*** 相関係数 correlation coeffient [#u188f9b2]
2つの相関係数が有意に違うかどうかの検定ではなく、
今得られた相関係数が 0 (ゼロ)と違いがあるかどうかの検定...
この場合は Cohen (1988) の Chapter 4 の中の分類の Case 2 ...
そのパラメータ '''q''' がいくつなのか、
相当する '''r''' がいくつなのか明確には書かれていない
(いろいろと読み取ればよいのだろうけれど、
これはこうだと単純な書き方になっていない)。
そこで、Chapter 9 の重回帰、重相関の R((統計パッケージで...
の部分を読むと、'''r''' ならこれこれと書いてある((面倒な...
|large effect size | '''r''' = 0.5 |
|medium effect size | '''r''' = 0.3 |
|weak effect size | '''r''' = 0.1 |
R の pwr.r.test() では、effect size をパラメータとして取...
相関係数('''r''')をパラメータとして取る。
これは Cohen (1988) を読む限りは、
このほうがユーザが指定を間違えずに済むので、
他の関数とパラメータの取り方が矛盾しているとか面倒とかで...
エラー防止であると解釈できる。
このあたりは pwr package の作者はよくわかっていると感じま...
large effect size のときの検定力の算出
library(pwr)
pwr.r.test(n=サンプルサイズ, r=0.5)
pwr.r.test(n=サンプルサイズ, r=0.5)$power
pwr.r.test(power=0.8, r=0.5)
|Today:&counter(today);|Yesterday:&counter(yesterday);|To...
終了行:
* Power Analysis 検定力の分析 13 July 2019 [#j03bd639]
検定力(power/statistical power)は、第二種の過誤(type I...
β とすると1- β
#contents
----------------
** 仮説検定と検定力に関して(ここだけ 15 July 2019) [#bb...
*** 心理学の研究においての統計学的検定についてのガイドラ...
研究を始める前に検定力を考え、サンプルサイズを決めておか...
研究がデータの取得から分析に移ったら、検定力ではなくて信...
- Wilkinson, L. (1999). Statistical methods in psychology...
*** いつ検定力の算出をすべき? [#h61f930d]
観察/実験計画時の検定力の算出はよいが、
観察/実験後の検定力の算出はよくないよ(flawed)
- Hoenig, J. M., & Heisey, D. M. (2001). The Abuse of Pow...
*** そもそも帰無仮説の有意差検定(だけ)ではよくない [#oa...
そんなこと言われても……、という向きには
- Cumming, G. (2014). The New Statistics : Why and How. P...
- Timbs, O. (2019). It’s time to talk about ditching stat...
- Amrhein, V., Greenland, S., & McShane, B. (2019). Scien...
- Wasserstein, R. L., Schirm, A. L., & Lazar, N. A. (2019...
*** じゃ、どうしましょう? [#n056e409]
例えば、
[[Nature>https://www.nature.com/]] の [[Statistics for Bi...
> This collection highlights important statistical issues...
https://www.nature.com/collections/qghhqm/pointsofsignifi...
----------------
** 検定力(Power)について [#u524493e]
帰無仮説が正しいのにも拘らず棄却することを第一種の過誤(T...
と言い、その確率を有意水準という。通常 α で表わす。...
意水準は5%にすることが多い。
帰無仮説が偽であるのにも拘らず採択することを第二種の過誤...
error)と言い、その確率を通常 β で表わす。ここで 1- ...
定力(power)という。
| |BGCOLOR(white): |''有意差なし''|BGCO...
|''帰無仮説(H&subsc{0};)が真''|BGCOLOR(white): |正しい...
|''帰無仮説(H&subsc{0};)が偽''|BGCOLOR(white): |第二種...
統計的検定を行うにあたっては、有意かどうかの判定を有意水...
で見るが、有意かどうかはサンプルサイズ(観測数)に大きく...
- サンプルサイズが大きいと有意になりやすく
- サンプルサイズが小さいと有意になりにくい
ことが知られている。
つまり、適切なサンプルサイズがないと(サンプルサイズが小...
棄却されるべき帰無仮説が採択されてしまうことがあり、
第二種の過誤(Type II error)が起こってしまう。
第二種の過誤(Type II error)が(それなりに)起こらなくな...
サンプルサイズを十分取ればいいのだけれど、
(普通の人には直感でわからないので)その目安がほしくなる。
そこで、これこれ以上の観測数のデータを取ればよい、
との目安を知っておくのは重要になる。
この、必要なサンプルサイズがどれくらいかを算出するのが、
検定力の分析の基本になる。
このとき、検定力は 0.8 があればよいとする (Cohen 1988)。
一方、生物学の観察/測定データは、
あらかじめ観測数が決められないこともある((ワタシは他の分...
つまり、観察した中で「これこれこういうこと」
が起きたときのデータのみを分析したいという計画にあたって、
「これこれこういうこと」がどれくらい起こるかは
予備観察/実験をしても大ざっぱにしかわからないので、
観察/実験前にはサンプルサイズは決定できない
(検定力の分析によって算出したサンプルサイズにすることは...
検定結果が有意だった場合はよいとしても
(よいとは言い切れないと考える人もいるけど……)、
帰無仮説が棄却された場合に有意差がなかったのは、
単にサンプルサイズが小さかったために生じた第二種の過誤か...
そこで、観察/実験後ではあるけれども、
その「これこれこういうこと」が起きたときを
サンプルサイズ/観測数として用いて検定力を算出するのは、
第二種の過誤を見ていないかの目安になるだろう、
という考え方がある(意味がない、という人もいるらしい)。
ということで、このページでは、
- サンプルサイズが決まっているときの検定力の算出
- 検定力が決まっているときのサンプルサイズの算出
の方法をメモしておく。
「有意差があったのだから差があると考えてよい」、
「検定力の分析からサンプルサイズは十分な大きさと考えられ...
「有意差がなかったものに関して検定力を調べて問題なかった...
といった風に考えること自体が、
よくないかもしれないという考えもあるようですが、
ここで深くは立ち入りません。
95%の信頼限界も一緒に示しましょう、分布も示しましょう、と...
複雑な関係を見るときには、
信頼限界や分布のグラフは意味をなさないほど訳がわからない...
それぞれの場面で適切な対応をすべきと、ここではしておきま...
その適切な対応のひとつとして検定力の分析が必要なことはあ...
検定を探索的に利用しているのか(差があるものを見付ける/...
何らかの操作をしたときに差が生じているのかを見ているのか、
によっても統計学的検定の扱いは変わるのではないかと思いま...
何らかの操作をしたときは、保守的な検定で有意差があったな...
その操作によって差が生じたと信じてよさそうに思いますが、
そんなノンビリした考えは今はあまり受け入れ難いのかもしれ...
---------------------
** 経緯は [#p1d61263]
Reviewer から下のようなコメントをもらいまして……
>Lastly, a power analysis may need to be done to state th...
「may need」と書かれているということは、
(「やってもやらなくてもどっちでもいいのよ〜ん」で...
「やれ」と解釈すべきと判断しました。
Reviewer(↑)は、copulation latency(交尾までの時間)、つ...
時間データ(カウントデータではない)の分析についてのみ
検定力の算出をするようコメントを書いていますが、
論文としては他の検定についての検定力の算出をしないのはヘ...
と考えて、行った検定のほとんどについて、
検定力を算出することにしました。
検定力の算出においては、Cohen (1988)
'''Statistical Power Analysis for the Behavioral Sciences...
(Lawrence Elrbaum Associates, Hillsdale, NJ)
を参照し((ぼくにはとても読みづらいと感じました。「この場...
Cohen (1988) は、どのくらいの差が検出できればいいかしらん、
という「程度」を「effect size (ES)」と呼び、
目安として大中小を提案しています。
そして、large effect size(大きな差)、medium effect size
(中くらいの差)、weak effect size(小さな差)
が検出できるときのパラメータ(effect size index)を記述し、
かつ、そのときのサンプルサイズがどうなるかを表にしていま...
とても有り難いのだけれど、その一方、表を読み取るのは面倒...
間違えやすいしで。そこで、R の
[[pwr package>https://cran.r-project.org/web/packages/pwr...
かなり容易にサンプルサイズまたは検定力(1-β)が得ら...
** Cohen (1988) の size effect index と検定力の算出/サン...
R の pwr package では、検定力かサンプルサイズの一方を入れ...
もう一方が算出される。
なお、pwr.○○.test() の出力結果では、$power に検定力が格納...
サンプルサイズを得るときは、こうしたいとの考えがないのな...
Cohen (1988) に従い、power = 0.8 とすればよい。
有意水準を変更するなら sig.level= α を追加すればよ...
*** カイ二乗検定 Chi-square test [#y41019f6]
2 × 2 contingency table のみです。
|large effect size | w=0.5 |
|medium effect size | w=0.3 |
|weak effect size | w=0.1 |
large effect size のときの検定力の算出
library(pwr)
pwr.chisq.test(w = 0.5, N = カウントの合計, df = 1)
pwr.chisq.test(w = 0.5, N = カウントの合計, df = 1)$power
pwr.chisq.test(w = 0.5, power = 0.8, df = 1)
*** 2つの比の比較 Differences between proportions [#e575c...
|large effect size | h=0.8 |
|medium effect size | h=0.5 |
|weak effect size | h=0.2 |
nが等しい場合:large effect size のときの検定力の算出
library(pwr)
pwr.p.test(h=0.8, n=サンプルサイズ)
pwr.p.test(h=0.8, n=サンプルサイズ)$power
pwr.p.test(h=0.8, power=0.8)
nが異なる場合:large effect size のときの検定力の算出
library(pwr)
pwr.2p2n.test(h = 0.8, n1 = ひとつめのn, n2 = ふたつめの...
pwr.2p2n.test(h = 0.8, n1 = ひとつめのn, n2 = ふたつめの...
pwr.2p2n.test(h = 0.8, n1 = 一方のn、power=0.8)
*** 符号検定 sign tet [#yd6d94f1]
符号検定では effect size index(g)は他の検定と違って単純...
0.5 からの差を示している (Cohen 1988)。つまり、
0.5 ± g の範囲を外れているのが真の場合に、
第二種の過誤で採択する確率を算出するということになる。
|large effect size | g=0.25 |
|medium effect size|g=0.15|
|weak effect size | g=0.05|
pwr package の pwr.p.test() も似ているけれども、これは分...
る模様なので、よくないと判断。
large effect size のときの検定力の算出~
Cohen (1988) に従い、母確率が 0.5 で、
0.25以下または0.75以上の二項確率として β を求め、 1-...
を検定力とすればよい。
ここで、母確率が 0.5 の二項分布は 0.5 を中心に左右対称な...
0.25以下の二項確率の2倍が β である。
検定力を「小さめに」(conservative に)見積るために、0.25...
上げ(大きめ)にして、β が大きくなるようにしてある。
1-2*pbinom(q=ceiling(サンプルサイズ/4), size=サンプルサ...
*** 分散分析 ANOVA (Analysis of Variance) [#t6b0a9db]
|large effect size | f=0.4 |
|medium effect size | f=0.25 |
|weak effect size | f=0.1 |
Balanced ANOVA (各カテゴリで観測数が同数)の場合~
large effect size のときの検定力の算出
library(pwr)
pwr.anova.test(f=0.4, k=カテゴリの数, n=観測数/カテゴリ)
pwr.anova.test(f=0.4, k=カテゴリの数, n=観測数/カテゴ...
pwr.anova.test(f=0.4, k=カテゴリの数, power=0.8)
各カテゴリで観測数が異なる場合、
(生物学ではよくあることだが……)
n には(調和)平均を使うといいとかよくないとかあるらしい...
よくわからない。
*** t検定 t test [#g00da329]
|large effect size|d=0.80|
|medium effect size|d=0.50|
|weak effect size|d=0.20|
各群のサイズ(観測数)が同数の場合~
ここの n は各群のサイズで、合計ではない
library(pwr)
pwr.t.test(d=0.8, n=30)
pwr.t.test(d=0.8, n=30)$power
pwr.t.test(d=0.8, power=0.8)
各群のサイズ(観測数)が異なる場合
library(pwr)
pwr.t2n.test(d=0.8, n1 = ひとつめのn, n2 = ふたつめのn)
pwr.t2n.test(d=0.8, n1 = ひとつめのn, n2 = ふたつめのn)$...
pwr.t2n.test(d=0.8, n1 = 一方のn, power=0.8)
*** 相関係数 correlation coeffient [#u188f9b2]
2つの相関係数が有意に違うかどうかの検定ではなく、
今得られた相関係数が 0 (ゼロ)と違いがあるかどうかの検定...
この場合は Cohen (1988) の Chapter 4 の中の分類の Case 2 ...
そのパラメータ '''q''' がいくつなのか、
相当する '''r''' がいくつなのか明確には書かれていない
(いろいろと読み取ればよいのだろうけれど、
これはこうだと単純な書き方になっていない)。
そこで、Chapter 9 の重回帰、重相関の R((統計パッケージで...
の部分を読むと、'''r''' ならこれこれと書いてある((面倒な...
|large effect size | '''r''' = 0.5 |
|medium effect size | '''r''' = 0.3 |
|weak effect size | '''r''' = 0.1 |
R の pwr.r.test() では、effect size をパラメータとして取...
相関係数('''r''')をパラメータとして取る。
これは Cohen (1988) を読む限りは、
このほうがユーザが指定を間違えずに済むので、
他の関数とパラメータの取り方が矛盾しているとか面倒とかで...
エラー防止であると解釈できる。
このあたりは pwr package の作者はよくわかっていると感じま...
large effect size のときの検定力の算出
library(pwr)
pwr.r.test(n=サンプルサイズ, r=0.5)
pwr.r.test(n=サンプルサイズ, r=0.5)$power
pwr.r.test(power=0.8, r=0.5)
|Today:&counter(today);|Yesterday:&counter(yesterday);|To...
ページ名: