亀の歩み

備忘録として

分散分析と多重比較法(Tukey-Kramer・Bonferroni)前編

年が明けましたが、年末年始は統計学の勉強をざっとしていました。
使った本はこれ。

入門 統計学 −検定から多変量解析・実験計画法まで−

入門 統計学 −検定から多変量解析・実験計画法まで−

その中で、すぐ使いそうな分散分析(ANOVA)と多重比較法をまとめておくことにしました。

分散分析

3つ以上の群の平均がすべて同じかどうか調べます。
検定には、F検定が使われます。

適当にデータをでっちあげて、とりあえずやってみることにします。

群1 群2 群3 群4
標本1 10 15 24 28
標本2 11 12 26 30
標本3 8 13 23 31


群ごとに何か1つの要因が、強さを変えてはたらいている場合を考えます。
その要因が効果を影響を及ぼしているか、調べようと思います。

このとき、
帰無仮説:要因による影響はない。
となります。

群間変動(要因による)と群内変動(誤差による)の分散の比を算出し、F境界値よりもその値が大きければ帰無仮説は棄却されます。
つまり、要因に効果があると言うことができます。

今回は、エクセルの関数を使って(分析ツールを使わないで)計算していきます。

群間変動

  1. 群ごとの平均と総平均を算出します。

    群1 群2 群3 群4
    群平均 9.67 13.3 24.3 29.7 総平均 18.4

  2. 群平均から総平均を引きます。

    群1 群2 群3 群4
    群平均-総平均 -9.58 -5.91 5.08 10.4

  3. 偏差平方和を求めます。
    群平均-総平均を群ごとに二乗した後、それぞれ足し合わせ、標本サイズ(今回は3)をかけます。

    偏差平方和 784

  4. 偏差平方和を自由度で割って、分散を求めます。
    自由度=群数-1
    今回は3です。

    分散 261


群内変動

  1. 群ごとの偏差平方和をDEVSQ関数で算出し、合計します。

    群1 群2 群3 群4
    偏差平方和 4.67 4.67 4.67 4.67 合計 18.7

  2. 偏差平方和を自由度で割って、分散を求めます。
    群間変動のときの自由度とは、異なります。
    自由度=(標本サイズ-1) × 群数
    今回は8です。

    分散 2.33


F値とp値

群間・郡内変動の分散が分かったので、検定に入っていきます。
 \displaystyle \mathrm{F}値=\frac{群間変動の分散}{群内変動の分散}
p値とF境界値は、エクセルの関数で求められます。
p値=FDIST(F値,群間変動の自由度,群内変動の自由度)
F境界値=FINV(有意水準,群間変動の自由度,群内変動の自由度)

有意水準を0.05とすると

F値 112
F境界値 4.07
p値 <0.001

となり帰無仮説が棄却され、いずれかの群間で要因による影響はあると言えます。

しかし、どの群間で要因による影響があるのかは分からないので、それを知りたい場合は多重比較が必要になります。
多重比較については、明日書く予定です。


追記:後編も書きました。合わせて、標本の数値を一部変更しました。
   標本数→標本サイズに修正。


分析ツールを使う場合は、
http://www.aoni.waseda.jp/abek/document/anova.html
が参考になります。