亀の歩み

備忘録として

エクセルで回帰分析

これまでは関数を使って、エクセルで統計をやってきましたが、今回は分析ツールを使います。
Excel2016を例にして説明します。

データ→分析ツールから

分析ツールというボタンが見当たらない場合は、

ファイル→オプション→アドイン
下の方にある、「管理」のリストボックスを「Excelアドイン」にする
「設定」ボタン押して、「分析ツール」にチェック入れて、「OK」押せば追加されます。


分析ツールを開いたら、回帰分析を選択します。
すると、データ指定するウィンドウが出てきます。

f:id:shinep:20160116053029p:plain

入力Y範囲: 被説明変数を入れます。
入力X範囲: 説明関数を入れます。セルが連続している必要があります。
ラベル: 選択範囲の一番上のセルを説明変数ごとにラベルとします。
定数に0を使用: 回帰直線の切片を0にします。
有意水準: 説明変数の係数の下限・上限を指定した有意水準で表示します。

出力オプション: どこに結果を出力するかを指定します。
残差: 観測値ごとに残差を出力します。
標準残差: 残差を誤差項の標準偏差で割って標準化した値を出力します。
残差グラフの作成: 残差をグラフで表します。
観測値グラフの作成: 観測値と回帰モデルによる期待値をグラフで表します。
正規確率グラフの作成: 正規確率グラフを作成することで、データが正規分布しているか確かめることができます。プロットが直線に近いと、正規分布していると判断できます。
統計WEB | 統計Tips | Excel による正規確率プロットの作り方

実践

実際にやってみます。

f:id:shinep:20160116055759p:plain
(栗原伸一著 入門統計学 P217より)

ある地域の地価と周囲にある土地面積のデータです。
このデータから、分析に必要な変数を入力していきます。


f:id:shinep:20160116060419p:plain

OKを押すと、結果が出力されます。


f:id:shinep:20160116060538p:plain

重相関R: 相関係数です。
重決定R2: 決定係数です。変動のうち、回帰式で説明できる割合を示します。
補正R2: 自由度調整済決定係数です。観測数が少ないときは説明関数の数に影響を受けやすくなるので、それを補正します。

決定係数は、相関係数の2乗と書いていることが多いですが、定義が色々あり、そうでない場合もあるようです。
決定係数R2の誤解: 必ずしも相関の2乗という意味でなく,負にもなるし,非線形回帰には使えない - Yahoo!知恵袋

回帰モデルがよく当てはまっていると言える補正R2の値は、>0.9,>0.8,>0.6などと参照するものによって異なっていました。
場合によって判断していく必要がありそうです。


分散分析表の有意Fから、回帰モデルの妥当性が分かります。

切片: 回帰式の定数にあたります。
各説明変数: ラベルにチェックを入れておいたので、変数の名前が入っています。

係数: 切片以外は、傾きを表しています。この値が大きいほど正に影響が大きく、小さいほど負に影響が大きくなります。
P値: 帰無仮説を係数 = 0としたときの検定結果です。棄却されれば、係数が0ではないと言えます。
下限95.0%・上限95.0%: 有意水準の値を変えると、ここの値が変わります。


結果から、補正R2がそこそこ大きく、回帰モデルがよく当てはまっていると言えます。
林地が周囲にあると地価が上がり、それ以外だと地価が下がることが分かりました。