線形モデルのバックアップソース(No.1)

バックアップ一覧
差分を表示
現在との差分を表示
バックアップを表示
R Note/統計/線形モデルへ行く。
- 1 (2015-01-28 (水) 03:47:36)
#contents

*（一般）線形モデル : (General) Liner Model(([[GLMという略語は、一般線形モデルと、一般"化"線形モデルの両方を表す:http://ja.wikipedia.org/wiki/GLM]] ため、ややこしいです。)) [#jb328dcd]
-データ群が[[正規分布（Normal Distribution, または ガウス分布, Gaussian Distribution）:http://ja.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F%E5%88%86%E5%B8%83]]に従う場合の統計解析(([[一般化線形モデルについて:http://hosho.ees.hokudai.ac.jp/~kato/seminar/020909/slide_bold.pdf#page=11]]（北海道大 加藤先生）))
--データの測定誤差の分布は正規分布に従う
--自然現象のさまざまなデータは正規分布する
--平均値をμ、標準偏差をσとすると、以下の式であらわされる曲線が、正規分布
#ref(http://upload.wikimedia.org/math/2/7/b/27bf270af02abac0ee1db8401cfd25a0.png);
--正規分布するデータ群のどの値が、どの程度の出現確率であるかは、[[正規分布表:http://www.koka.ac.jp/morigiwa/sjs/standard_normal_distribution.htm]]を使って求めることができる。
--Rで作ってみる：[[R Note/統計/確率分布/正規分布:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/116.html#z52702ee]]

-線形モデルの注意点
--全てのデータが正規分布にしたがうとは限らない
--一般的な対応：ヒストグラムを書いてみて分布が左右対称・末広がりになっているかどうかチェックする
--厳密な対応：事前に[[コルモゴロフ・スミルノフ検定:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/116.html#n37e1e32]]などで正規性を検定する
--正規分布でなかったときの対処
---対数変換などをつかって[[正規分布に近づくよう前処理:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/116.html#x381a770]]する（一般的な対処）
---正規分布以外の分布に対応したモデル（[[一般化線形モデル:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/124.html#q03d38ba]]）を使う
---分布を仮定しないモデル（[[ノンパラメトリックモデル:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/125.html]]）を使う → ただし有意差は出にくい
--さらに詳細な議論を &pgid(,R Note/統計); で行なっています。

**t検定 [#md9c46ec]
-実例：[[R Note/音響解析データの統計解析/t検定:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/121.html#l8aa50bb]]

-二つのデータ群（標本）について、それぞれのデータ群の平均に差（有意差）があるといえるかどうかを調べる手法。
-前提条件
--''二つのデータ群がどちらも正規分布している''こと
--''ニつのデータ群の分散が等しい''こと
---わかりやすい例：[[役に立つ薬の情報～専門薬学＞統計学＞F検定(等分散の検定):http://kusuri-jouhou.com/statistics/fkentei.html]]
---F検定 で分散が等しいかどうかを調べる → 分散が等しいと仮定できない場合、''ウェルチのt検定''を使う。((Rのt.test関数なら、自動的に分散を調べて適切なt検定を使ってくれる。))
--''それぞれのデータ群が独立である''（相関がない、対応がない = もう一方のデータ群の影響を受けない）こと
---独立でない場合（両データで同じ被験者が参加しているなど） → ''対応のあるt検定''
---一般に、対応を考慮したほうが有意差は出やすくなる。

**分散分析（ANalysis Of VAriance, ANOVA）(([[http://www.ibaraki-kodomo.com/toukei/anova.html]] および [[ハンバーガー統計学にようこそ！（早稲田大向後先生）:http://kogolab.chillout.jp/elearn/hamburger/index.html]] を参考にしています。)) [#d4960657]
-実例：[[R Note/音響解析データの統計解析/分散分析:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/121.html#i12035e7]]

-データ群が三つ以上ある場合、ニ群ずつそれぞれの組み合わせでt検定を行うのは適切ではない。
--有意差がないのにあると誤判断される確率（危険率）が上がってしまう。
-複数の群をまとめて検定するのが、分散分析（ANOVA）
--よりわかりやすい解説：[[ハンバーガー統計学にようこそ！（早稲田大向後先生） 6.2　分散分析とは:http://kogolab.chillout.jp/elearn/hamburger/chap6/sec2.html]]

-分析の目的やデータの種類に応じて、様々なANOVAがある。
--各群に対応がない場合 → [[一元配置分散分析:http://www.shiga-med.ac.jp/~koyama/stat/test-3g1f.html]]（対応なし）One-way Factorial ANOVA
--各群に対応がある場合 → [[一元配置分散分析:http://www.shiga-med.ac.jp/~koyama/stat/test-3g1f.html]]（対応あり）One-Way Repeated-Measures ANOVA
--要因が複数ある場合 → [[二元配置分散分析:http://www.shiga-med.ac.jp/~koyama/stat/test-3g2f.html]]
--共変量の影響を取り除いた分散分析 → [[共分散分析:http://www.seto.nanzan-u.ac.jp/msie/gr-thesis/ms/2003/matsuda/00mm013.pdf]]

-多くの実験データの分析において、頻繁に使われる手法
--分散分析の概要は [[大村平, 実験計画と分散分析のはなし, 日科技連:http://www.amazon.co.jp/%E5%AE%9F%E9%A8%93%E8%A8%88%E7%94%BB%E3%81%A8%E5%88%86%E6%95%A3%E5%88%86%E6%9E%90%E3%81%AE%E3%81%AF%E3%81%AA%E3%81%97%E2%80%95%E5%8A%B9%E7%8E%87%E3%82%88%E3%81%84%E8%A8%88%E7%94%BB%E3%81%A8%E3%83%87%E3%83%BC%E3%82%BF%E8%A7%A3%E6%9E%90%E3%81%AE%E3%82%B3%E3%83%84-%E5%A4%A7%E6%9D%91-%E5%B9%B3/dp/4817122102]] および [[ハンバーガー統計学にようこそ！:http://kogolab.chillout.jp/elearn/hamburger/index.html]] に詳しくまとめられています。詳細な配置条件及び分散分析結果の解釈・記述方法については [[田中敏, 山際勇一郎, ユーザーのための教育・心理統計と実験計画法, 1992．:http://www.amazon.co.jp/dp/4316329014]] がおすすめです。
--[[Analysis of Variance:http://dr-urashima.jp/pdf/sei-3.pdf]]（浦島先生）も分かりやすい。

-詳細を '''[[量的分析法 勉強会/分散分析:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki/index.php?%E9%87%8F%E7%9A%84%E5%88%86%E6%9E%90%E6%B3%95%20%E5%8B%89%E5%BC%B7%E4%BC%9A%2F%E5%88%86%E6%95%A3%E5%88%86%E6%9E%90]]''' で議論しています。

***（対応のある/ない）一元配置分散分析 [#g4131f02]
-実例：[[R Note/音響解析データの統計解析/一元配置分散分析＋多重比較法:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/121.html#i12035e7]]

***（対応のある/ない）二元配置分散分析 [#l2fbcf0a]
-実例：[[R Note/音響解析データの統計解析/二元配置分散分析＋交互作用効果の扱い:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/121.html#e8bbb4b5]]

**相関と回帰分析 [#ae9097aa]
-[[Rによるデータサイエンス、金明哲 著、森北出版、2007:http://www.amazon.co.jp/R%E3%81%AB%E3%82%88%E3%82%8B%E3%83%87%E3%83%BC%E3%82%BF%E3%82%B5%E3%82%A4%E3%82%A8%E3%83%B3%E3%82%B9-%E3%83%87%E3%83%BC%E3%82%BF%E8%A7%A3%E6%9E%90%E3%81%AE%E5%9F%BA%E7%A4%8E%E3%81%8B%E3%82%89%E6%9C%80%E6%96%B0%E6%89%8B%E6%B3%95%E3%81%BE%E3%81%A7-%E9%87%91-%E6%98%8E%E5%93%B2/dp/4627096011]] に詳しい解説があります。

-２つの変数間に相互依存関係があるかどうかの解析 → 相関分析
--一方の変数の大小にともなってもう一方の値も変わるなら（例えば身長と体重）、「相互依存関係にある」といえます。
--各データはそれぞれ、正規分布に従う誤差をもつと考える
---1 に近いとき：正の相関がある
--- -1 に近いとき：負の相関がある
---0 のとき：相関はない（両変数は互いに独立）

-２つの変数が相互依存関係にあるとき、２変数の関係を一次関数であらわす → （線形）単回帰分析(([[Wikipedia - 線形回帰:http://ja.wikipedia.org/wiki/%E6%9C%80%E5%B0%8F%E4%BA%8C%E4%B9%97%E6%B3%95]] より引用))
--各データが正規分布に従う誤差をもつと考えて、最小二乗法に基づく式の推定を行っている
---わかりやすい詳細な解説：[[回帰分析(1)（早大阿部先生）:http://www.aoni.waseda.jp/abek/document/regression-1.html]]
---MATLABで回帰分析：[[MATLAB Note/統計/回帰分析:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/102.html#w2fe7cf9]]
---類似手法の比較：[[Wikipedia 重回帰分析 関連する分析手法:http://ja.wikipedia.org/wiki/%E9%87%8D%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90#.E9.96.A2.E9.80.A3.E3.81.99.E3.82.8B.E5.88.86.E6.9E.90.E6.89.8B.E6.B3.95]]
-２変数の関係をx次関数であらわす → x次回帰分析
-変数が三つ以上のときの回帰分析 → （線形）重回帰分析

***線形単回帰分析（説明変数が一つ） [#udd844ef]
-実例：[[R Note/音響解析データの統計解析/単回帰分析:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/121.html#tc65193f]]
-'''[[R Note/統計/回帰分析/線形単回帰分析:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki/index.php?R%20Note%2F%E7%B5%B1%E8%A8%88%2F%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90#he509b80]]'''

***線形重回帰分析（説明変数が二つ以上） [#k431951a]
-'''[[R Note/統計/回帰分析/線形重回帰分析:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki/index.php?R%20Note%2F%E7%B5%B1%E8%A8%88%2F%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90#w32e356d]]'''

***交互作用を考慮した重回帰分析（説明変数同士の影響を考慮） [#gd66917c]
-'''[[R Note/統計/回帰分析/相互作用モデル（説明変数同士の影響を考慮した線形重回帰分析）:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki/index.php?R%20Note%2F%E7%B5%B1%E8%A8%88%2F%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90#i2e21f59]]'''

***最適なモデル選択 [#u1373997]
-'''[[R Note/統計/回帰分析/変数とモデルの選択:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki/index.php?R%20Note%2F%E7%B5%B1%E8%A8%88%2F%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90#lea2db4e]]'''

**（線形）混合（効果）モデル : Linear Mixed((「混合モデル」の"mixed"と、「混合分布モデル」の"mixture"は違うものなので注意。前者はランダム要因の混合のこと。後者は確率分布の山が混合しているということ。)) Effect Model [#e5dd0c7d]
-個人性や場所などの変量効果（ランダム要因）を考慮した上で除外できるモデル((ランダム要因になりうる様々な要因を混合モデルに入れて考慮することができる。制御要因とランダム要因に同一の要因を与えることもできるらしい。))

-固定モデル、無作為モデル、混合モデルとも呼ばれる((心理学のためのデータ解析テクニカルブック, 森敏昭, 吉田寿夫, 北大路書房 p.75-76))

-以下、[[動物行動学者のための一般化線形混合モデル：自習の手引き:http://homepage2.nifty.com/fauves/education/GLMM.htm]] より引用
--'''ランダム要因：独立要因のひとつではあるが、その要因間の差に興味がない場合'''
--'''ランダム要因を入れることで、擬似反復pseudo-replicationを避けることができる'''
---'''ある個体から10個のデータが得られていて、他の個体からは5つのデータが得られている場合（データの独立性が保たれていない場合）でも、全部のデータ15個をプールして分析することができる'''

-参考文献
--[[Mixed Effects Models Blog:http://mixedmodeljp.blogspot.jp/]]（理研 神長先生）
---[[神長伸幸, 井上雅勝, 新井学, "t 検定・分散分析から混合モデルへ：文理解研究の導入事例から学ぶ", 2012年度日本認知科学会第29回大会:http://www.jcss.gr.jp/meetings/JCSS2012/proceedings/pdf/JCSS2012_WS3.pdf]] の解説サイト
--[[混合モデルを使って反復測定分散分析をする:http://www.slideshare.net/masarutokuoka/ss-42957963]]（理研 井関先生）
--[[生態学のデータ解析 - ランダム効果とは?:http://hosho.ees.hokudai.ac.jp/~kubo/ce/RandomEffectsCrawley.html]]（久保拓弥先生）
--[[Linear Mixed Model （以下、混合モデル）の短い解説:http://www.lowtem.hokudai.ac.jp/plantecol/akihiro/obenkyou/GLMMexample.pdf]]（北海道大 隅田先生）
--[[一般化線形混合モデル入門の入門:http://www.slideshare.net/yutamura1/ss-42303827]]（名古屋大学 田村さん）

-R の統計パッケージ lme4 が提供している関数 lmer がよく使われる。
--[[Linear mixed model implementation in lme4:http://cran.r-project.org/web/packages/lme4/vignettes/Implementation.pdf]]

***独立変数が一つかつ離散変数（一要因の混合効果分散分析） [#a2d62a66]
-実例：[[R Note/音響解析データの統計解析/混合効果モデル：独立変数が一つかつ離散変数:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/121.html#o1ad649c]]

***独立変数が一つかつ連続変数（混合効果単回帰分析） [#e067d018]
-実例：[[R Note/音響解析データの統計解析/混合効果モデル：独立変数が一つかつ連続変数:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/121.html#j49fc621]]

***独立変数が複数（混合効果分散分析/重回帰分析/共分散分析） [#pb2973b0]
-実例：[[R Note/音響解析データの統計解析/混合効果モデル：独立変数が複数:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/121.html#f7c9443e]]

*一般化（一般）線形モデル : Generalized Linear Model((一般線形モデル（General Linear Model, GLM または LM）はy=ax+bで表される線形モデルのうち、yが正規分布にしたがうもの全てをまとめたもの。一般''化''線形モデル（Generalized Linear Model, GLM）は、一般線形モデルをyが正規分布以外の既知の分布でも良いように一般化したもの（つまり、「一般化一般線形モデル」の略称）。階層ベイズ一般化線形モデルは、一般化線形モデルを階層ベイズモデルで表現してMCMCで解かせるもの。[[一般線形モデルについて:http://blog.goo.ne.jp/self-educator/e/090fca714c37a956b8889771feaa682a]] や [[一般化線形モデル (generalized linear model; GLM) を簡単に紹介するペイジ:http://hosho.ees.hokudai.ac.jp/~kubo/ce/LinksGlm.html]]、[[一般化線形モデル入門の入門:http://www012.upp.so-net.ne.jp/doi/biostat/CT39/glm.pdf]] を参照。))  [#q03d38ba]
-データ群が正規分布に従わない場合も含めた統計解析
--正規分布を含む、様々な分布を包括した線形モデル
--分散分析ANOVAや回帰Regression、共分散分析ANCOVAは、原理はまったく同じ(Grafen & Hails 2002) それらを統合した分析方法が、一般線形モデルGeneral Linear Model(GLM)（[[参考:http://homepage2.nifty.com/fauves/education/GLMM.htm]]）
--一般線形モデルの前提条件を守らなくても良い（さまざまな分布を前提にできる）
---データが正規分布に従うと仮定できない場合
---誤差が正規分布に従わない場合、応答の分布が[[最小2乗法:http://szksrv.isc.chubu.ac.jp/lms/lms1.html]]の要件を満たさない場合
---データの平均が特定の範囲内に制限されている場合
---等分散性が仮定できない場合

-参考文献：
--[[観測されたパターンを説明する統計モデル:http://hosho.ees.hokudai.ac.jp/~kubo/stat/2011/C1/kubostat2011C1.pdf]]（久保拓弥先生）
--[[例題で考える一般化線形混合モデルの導入と計算:http://hosho.ees.hokudai.ac.jp/~kubo/stat/2003/d/kubostat2003d.pdf]]（久保拓弥先生）
--[[GLM入門編1 一般化線形モデル:http://sc1.cc.kochi-u.ac.jp/~murakami/cgi-bin/FSW/fswiki.cgi?page=GLM%C6%FE%CC%E7%CA%D41]]
--[[ロジスティック回帰分析:http://bm.hus.osaka-u.ac.jp/~torii/logistic/ppframe.htm]]（大阪大鳥居さん）
--（一般）線形モデルと一般化線形モデルの違いについて：[[一般化線形モデルについて:http://hosho.ees.hokudai.ac.jp/~kato/seminar/020909/slide_bold.pdf]]（北海道大 加藤先生）

-以下は一般化線形モデルの一例です。

**ロジスティック回帰分析 [#q93997c2]
-従属変数が離散かつ二値（二項分布）、独立変数が連続値
-実例：[[R Note/音響解析データの統計解析/ロジスティック回帰分析:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/121.html#p9f2d132]]

**ロジスティック分散分析 [#l8889c32]
-従属変数が離散かつ二値（二項分布）、独立変数が離散値

**ポアソン分散分析 [#k2d192b7]
-従属変数が度数やカウントデータ（ポアソン分布）、独立変数が離散値

**一般化（線形）混合（効果）モデル : Generalized Linear Mixed Effect Model[#n023b855]
-データ形状が正規分布に限定されず、かつランダム要因も考慮可能なモデル
-実例：[[R Note/音響解析データの統計解析/ロジスティック混合効果モデル:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/121.html#k9d83231]]

*階層ベイズ一般化線形モデル [#e7069c0c]
-分布の種類以外にも、（最尤法で記述可能な）様々な前提条件を考慮可能なモデル

-参考
--[[Doing Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan. 2nd Edition.:http://www.indiana.edu/~kruschke/DoingBayesianDataAnalysis/]]
--[[始めよう！ベイズ推定によるデータ解析:http://tombo.sub.jp/doc/esj55/bayes_intro.pdf]]
-関連
--[[MCMC:http://ja.wikipedia.org/wiki/%E3%83%9E%E3%83%AB%E3%82%B3%E3%83%95%E9%80%A3%E9%8E%96%E3%83%A2%E3%83%B3%E3%83%86%E3%82%AB%E3%83%AB%E3%83%AD%E6%B3%95]]
--[[最尤推定法:http://ja.wikipedia.org/wiki/%E6%9C%80%E5%B0%A4%E6%B3%95]]
--[[情報量基準:http://ja.wikipedia.org/wiki/%E8%B5%A4%E6%B1%A0%E6%83%85%E5%A0%B1%E9%87%8F%E8%A6%8F%E6%BA%96]]

-ベイズ確率モデル
--尤度は既知の分布を仮定するか、（任意の？）尤度式を指定する。確率密度関数はMCMC法によって求めるため既知の分布の制約を受けない。
--事前分布は主観的に決めるか、既知の分布（正規分布）を仮定するか、分布形状を指定しない。階層型ベイズモデルでは観測データから事前分布の形状を求める。詳細は [[階層ベイズモデル:http://hosho.ees.hokudai.ac.jp/~kubo/stat/2010/Qdai/c/kuboQ2010c.pdf]]（北海道大 久保先生）を参照。
R Note/統計/線形モデル のバックアップソース(No.1)

R Note/統計/線形モデルのバックアップソース(No.1)