R Note/統計のバックアップの現在との差分(No.1)

バックアップ一覧
差分を表示
ソースを表示
バックアップを表示
R Note/統計へ行く。
- 1 (2015-01-27 (火) 01:50:00)
- 2 (2016-02-09 (火) 05:44:50)
追加された行はこの色です。
削除された行はこの色です。
#freeze
*R による統計解析 [#o753bb0f]

#contents

**導入 [#ef6643ab]
***変数の尺度（データ水準）(([[データの水準（群馬大青木先生）:http://aoki2.si.gunma-u.ac.jp/lecture/Univariate/scale.html]] を参考にしました)) [#t235c522]
-データは４種類に分類可能で、それぞれ使用できる統計手法（統計量((統計量の種類は [[ 統計Web | コラム | 統計備忘録 2009年3月:http://software.ssri.co.jp/statweb2/column/column0903.html]] より引用))）が異なる
--[[名義尺度:http://aoki2.si.gunma-u.ac.jp/Yogoshu/146.html]] の統計量 ： ''各ケースの数''、''計数''、''頻度''、''最頻値''、''連関係数''(([[ 統計Web | コラム | 統計備忘録 2009年3月:http://software.ssri.co.jp/statweb2/column/column0903.html]] より引用))
---'''質的データ、カテゴリカルデータとも呼ばれる。データは度数集計表によってあらわされる。'''((田中敏, 山際勇一郎, ユーザーのための教育・心理統計と実験計画法 : 方法の理解から論文の書き方まで, 1992． より引用))
--[[順序尺度:http://aoki2.si.gunma-u.ac.jp/Yogoshu/79.html]] の統計量 ： 上に加えて、''中央値''、''パーセンタイル''(([[ 統計Web | コラム | 統計備忘録 2009年3月:http://software.ssri.co.jp/statweb2/column/column0903.html]] より引用))
---'''順位尺度は間隔をもたないので、データ自体は数値であるが四則演算は成立しない。平均を求めることさえ無意味。その反面、正規分布を前提にしない・極端値に強い・少数データを扱えるといった強みがある。'''((田中敏, 山際勇一郎, ユーザーのための教育・心理統計と実験計画法 : 方法の理解から論文の書き方まで, 1992． より引用))
--[[間隔尺度:http://aoki2.si.gunma-u.ac.jp/Yogoshu/39.html]] の統計量 ： 上に加えて、''平均値''、''標準偏差''、''順位相関係数''、''積率相関係数''(([[ 統計Web | コラム | 統計備忘録 2009年3月:http://software.ssri.co.jp/statweb2/column/column0903.html]] より引用))
---例えばデータが「クラスの各員の得点（間隔尺度）」であれば、平均値に統計的な意味があります。しかし「クラスの各員の得点の順位（順序尺度）」は、平均値には意味がなく、中央値もしくは最頻値が妥当です。(([[統計学入門:http://kusuri-jouhou.com/statistics/nyuumon.html]]を参考にしました))
--[[比例尺度:http://aoki2.si.gunma-u.ac.jp/Yogoshu/127.html]] の統計量 ： 上に加えて、''変動係数''(([[ 統計Web | コラム | 統計備忘録 2009年3月:http://software.ssri.co.jp/statweb2/column/column0903.html]] より引用))

-離散変数（カテゴリカル変数）と連続変数という分け方もある。
--名義尺度と順序尺度は離散変数。間隔尺度は離散・連続変数両方あり(([[Rコマンダーを利用した解析（02）:http://plaza.umin.ac.jp/~takeshou/R/Rcmdr02.html]]による))、比例尺度は連続変数。

-平均値が統計量として意味を持つには（平均値 = その分布の代表値として妥当、となるためには）、「観測された変数の母集団が''連続分布（かつ、正規分布）''である」という前提が満たされていないといけない！
--例：[[バーに入ってきたビル・ゲイツ:http://software.ssri.co.jp/statweb2/column/column0903.html]]　→　分布にゆがみが有る場合、平均値が代表値として妥当ではなくなる
--すなわち、''離散データ''、または''正規分布でない連続データ''の解析に平均値（＋平均値に基づいた検定手法）を使うのは、注意が必要!(([[「統計学関連なんでもあり」- 離散変数か連続変数か？:http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc041/06483.html]] によれば、「重回帰分析の従属変数は「間隔尺度」であればよいのです。間隔尺度変数の精度（分解能）は無関係です。」といった記述もあります))
--[[順序尺度に対して平均値を使うための条件（東北大田中先生）:http://www.sal.tohoku.ac.jp/~tsigeto/2002/statu/u021210p.pdf#page=9]]　→　「正規分布する連続データから、一定・等間隔の尺度で抽出した」といえる離散データであれば、順序尺度と同等の統計をつかってもいい、ということのようです。ただし、厳密には避けるべきだと思われます。

***平均と標準偏差((参考文献：[[統計のはなし（大村平著、日科技連）:http://www.amazon.co.jp/%E7%B5%B1%E8%A8%88%E3%81%AE%E3%81%AF%E3%81%AA%E3%81%97%E2%80%95%E5%9F%BA%E7%A4%8E%E3%83%BB%E5%BF%9C%E7%94%A8%E3%83%BB%E5%A8%AF%E6%A5%BD-Best-selected-business-books/dp/4817180102]]、[[統計解析のはなし（大村平著、日科技連）:http://www.amazon.co.jp/gp/product/4817180285/ref=pd_lpo_sbs_dp_ss_2?pf_rd_p=187205609&pf_rd_s=lpo-top-stripe&pf_rd_t=201&pf_rd_i=4817180102&pf_rd_m=AN1VRQENFRJN5&pf_rd_r=15X0566JNWA4NXS9J943]])) [#k7a5aa62]
-平均（Mean）は、データの値を全て足して、データの個数で割ったもの
--n個のグループの値が
#mimetex(x_1+x_2+x_3+...+x_n);
のとき、
#mimetex( \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i );

-標準偏差（Standard Deviation）は、データの集合が平均値からどれだけばらけているかを示す値
--n個のグループの値が
#mimetex(x_1+x_2+x_3+...+x_n);
のとき、標準偏差は
#mimetex(\sigma = \sqrt{ \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 } );
---偏差（Deviation）は、ある値の平均値からの隔たり
#ref(sd1.jpg,,70%);
---偏差の平均はゼロになってしまう。そこで、「偏差の二乗」の平均をとってルートをかけたものが標準偏差

-分散（Variance）は、標準偏差の二乗（ルートをかける前段階、数学的に扱いやすい）
#mimetex(\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 );

***データの分布とヒストグラム((参考文献：[[統計のはなし（大村平著、日科技連）:http://www.amazon.co.jp/%E7%B5%B1%E8%A8%88%E3%81%AE%E3%81%AF%E3%81%AA%E3%81%97%E2%80%95%E5%9F%BA%E7%A4%8E%E3%83%BB%E5%BF%9C%E7%94%A8%E3%83%BB%E5%A8%AF%E6%A5%BD-Best-selected-business-books/dp/4817180102]]、[[統計解析のはなし（大村平著、日科技連）:http://www.amazon.co.jp/gp/product/4817180285/ref=pd_lpo_sbs_dp_ss_2?pf_rd_p=187205609&pf_rd_s=lpo-top-stripe&pf_rd_t=201&pf_rd_i=4817180102&pf_rd_m=AN1VRQENFRJN5&pf_rd_r=15X0566JNWA4NXS9J943]])) [#y24de4d4]
-あるデータ集合の性質を調べる場合、平均と分散だけでなく、分布も重要である。
-それぞれの値が何回出現したかを示すグラフを、ヒストグラムという。
--下図の上は [3 3 3 3 3 4 4 4 5 5 5 6]　下は [2 3 3 4 4 4 4 4 4 5 5 6] のヒストグラム（このデータは、「統計のはなし（大村平著、日科技連）」より引用したものです）。どちらも平均・分散は同じ。
>hist(c(3,3,3,3,3,4,4,4,5,5,5,6), breaks = c(1,2,3,4,5,6), freq = TRUE)
>hist(c(2,3,3,4,4,4,4,4,4,5,5,6), breaks = c(1,2,3,4,5,6), freq = TRUE)

#ref(http://shower.human.waseda.ac.jp/~m-kouki/images/R/Rplot_hist_1.png);
--ヒストグラムの縦軸を出現確率（データ全体に対して、その値が出現した割合）にしたものを、確率分布（probability distribution）という。縦軸の値を合計すると、必ず1になる。
>hist(c(3,3,3,3,3,4,4,4,5,5,5,6), breaks = c(1,2,3,4,5,6), freq = FALSE)
>hist(c(2,3,3,4,4,4,4,4,4,5,5,6), breaks = c(1,2,3,4,5,6), freq = FALSE)

#ref(http://shower.human.waseda.ac.jp/~m-kouki/images/R/Rplot_hist_2.png);

--データが連続的な値であれば（小数のデータがあるなら）、確率分布も連続値（曲線）になる
---これを''確率密度関数（probability density function, p.d.f.）''という。
---詳しくは[[R Note/統計/確率分布:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/116.html]]を参照して下さい。
---詳しくは[[R Note/統計/確率分布:http://speechresearch.fiw-web.net/116.html]]を参照して下さい。

--離散変数と連続変数では、確率密度関数のグラフの意味が異なる
---なぜか？ → 分布に上限、下限がある + 片方のカテゴリの出現確率が大きいと、分布が歪む(([[二項分布を正規分布で近似する:http://www.ipc.shimane-u.ac.jp/food/kobayasi/bionominal%20normal%20distribution.htm]]))
---詳細な議論：[[確率と統計（静岡理工科大 菅沼先生）:http://www.sist.ac.jp/~suganuma/kougi/other_lecture/SE/math/prob/prob.htm#3.3.1]]
---正規分布を仮定できないので、離散変数はそのままでは平均値（＋それに基づいた統計）を使えない!

--イェーツの補正：'''度数で表されるような離散型分布を、カイ二乗分布や正規分布などの連続型分布に近似させて統計的検定を行おうとするときに用いる修正手続き。検出力は低下するが、より正確な検定が可能になる。'''(([[統計WEB 統計用語集 イェーツの補正 / イェーツの連続修正:http://software.ssri.co.jp/statweb2/gloss/glossary_a.html#a009]] より引用）、より詳細：[[■カイ２乗分布（χ2分布）比率の検定:http://www.geisya.or.jp/~mwm48961/statistics/kai2.htm]]))

-統計解析を行う前に、''ヒストグラムを見てデータの分布を検討する''ことが重要。
--[[要因と水準（実験条件）ごとにプロットした分布の形状が多峰性になっていた場合:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/121.html#qcff188b]]、実験条件の再検討が必要。
--分布の形状が左右対称でない（正規分布でない）場合、[[正規分布に近づけるように変換する:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/116.html#x381a770]]必要がある
--外れ値（極端値、データ全体の分布から大きく外れて孤立しているような値）((参考：田中敏, 山際勇一郎, ユーザーのための教育・心理統計と実験計画法 : 方法の理解から論文の書き方まで, 1992．))がある場合は、事前に[[外れ値を除外する:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/121.html#ma6808aa]]か、[[順位尺度のデータとして扱う:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/122.html#t235c522]]必要がある((参考：田中敏, 山際勇一郎, ユーザーのための教育・心理統計と実験計画法 : 方法の理解から論文の書き方まで, 1992．))
--[[要因と水準（実験条件）ごとにプロットした分布の形状が多峰性になっていた場合:http://speechresearch.fiw-web.net/121.html#qcff188b]]、実験条件の再検討が必要。
--分布の形状が左右対称でない（正規分布でない）場合、[[正規分布に近づけるように変換する:http://speechresearch.fiw-web.net/116.html#x381a770]]必要がある
--外れ値（極端値、データ全体の分布から大きく外れて孤立しているような値）((参考：田中敏, 山際勇一郎, ユーザーのための教育・心理統計と実験計画法 : 方法の理解から論文の書き方まで, 1992．))がある場合は、事前に[[外れ値を除外する:http://speechresearch.fiw-web.net/121.html#ma6808aa]]か、[[順位尺度のデータとして扱う:http://speechresearch.fiw-web.net/122.html#t235c522]]必要がある((参考：田中敏, 山際勇一郎, ユーザーのための教育・心理統計と実験計画法 : 方法の理解から論文の書き方まで, 1992．))

***パラメトリックとノンパラメトリックな分析法 [#t047530c]
-パラメトリックな分析法
--'''母数，つまり母集団の分布に関する何らかの仮定をおいた手法'''(([[R による統計解析の基礎 第9章２群の差に関するノンパラメトリックな検定（中澤先生）:http://minato.sip21c.org/statlib/l9.pdf]] より引用))（中澤先生）
---例えば[[線形モデル:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/124.html#jb328dcd]]では 正規分布 を仮定する。
---[[一般化線形モデル:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/124.html#q03d38ba]]では 正規分布を含む様々な分布 を仮定する。
---例えば[[線形モデル:http://speechresearch.fiw-web.net/124.html#jb328dcd]]では 正規分布 を仮定する。
---[[一般化線形モデル:http://speechresearch.fiw-web.net/124.html#q03d38ba]]では 正規分布を含む様々な分布 を仮定する。
--'''しかし，実際には正規分布にしたがっていない場合もある。この場合の戦略としては，(1) 対数正規分布とかガンマ分布のような別な分布を考える，(2) 正規分布に近づくような変換を施す，といったことが考えられるが，真の分布がわかっていないためにうまく行くとは限らない。そこで，ヒストグラムを描いてみて，どうも正規分布ではなさそうだと思ったら，分布によらない方法を試してみるというのも一案である。'''(([[R による統計解析の基礎 第9章２群の差に関するノンパラメトリックな検定（中澤先生）:http://minato.sip21c.org/statlib/l9.pdf]] より引用))（中澤先生）

--どちらにしろ、データの分布が特定できて、適切な手法が使えるなら、ノンパラメトリックよりパラメトリックな手法の方がよい（有意差が出やすい）。データの分布が既知のどの分布と一致しているかを検定するには、[[コルモゴロフ＝スミルノフ検定（KS 検定）:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/116.html#n37e1e32]]などを使う。
--どちらにしろ、データの分布が特定できて、適切な手法が使えるなら、ノンパラメトリックよりパラメトリックな手法の方がよい（有意差が出やすい）。データの分布が既知のどの分布と一致しているかを検定するには、[[コルモゴロフ＝スミルノフ検定（KS 検定）:http://speechresearch.fiw-web.net/116.html#n37e1e32]]などを使う。

-ノンパラメトリックな分析法
--「データが何らかの分布をとる」といった仮定をしない統計手法。((線形モデルやベイズモデルが「どのように前提条件、前提知識をモデルに組み込むか」を追求しているのに対して、ノンパラメトリックモデルは「前提条件なしでどうやってデータを分析するか」を追求しているといえる？ただし事前に入力データを判別しやすい特徴量に変換する[[カーネル法:http://ja.wikipedia.org/wiki/%E3%82%AB%E3%83%BC%E3%83%8D%E3%83%AB%E6%B3%95]]は、線形モデルでもノンパラメトリックモデルでもよく用いられます（[[SVMの例:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/102.html#za6704b7]]、[[カーネルSOM:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/57.html#bee15dce]]などなど）。))
--「データが何らかの分布をとる」といった仮定をしない統計手法。((線形モデルやベイズモデルが「どのように前提条件、前提知識をモデルに組み込むか」を追求しているのに対して、ノンパラメトリックモデルは「前提条件なしでどうやってデータを分析するか」を追求しているといえる？ただし事前に入力データを判別しやすい特徴量に変換する[[カーネル法:http://ja.wikipedia.org/wiki/%E3%82%AB%E3%83%BC%E3%83%8D%E3%83%AB%E6%B3%95]]は、線形モデルでもノンパラメトリックモデルでもよく用いられます（[[SVMの例:http://speechresearch.fiw-web.net/102.html#za6704b7]]、[[カーネルSOM:http://speechresearch.fiw-web.net/57.html#bee15dce]]などなど）。))
---仮定がない分、上述の手法に比べると説明力は落ちる。したがって上述のモデルが使えない時に使うべき。
--'''「母数を仮定しない」とは言っても，連続分布であることだけは仮定する。'''(([[R による統計解析の基礎 第9章２群の差に関するノンパラメトリックな検定（中澤先生）:http://minato.sip21c.org/statlib/l9.pdf]] より引用))（中澤先生）
--[[ノンパラメトリック検定:http://www.educ.kyoto-u.ac.jp/cogpsy/personal/Kusumi/datasem05/kimura.pdf]]（木村先生）によれば、「'''ノンパラメトリック検定とは？ - 母集団分布に関して特定の仮定をおかない、名義尺度や順序尺度のデータ処理ができる'''」とある。
--[[統計的検定マニュアル:http://homepage1.nifty.com/kamegaya/kentei.txt]] には以下の記述。
>'''ノンパラメトリック検定：'''
>　'''２群の比較に中央値を用いて検定する。'''
>　'''そのためデータ分布を仮定せず離散値データ（とびとびの値）でもよい。'''
>　'''ただしデータが正規分布しているときは判定が厳しすぎる場合もある。'''

--[[データの統計処理:http://www.iam.u-tokyo.ac.jp/bnsikato/protocol/4-12.html]]（粟飯原先生） によれば、
>'''逆にノンパラメトリック検定を行うべき場合は'''
>'''１）明らかに正規分布でないとき。（逆数や対数をとって変数変換を行ったりする方法がある）'''
>'''２）データの分散が群によって一様でないとき。'''
>'''３）測定の尺度が間隔尺度でないとき。'''
>'''４）分布の端で測定値が途切れているとき。測定感度以下のデータのあるとき。'''

--Wikipediaによれば、「'''[[中心極限定理:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/116.html#x381a770]]によると、母集団の分布が正規分布に従わないと考えられる''少数の''標本では、標本平均が正規分布から遠く離れる。そのためt検定などを使うことが出来ず、ノンパラメトリックが数少ない分析手法となってしまう。'''」(([[Wikipedia - ノンパラメトリック手法:http://ja.wikipedia.org/wiki/%E3%83%8E%E3%83%B3%E3%83%91%E3%83%A9%E3%83%A1%E3%83%88%E3%83%AA%E3%83%83%E3%82%AF%E6%89%8B%E6%B3%95]] より引用))
--Wikipediaによれば、「'''[[中心極限定理:http://speechresearch.fiw-web.net/116.html#x381a770]]によると、母集団の分布が正規分布に従わないと考えられる''少数の''標本では、標本平均が正規分布から遠く離れる。そのためt検定などを使うことが出来ず、ノンパラメトリックが数少ない分析手法となってしまう。'''」(([[Wikipedia - ノンパラメトリック手法:http://ja.wikipedia.org/wiki/%E3%83%8E%E3%83%B3%E3%83%91%E3%83%A9%E3%83%A1%E3%83%88%E3%83%AA%E3%83%83%E3%82%AF%E6%89%8B%E6%B3%95]] より引用))

**統計手法の選択[#t56022ec]
-条件間の代表値に意味のある差があるかどうかを調べたいとき：''有意差の検定''
-ある変数とある変数の間の関係性を調べたいとき：''相関と回帰の分析''
--'''何らかの真のモデルがあることを前提として、その真のモデルに最も近似するモデルを標本データから求める'''((Rによるデータサイエンス、金明哲 著、森北出版、2007 より引用))

-以下の分類は、[[田中敏, 山際勇一郎, ユーザーのための教育・心理統計と実験計画法 : 方法の理解から論文の書き方まで, 1992．:http://www.amazon.co.jp/%E3%83%A6%E3%83%BC%E3%82%B6%E3%83%BC%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%95%99%E8%82%B2%E3%83%BB%E5%BF%83%E7%90%86%E7%B5%B1%E8%A8%88%E3%81%A8%E5%AE%9F%E9%A8%93%E8%A8%88%E7%94%BB%E6%B3%95%E2%80%95%E6%96%B9%E6%B3%95%E3%81%AE%E7%90%86%E8%A7%A3%E3%81%8B%E3%82%89%E8%AB%96%E6%96%87%E3%81%AE%E6%9B%B8%E3%81%8D%E6%96%B9%E3%81%BE%E3%81%A7-%E7%94%B0%E4%B8%AD-%E6%95%8F/dp/4316329014]] および [[パラメトリックな手法とノンパラメトリックな手法:http://aoki2.si.gunma-u.ac.jp/lecture/Kentei/nonpara.html]]（群馬大青木先生）を参考にしました。

***有意差の検定 [#c73bbb83]
-比較するデータの種類が間隔尺度および比率尺度である
--データが連続変数で、正規分布にしたがう((ヒストグラムを目で見て、極端値がない＋双峰分布や方形分布でないことが確認できればOK。L字型分布やJ字型分布は対数変換して正規分布していいればOK。詳しくは[[R Note/統計/確率分布/正規分布でない標本を正規分布に近づける:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/116.html#x381a770]]を参照。))
--データが連続変数で、正規分布にしたがう((ヒストグラムを目で見て、極端値がない＋双峰分布や方形分布でないことが確認できればOK。L字型分布やJ字型分布は対数変換して正規分布していいればOK。詳しくは[[R Note/統計/確率分布/正規分布でない標本を正規分布に近づける:http://speechresearch.fiw-web.net/116.html#x381a770]]を参照。))
---2条件の比較である
>''対応のない[[t検定:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/124.html#md9c46ec]]'' - 標準偏差が等しい
>''対応のない[[t検定:http://speechresearch.fiw-web.net/124.html#md9c46ec]]'' - 標準偏差が等しい
>''対応のあるt検定'' - 標準偏差が等しい、データに対応がある
>''ウェルチのt検定'' - 標準偏差が等しくない((t検定やANOVAの前提条件として、''ニつのデータ群の分散が等しい''ということも重要です。等分散性の検定には、'''[[F検定:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki/index.php?R%20Note%2F%E8%87%AA%E7%BF%92#m11088ce]]''' やバートレット検定を使います。ただし、何度も検定をするのは誤りのリスクが高くなるため、等分散性の検定は行わず、（おそらく、ヒストグラムを見るなどして）等分散性が確実の場合以外は、不等分散を前提とした統計手法を使うことが推奨される。))
>''ウェルチのt検定'' - 標準偏差が等しくない((t検定やANOVAの前提条件として、''ニつのデータ群の分散が等しい''ということも重要です。等分散性の検定には、'''[[F検定:http://speechresearch.fiw-web.net/restricted/index.php?R%20Note%2F%E8%87%AA%E7%BF%92#m11088ce]]''' やバートレット検定を使います。ただし、何度も検定をするのは誤りのリスクが高くなるため、等分散性の検定は行わず、（おそらく、ヒストグラムを見るなどして）等分散性が確実の場合以外は、不等分散を前提とした統計手法を使うことが推奨される。))

---複数条件の比較である((3条件をそれぞれ組み合わせてt検定をする場合、危険率が上がってしまう。参考：[[なぜ、多群において全ての組み合わせで t 検定をしてはいけないか。:http://www.ibaraki-kodomo.com/toukei/anova.html]]))
>''[[分散分析:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/124.html#d4960657]]'' - 標準偏差が等しい、または等しくない((正確には、不等分散の複数条件比較には、[[クラスカル・ウォリス検定:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/125.html#v4c789f6]] を使うべきだが、分散分析は不等分散に対しても頑健である、ということらしい。))
>''[[分散分析:http://speechresearch.fiw-web.net/124.html#d4960657]]'' - 標準偏差が等しい、または等しくない((正確には、不等分散の複数条件比較には、[[クラスカル・ウォリス検定:http://speechresearch.fiw-web.net/125.html#v4c789f6]] を使うべきだが、分散分析は不等分散に対しても頑健である、ということらしい。))
>''クラスカル・ウォリス検定'' - 標準偏差が等しくない

--データが連続変数で、正規分布にしたがわない
>順序尺度・名義尺度のデータとして扱う
>[[正規分布に変換:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/116.html#x381a770]]して''分散分析''(([[田中敏, 山際勇一郎, ユーザーのための教育・心理統計と実験計画法 : 方法の理解から論文の書き方まで, 1992．:http://www.amazon.co.jp/%E3%83%A6%E3%83%BC%E3%82%B6%E3%83%BC%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%95%99%E8%82%B2%E3%83%BB%E5%BF%83%E7%90%86%E7%B5%B1%E8%A8%88%E3%81%A8%E5%AE%9F%E9%A8%93%E8%A8%88%E7%94%BB%E6%B3%95%E2%80%95%E6%96%B9%E6%B3%95%E3%81%AE%E7%90%86%E8%A7%A3%E3%81%8B%E3%82%89%E8%AB%96%E6%96%87%E3%81%AE%E6%9B%B8%E3%81%8D%E6%96%B9%E3%81%BE%E3%81%A7-%E7%94%B0%E4%B8%AD-%E6%95%8F/dp/4316329014]] によれば、有意水準を上げておけば、分散分析でも良い。))
>[[正規分布に変換:http://speechresearch.fiw-web.net/116.html#x381a770]]して''分散分析''(([[田中敏, 山際勇一郎, ユーザーのための教育・心理統計と実験計画法 : 方法の理解から論文の書き方まで, 1992．:http://www.amazon.co.jp/%E3%83%A6%E3%83%BC%E3%82%B6%E3%83%BC%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%95%99%E8%82%B2%E3%83%BB%E5%BF%83%E7%90%86%E7%B5%B1%E8%A8%88%E3%81%A8%E5%AE%9F%E9%A8%93%E8%A8%88%E7%94%BB%E6%B3%95%E2%80%95%E6%96%B9%E6%B3%95%E3%81%AE%E7%90%86%E8%A7%A3%E3%81%8B%E3%82%89%E8%AB%96%E6%96%87%E3%81%AE%E6%9B%B8%E3%81%8D%E6%96%B9%E3%81%BE%E3%81%A7-%E7%94%B0%E4%B8%AD-%E6%95%8F/dp/4316329014]] によれば、有意水準を上げておけば、分散分析でも良い。))

--データが離散変数である
>''[[クラスカル・ウォリス検定:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/125.html#v4c789f6]]''(([['''各群のデータが離散値（とびとびの値をとることが分かっている）場合は，始めからノンパラメトリック検定である，Kruskal-Wallis 検定を用いる''':http://www-yaku.meijo-u.ac.jp/Research/Laboratory/chem_pharm/mhiramt/EText/Statistics/1-way_Factorial_ANOVA.html]]))
>''[[フリードマン検定:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/125.html#s7c7004a]]'' - データに対応がある
>''[[クラスカル・ウォリス検定:http://speechresearch.fiw-web.net/125.html#v4c789f6]]''(([['''各群のデータが離散値（とびとびの値をとることが分かっている）場合は，始めからノンパラメトリック検定である，Kruskal-Wallis 検定を用いる''':http://www-yaku.meijo-u.ac.jp/Research/Laboratory/chem_pharm/mhiramt/EText/Statistics/1-way_Factorial_ANOVA.html]]))
>''[[フリードマン検定:http://speechresearch.fiw-web.net/125.html#s7c7004a]]'' - データに対応がある

-比較するデータの種類が順序尺度である
--2条件の比較である
>''[[メディアン検定:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/125.html#v4c789f6]]''
>''[[符号検定:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/125.html#rfbb0871]]''
>''[[順位相関分析:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/125.html#lb14abf5]]''
>''[[メディアン検定:http://speechresearch.fiw-web.net/125.html#v4c789f6]]''
>''[[符号検定:http://speechresearch.fiw-web.net/125.html#rfbb0871]]''
>''[[順位相関分析:http://speechresearch.fiw-web.net/125.html#lb14abf5]]''

--複数条件の（交互作用の）比較は困難

-比較するデータの種類が名義尺度である
--2条件の比較である
>''直接確率計算''
>''[[カイ二乗検定:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/125.html#q8b4f921]]''
>''[[カイ二乗検定:http://speechresearch.fiw-web.net/125.html#q8b4f921]]''
>''連関係数分析''（相関分析の離散変数版）

--複数条件の比較である
>''[[対数線型分析:http://lld.fiw-web.net/pukiwiki_lld/index.php?%E7%B5%B1%E8%A8%88%E5%8B%89%E5%BC%B7%E4%BC%9A%20%E8%AD%B0%E4%BA%8B%E9%8C%B2#c569e9a1]]''

***相関と回帰の分析 [#ifb1af0a]
-用語
--(Response / Dependent / Criterion)(Variable / Factor / Effect), または (応答/従属/基準)(変数/要因/因子/効果) : Xによって変化する「結果」の要因 Y, 1次元の連続量または離散量
--(Fixed / Independent / Explanatory)(Variable / Factor / Effect), または (固定/独立/説明)(変数/要因/因子/効果) : 検証したい要因 X, 任意の次元の連続量または離散量
--Random (Variable / Factor / Effect), または ランダム (変数/要因/因子/効果) : 独立要因のひとつではあるが、その要因間の差に興味がない場合

-比較するデータの種類が間隔尺度および比率尺度である
--データが連続変数で、正規分布にしたがう
---2条件の比較である
>散布図を書き、''[[相関係数の有意性検定:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/124.html#ae9097aa]]''と''[[単回帰分析:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/124.html#udd844ef]]''
>散布図を書き、''[[相関係数の有意性検定:http://speechresearch.fiw-web.net/124.html#ae9097aa]]''と''[[単回帰分析:http://speechresearch.fiw-web.net/124.html#udd844ef]]''

---複数条件の比較である
>''[[因子分析:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki/index.php?R%20Note%2F%E8%87%AA%E7%BF%92#afb19b6d]]'' - 従属変数-独立変数間の予測関係なし
>''[[重回帰分析:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/124.html#k431951a]]'' - 従属変数-独立変数間の予測関係あり、相関なし
>''[[交互作用を考慮した重回帰分析:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/124.html#gd66917c]]'' - 従属変数-独立変数間の予測関係あり、相関あり
>''[[線形混合モデル:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/124.html#e5dd0c7d]]'' - 従属変数-独立変数間の予測関係あり、相関なし、ランダム変数あり
>''[[因子分析:http://speechresearch.fiw-web.net/restricted/index.php?R%20Note%2F%E8%87%AA%E7%BF%92#afb19b6d]]'' - 従属変数-独立変数間の予測関係なし
>''[[重回帰分析:http://speechresearch.fiw-web.net/124.html#k431951a]]'' - 従属変数-独立変数間の予測関係あり、相関なし
>''[[交互作用を考慮した重回帰分析:http://speechresearch.fiw-web.net/124.html#gd66917c]]'' - 従属変数-独立変数間の予測関係あり、相関あり
>''[[線形混合モデル:http://speechresearch.fiw-web.net/124.html#e5dd0c7d]]'' - 従属変数-独立変数間の予測関係あり、相関なし、ランダム変数あり

--データが連続変数で、正規分布にしたがわない
>順序尺度・名義尺度のデータとして扱う
>[[正規分布に変換:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/116.html#x381a770]]して''単/重回帰分析''
>分布形状を指定して''[[一般化線形モデル:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/124.html#q03d38ba]]''
>[[正規分布に変換:http://speechresearch.fiw-web.net/116.html#x381a770]]して''単/重回帰分析''
>分布形状を指定して''[[一般化線形モデル:http://speechresearch.fiw-web.net/124.html#q03d38ba]]''

-比較するデータの種類が順序尺度である
--2条件の比較である
>''[[順位相関分析:http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/125.html#lb14abf5]]''
>''[[順位相関分析:http://speechresearch.fiw-web.net/125.html#lb14abf5]]''

--複数条件の（交互作用の）比較は困難

-比較するデータの種類が名義尺度である
--2条件の比較である
>''連関係数分析''

--複数条件の比較である
>''[[対数線型分析:http://lld.fiw-web.net/pukiwiki_lld/index.php?%E7%B5%B1%E8%A8%88%E5%8B%89%E5%BC%B7%E4%BC%9A%20%E8%AD%B0%E4%BA%8B%E9%8C%B2#c569e9a1]]''

**実例 [#v6428f6a]
-&pgid(,R Note/音響解析データの統計解析);
R Note/統計 のバックアップの現在との差分(No.1)

R Note/統計のバックアップの現在との差分(No.1)