Miyazawa’s Pukiwiki
R Note/統計
はすでに存在します。
開始行:
*R による統計解析 [#o753bb0f]
#contents
**導入 [#ef6643ab]
***変数の尺度(データ水準)(([[データの水準(群馬大青木先...
-データは4種類に分類可能で、それぞれ使用できる統計手法(...
--[[名義尺度:http://aoki2.si.gunma-u.ac.jp/Yogoshu/146.ht...
---'''質的データ、カテゴリカルデータとも呼ばれる。データ...
--[[順序尺度:http://aoki2.si.gunma-u.ac.jp/Yogoshu/79.htm...
---'''順位尺度は間隔をもたないので、データ自体は数値であ...
--[[間隔尺度:http://aoki2.si.gunma-u.ac.jp/Yogoshu/39.htm...
---例えばデータが「クラスの各員の得点(間隔尺度)」であれ...
--[[比例尺度:http://aoki2.si.gunma-u.ac.jp/Yogoshu/127.ht...
-離散変数(カテゴリカル変数)と連続変数という分け方もある。
--名義尺度と順序尺度は離散変数。間隔尺度は離散・連続変数...
-平均値が統計量として意味を持つには(平均値 = その分布の...
--例:[[バーに入ってきたビル・ゲイツ:http://software.ssri...
--すなわち、''離散データ''、または''正規分布でない連続デ...
--[[順序尺度に対して平均値を使うための条件(東北大田中先...
***平均と標準偏差((参考文献:[[統計のはなし(大村平著、日...
-平均(Mean)は、データの値を全て足して、データの個数で割...
--n個のグループの値が
#mimetex(x_1+x_2+x_3+...+x_n);
のとき、
#mimetex( \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i );
-標準偏差(Standard Deviation)は、データの集合が平均値か...
--n個のグループの値が
#mimetex(x_1+x_2+x_3+...+x_n);
のとき、標準偏差は
#mimetex(\sigma = \sqrt{ \frac{1}{n} \sum_{i=1}^{n} (x_i ...
---偏差(Deviation)は、ある値の平均値からの隔たり
#ref(sd1.jpg,,70%);
---偏差の平均はゼロになってしまう。そこで、「偏差の二乗」...
-分散(Variance)は、標準偏差の二乗(ルートをかける前段階...
#mimetex(\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \ba...
***データの分布とヒストグラム((参考文献:[[統計のはなし(...
-あるデータ集合の性質を調べる場合、平均と分散だけでなく、...
-それぞれの値が何回出現したかを示すグラフを、ヒストグラム...
--下図の上は [3 3 3 3 3 4 4 4 5 5 5 6] 下は [2 3 3 4 4 4...
>hist(c(3,3,3,3,3,4,4,4,5,5,5,6), breaks = c(1,2,3,4,5,6)...
>hist(c(2,3,3,4,4,4,4,4,4,5,5,6), breaks = c(1,2,3,4,5,6)...
--ヒストグラムの縦軸を出現確率(データ全体に対して、その...
>hist(c(3,3,3,3,3,4,4,4,5,5,5,6), breaks = c(1,2,3,4,5,6)...
>hist(c(2,3,3,4,4,4,4,4,4,5,5,6), breaks = c(1,2,3,4,5,6)...
--データが連続的な値であれば(小数のデータがあるなら)、...
---これを''確率密度関数(probability density function, p....
---詳しくは[[R Note/統計/確率分布:http://speechresearch.f...
--離散変数と連続変数では、確率密度関数のグラフの意味が異...
---なぜか? → 分布に上限、下限がある + 片方のカテゴリの出...
---詳細な議論:[[確率と統計(静岡理工科大 菅沼先生):http...
---正規分布を仮定できないので、離散変数はそのままでは平均...
--イェーツの補正:'''度数で表されるような離散型分布を、カ...
-統計解析を行う前に、''ヒストグラムを見てデータの分布を検...
--[[要因と水準(実験条件)ごとにプロットした分布の形状が...
--分布の形状が左右対称でない(正規分布でない)場合、[[正...
--外れ値(極端値、データ全体の分布から大きく外れて孤立し...
***パラメトリックとノンパラメトリックな分析法 [#t047530c]
-パラメトリックな分析法
--'''母数,つまり母集団の分布に関する何らかの仮定をおいた...
---例えば[[線形モデル:http://speechresearch.fiw-web.net/1...
---[[一般化線形モデル:http://speechresearch.fiw-web.net/1...
--'''しかし,実際には正規分布にしたがっていない場合もある...
--どちらにしろ、データの分布が特定できて、適切な手法が使...
-ノンパラメトリックな分析法
--「データが何らかの分布をとる」といった仮定をしない統計...
---仮定がない分、上述の手法に比べると説明力は落ちる。した...
--'''「母数を仮定しない」とは言っても,連続分布であること...
--[[ノンパラメトリック検定:http://www.educ.kyoto-u.ac.jp/...
--[[統計的検定マニュアル:http://homepage1.nifty.com/kameg...
>'''ノンパラメトリック検定:'''
> '''2群の比較に中央値を用いて検定する。'''
> '''そのためデータ分布を仮定せず離散値データ(とびとび...
> '''ただしデータが正規分布しているときは判定が厳しすぎ...
--[[データの統計処理:http://www.iam.u-tokyo.ac.jp/bnsikat...
>'''逆にノンパラメトリック検定を行うべき場合は'''
>'''1)明らかに正規分布でないとき。(逆数や対数をとって...
>'''2)データの分散が群によって一様でないとき。'''
>'''3)測定の尺度が間隔尺度でないとき。'''
>'''4)分布の端で測定値が途切れているとき。測定感度以下...
--Wikipediaによれば、「'''[[中心極限定理:http://speechres...
**統計手法の選択[#t56022ec]
-条件間の代表値に意味のある差があるかどうかを調べたいとき...
-ある変数とある変数の間の関係性を調べたいとき:''相関と回...
--'''何らかの真のモデルがあることを前提として、その真のモ...
-以下の分類は、[[田中敏, 山際勇一郎, ユーザーのための教育...
***有意差の検定 [#c73bbb83]
-比較するデータの種類が間隔尺度および比率尺度である
--データが連続変数で、正規分布にしたがう((ヒストグラムを...
---2条件の比較である
>''対応のない[[t検定:http://speechresearch.fiw-web.net/12...
>''対応のあるt検定'' - 標準偏差が等しい、データに対応がある
>''ウェルチのt検定'' - 標準偏差が等しくない((t検定やANOVA...
---複数条件の比較である((3条件をそれぞれ組み合わせてt検定...
>''[[分散分析:http://speechresearch.fiw-web.net/124.html#...
>''クラスカル・ウォリス検定'' - 標準偏差が等しくない
--データが連続変数で、正規分布にしたがわない
>順序尺度・名義尺度のデータとして扱う
>[[正規分布に変換:http://speechresearch.fiw-web.net/116.h...
--データが離散変数である
>''[[クラスカル・ウォリス検定:http://speechresearch.fiw-w...
>''[[フリードマン検定:http://speechresearch.fiw-web.net/1...
-比較するデータの種類が順序尺度である
--2条件の比較である
>''[[メディアン検定:http://speechresearch.fiw-web.net/125...
>''[[符号検定:http://speechresearch.fiw-web.net/125.html#...
>''[[順位相関分析:http://speechresearch.fiw-web.net/125.h...
--複数条件の(交互作用の)比較は困難
-比較するデータの種類が名義尺度である
--2条件の比較である
>''直接確率計算''
>''[[カイ二乗検定:http://speechresearch.fiw-web.net/125.h...
>''連関係数分析''(相関分析の離散変数版)
--複数条件の比較である
>''[[対数線型分析:http://lld.fiw-web.net/pukiwiki_lld/ind...
***相関と回帰の分析 [#ifb1af0a]
-用語
--(Response / Dependent / Criterion)(Variable / Factor / ...
--(Fixed / Independent / Explanatory)(Variable / Factor /...
--Random (Variable / Factor / Effect), または ランダム (...
-比較するデータの種類が間隔尺度および比率尺度である
--データが連続変数で、正規分布にしたがう
---2条件の比較である
>散布図を書き、''[[相関係数の有意性検定:http://speechrese...
---複数条件の比較である
>''[[因子分析:http://speechresearch.fiw-web.net/restricte...
>''[[重回帰分析:http://speechresearch.fiw-web.net/124.htm...
>''[[交互作用を考慮した重回帰分析:http://speechresearch.f...
>''[[線形混合モデル:http://speechresearch.fiw-web.net/124...
--データが連続変数で、正規分布にしたがわない
>順序尺度・名義尺度のデータとして扱う
>[[正規分布に変換:http://speechresearch.fiw-web.net/116.h...
>分布形状を指定して''[[一般化線形モデル:http://speechrese...
-比較するデータの種類が順序尺度である
--2条件の比較である
>''[[順位相関分析:http://speechresearch.fiw-web.net/125.h...
--複数条件の(交互作用の)比較は困難
-比較するデータの種類が名義尺度である
--2条件の比較である
>''連関係数分析''
--複数条件の比較である
>''[[対数線型分析:http://lld.fiw-web.net/pukiwiki_lld/ind...
**実例 [#v6428f6a]
-&pgid(,R Note/音響解析データの統計解析);
終了行:
*R による統計解析 [#o753bb0f]
#contents
**導入 [#ef6643ab]
***変数の尺度(データ水準)(([[データの水準(群馬大青木先...
-データは4種類に分類可能で、それぞれ使用できる統計手法(...
--[[名義尺度:http://aoki2.si.gunma-u.ac.jp/Yogoshu/146.ht...
---'''質的データ、カテゴリカルデータとも呼ばれる。データ...
--[[順序尺度:http://aoki2.si.gunma-u.ac.jp/Yogoshu/79.htm...
---'''順位尺度は間隔をもたないので、データ自体は数値であ...
--[[間隔尺度:http://aoki2.si.gunma-u.ac.jp/Yogoshu/39.htm...
---例えばデータが「クラスの各員の得点(間隔尺度)」であれ...
--[[比例尺度:http://aoki2.si.gunma-u.ac.jp/Yogoshu/127.ht...
-離散変数(カテゴリカル変数)と連続変数という分け方もある。
--名義尺度と順序尺度は離散変数。間隔尺度は離散・連続変数...
-平均値が統計量として意味を持つには(平均値 = その分布の...
--例:[[バーに入ってきたビル・ゲイツ:http://software.ssri...
--すなわち、''離散データ''、または''正規分布でない連続デ...
--[[順序尺度に対して平均値を使うための条件(東北大田中先...
***平均と標準偏差((参考文献:[[統計のはなし(大村平著、日...
-平均(Mean)は、データの値を全て足して、データの個数で割...
--n個のグループの値が
#mimetex(x_1+x_2+x_3+...+x_n);
のとき、
#mimetex( \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i );
-標準偏差(Standard Deviation)は、データの集合が平均値か...
--n個のグループの値が
#mimetex(x_1+x_2+x_3+...+x_n);
のとき、標準偏差は
#mimetex(\sigma = \sqrt{ \frac{1}{n} \sum_{i=1}^{n} (x_i ...
---偏差(Deviation)は、ある値の平均値からの隔たり
#ref(sd1.jpg,,70%);
---偏差の平均はゼロになってしまう。そこで、「偏差の二乗」...
-分散(Variance)は、標準偏差の二乗(ルートをかける前段階...
#mimetex(\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \ba...
***データの分布とヒストグラム((参考文献:[[統計のはなし(...
-あるデータ集合の性質を調べる場合、平均と分散だけでなく、...
-それぞれの値が何回出現したかを示すグラフを、ヒストグラム...
--下図の上は [3 3 3 3 3 4 4 4 5 5 5 6] 下は [2 3 3 4 4 4...
>hist(c(3,3,3,3,3,4,4,4,5,5,5,6), breaks = c(1,2,3,4,5,6)...
>hist(c(2,3,3,4,4,4,4,4,4,5,5,6), breaks = c(1,2,3,4,5,6)...
--ヒストグラムの縦軸を出現確率(データ全体に対して、その...
>hist(c(3,3,3,3,3,4,4,4,5,5,5,6), breaks = c(1,2,3,4,5,6)...
>hist(c(2,3,3,4,4,4,4,4,4,5,5,6), breaks = c(1,2,3,4,5,6)...
--データが連続的な値であれば(小数のデータがあるなら)、...
---これを''確率密度関数(probability density function, p....
---詳しくは[[R Note/統計/確率分布:http://speechresearch.f...
--離散変数と連続変数では、確率密度関数のグラフの意味が異...
---なぜか? → 分布に上限、下限がある + 片方のカテゴリの出...
---詳細な議論:[[確率と統計(静岡理工科大 菅沼先生):http...
---正規分布を仮定できないので、離散変数はそのままでは平均...
--イェーツの補正:'''度数で表されるような離散型分布を、カ...
-統計解析を行う前に、''ヒストグラムを見てデータの分布を検...
--[[要因と水準(実験条件)ごとにプロットした分布の形状が...
--分布の形状が左右対称でない(正規分布でない)場合、[[正...
--外れ値(極端値、データ全体の分布から大きく外れて孤立し...
***パラメトリックとノンパラメトリックな分析法 [#t047530c]
-パラメトリックな分析法
--'''母数,つまり母集団の分布に関する何らかの仮定をおいた...
---例えば[[線形モデル:http://speechresearch.fiw-web.net/1...
---[[一般化線形モデル:http://speechresearch.fiw-web.net/1...
--'''しかし,実際には正規分布にしたがっていない場合もある...
--どちらにしろ、データの分布が特定できて、適切な手法が使...
-ノンパラメトリックな分析法
--「データが何らかの分布をとる」といった仮定をしない統計...
---仮定がない分、上述の手法に比べると説明力は落ちる。した...
--'''「母数を仮定しない」とは言っても,連続分布であること...
--[[ノンパラメトリック検定:http://www.educ.kyoto-u.ac.jp/...
--[[統計的検定マニュアル:http://homepage1.nifty.com/kameg...
>'''ノンパラメトリック検定:'''
> '''2群の比較に中央値を用いて検定する。'''
> '''そのためデータ分布を仮定せず離散値データ(とびとび...
> '''ただしデータが正規分布しているときは判定が厳しすぎ...
--[[データの統計処理:http://www.iam.u-tokyo.ac.jp/bnsikat...
>'''逆にノンパラメトリック検定を行うべき場合は'''
>'''1)明らかに正規分布でないとき。(逆数や対数をとって...
>'''2)データの分散が群によって一様でないとき。'''
>'''3)測定の尺度が間隔尺度でないとき。'''
>'''4)分布の端で測定値が途切れているとき。測定感度以下...
--Wikipediaによれば、「'''[[中心極限定理:http://speechres...
**統計手法の選択[#t56022ec]
-条件間の代表値に意味のある差があるかどうかを調べたいとき...
-ある変数とある変数の間の関係性を調べたいとき:''相関と回...
--'''何らかの真のモデルがあることを前提として、その真のモ...
-以下の分類は、[[田中敏, 山際勇一郎, ユーザーのための教育...
***有意差の検定 [#c73bbb83]
-比較するデータの種類が間隔尺度および比率尺度である
--データが連続変数で、正規分布にしたがう((ヒストグラムを...
---2条件の比較である
>''対応のない[[t検定:http://speechresearch.fiw-web.net/12...
>''対応のあるt検定'' - 標準偏差が等しい、データに対応がある
>''ウェルチのt検定'' - 標準偏差が等しくない((t検定やANOVA...
---複数条件の比較である((3条件をそれぞれ組み合わせてt検定...
>''[[分散分析:http://speechresearch.fiw-web.net/124.html#...
>''クラスカル・ウォリス検定'' - 標準偏差が等しくない
--データが連続変数で、正規分布にしたがわない
>順序尺度・名義尺度のデータとして扱う
>[[正規分布に変換:http://speechresearch.fiw-web.net/116.h...
--データが離散変数である
>''[[クラスカル・ウォリス検定:http://speechresearch.fiw-w...
>''[[フリードマン検定:http://speechresearch.fiw-web.net/1...
-比較するデータの種類が順序尺度である
--2条件の比較である
>''[[メディアン検定:http://speechresearch.fiw-web.net/125...
>''[[符号検定:http://speechresearch.fiw-web.net/125.html#...
>''[[順位相関分析:http://speechresearch.fiw-web.net/125.h...
--複数条件の(交互作用の)比較は困難
-比較するデータの種類が名義尺度である
--2条件の比較である
>''直接確率計算''
>''[[カイ二乗検定:http://speechresearch.fiw-web.net/125.h...
>''連関係数分析''(相関分析の離散変数版)
--複数条件の比較である
>''[[対数線型分析:http://lld.fiw-web.net/pukiwiki_lld/ind...
***相関と回帰の分析 [#ifb1af0a]
-用語
--(Response / Dependent / Criterion)(Variable / Factor / ...
--(Fixed / Independent / Explanatory)(Variable / Factor /...
--Random (Variable / Factor / Effect), または ランダム (...
-比較するデータの種類が間隔尺度および比率尺度である
--データが連続変数で、正規分布にしたがう
---2条件の比較である
>散布図を書き、''[[相関係数の有意性検定:http://speechrese...
---複数条件の比較である
>''[[因子分析:http://speechresearch.fiw-web.net/restricte...
>''[[重回帰分析:http://speechresearch.fiw-web.net/124.htm...
>''[[交互作用を考慮した重回帰分析:http://speechresearch.f...
>''[[線形混合モデル:http://speechresearch.fiw-web.net/124...
--データが連続変数で、正規分布にしたがわない
>順序尺度・名義尺度のデータとして扱う
>[[正規分布に変換:http://speechresearch.fiw-web.net/116.h...
>分布形状を指定して''[[一般化線形モデル:http://speechrese...
-比較するデータの種類が順序尺度である
--2条件の比較である
>''[[順位相関分析:http://speechresearch.fiw-web.net/125.h...
--複数条件の(交互作用の)比較は困難
-比較するデータの種類が名義尺度である
--2条件の比較である
>''連関係数分析''
--複数条件の比較である
>''[[対数線型分析:http://lld.fiw-web.net/pukiwiki_lld/ind...
**実例 [#v6428f6a]
-&pgid(,R Note/音響解析データの統計解析);
ページ名:
既存のページ名で編集する