推定統計学とは
Inferential Statistics.
収集できたデータを全体のデータ (母集団) から得られた一部の集団と見なし, その得られたサンプルデータから元の母集団の性質や傾向を推測する分野.
- 近代統計学ともいわれる.
- 観察者の目の前にあるデータの背後に広がる母集団 (population) に関する推測を行うための方法論.
- 小さいサンプルから大きな母集団の性質や傾向を見つけることが目的.
手法
母数を推測する手法として 推定 (estimation) と 検定 (test) がある.
サブジャンル
推定統計学は, さらに細かく以下に分けられる.
- Exploratory Data Analysis
- Predictive Data Analysis
- Casual Data Analysis
- Mechanistic Data Analysis
📈統計的推定
Estiamtion, 推定. 母数がどれほどの値なのかを推測する手法.
普通は点推定で推定しておき, 重要な場合にだけ区間推定を行うのが一般的.
点推定
区間推定
📈統計的仮説検定
統計的仮説検定, Hypothesis Tesing. 検定法. 仮説検定.
ある仮説が正しいといってよいかどうかを統計学的・確率論的に判断するためのアルゴリズム.
仮説が正しいと仮定した上で, それに従う母集団から, 実際に観察された標本が抽出される確率を求め, その値により判断を行う. その確率が十分に (予め決めておいた値より) 小さければ, 「仮説は成り立ちそうもない」と判断できる.
実際の分析では, 行なう前に母集団の特性についてなんらかの予想がなされているのが普通. こうした仮説が分析で得られた結果 (つまり, 標本統計量) と整合的であるかを調べるのが仮説検定.
帰無仮説がどの程度正しくないかを判定する作業. 多くの場合 p 値を算出する作業そのもの.
「差がある (A ≠ B) 」という仮説を証明したい -> 「差がない (A=B) 」という仮説が確率論的に矛盾する (真である可能性が低い) 事を証明する
ネイマンとピアソンが開発した手法.
📈検定統計量
統計学的検定に利用するために標本から算出する統計量.
仮説検定の手順
- State the null and alternative hypotheses.
- Select the appropriate significance level and check the test assumptions.
- Analyze the data and compute the test statistic.
- Interpret the result
Developing Hypothesis
仮説が正しいと仮定した場合にその標本が観察される確率を算出できるように, 仮説を統計学的に表現する.以下の 2 つの種類がある.
Null Hypothesis: 帰無仮説
証明したい仮説の反対の仮説.
調査したい母集団の統計量とサンプルから求めた統計量の間に違いがないことを証明する.
「『データが偏っている』ので『二つの変数の間に関係がある』」という積極的な仮説を立てるのではなく, 「『二つの変数の間には関係がない』ので『データの偏りは偶然生じた』」という帰無仮説を立て, その帰無仮説を「『データの偏りが偶然生じた』といえる確率は無視できるほど低い」という論理で棄却することによって, 二重否定の論理で進めていく.
Alternative Hypothesis: 対立仮説
自分の証明したい仮説.
Type 1 Error/ Type 2 Error:第一種の誤りと第二種の誤り
| Null Hypothesis is True | Null Hypothesis is Faulse | |
|---|---|---|
| Reject Null Hypothesis | Type 1 Error | Correct Decision |
| Do not Reject Null Hypothesis | Correct Decision | Type 2 Error |
帰無仮説の検定 帰無仮説の検定↓ ↓棄却 採択↓ ↓対立仮説が真 帰無仮説が真
Critical Values: 危険値
危険域は帰無仮説を棄却できる領域.
Critical regions are the areas under the distribution curve representing values that support the null hypothesis.
危険値は危険域の端を示す数.
Critical values are values separating the values that support or reject the null hypothesis.
大抵の場合, これは 0.05 (5%) に設定されることが多い.
両側検定・片側検定
両側検定
「平均が等しい」と主張するタイプであれば, 分布関数の裾として左右両側を用いる.
H1:θ≠θ 0
片側検定
「 xxx の方が平均が大きい (小さい) ということはない」と主張するタイプであれば, 片側の裾だけを用いる (> or <).
H1:θ>θ 0, もしくはθ<θ 0
パラメトリック検定法・ノンパラメトリック検定法
パラメトリックとは ‘母数 (パラメーター) による’ という意味.
検定は,以下の手順で実施されるが, 手順 2 が両者で異なる.
-
帰無仮説の設定
-
統計量 T の計算
-
統計量 T と棄却域の比較による帰無仮説の採用または棄却
パラメトリック検定法
母集団分布に関して, 正規分布などのある特定の分布を仮定して統計的検定を行う方法.
ノンパラメトリック検定法
母集団分布に関して, 正規分布などのある特定の分布を仮定しないで統計的検定を行う方法.
R にノンパラメトリック検定を行う関数がかなり実装されている.
自由度
Z-Scores: Z 検定
Z 値, Z スコアとも. 母集団の統計量がわかっているときに利用する.
z = 偏差 / 標準偏差
<=> 2
z=(取った得点-平均点)/ 標準偏差- -1.5 以下は 1 (全体の 7%)
- -1.5~-0.5 は 2 (全体の 24%)
- -0.5~0.5 は 3 (全体の 38%)
- 0.5~1.5 は 4 (全体の 24%)
- 1.5 以上は 5 (全体の 7%)
📊t検定
T-Scores、t検定. スチューデントのt検定.
- 帰無仮説が正しいと仮定した場合に統計量が t 分布に従うことを利用する統計学的検定法の総称.
- データ X およびデータ Y の 2 つのデータ間の平均値に差があるかどうかを検定する方法.
たくさんのサンプルは集められないが手元に収集した小規模なサンプルから検定をおこないたいというニーズに応えるものでポピュラーな検定方法のひとつ
t検定をつかうための条件
標本が正規分布にしたがっていること (グラフを書いて確かめる)
一標本t検定
t-statistics
t = (標本平均) - (帰無仮説のもとでの母集団平均)/ (標本誤差)
二標本t検定
2標本に関する検定.
関連2群
同じ母集団に対する検定.
xxx をする前と後のデータを比較して, xxx が効果があったかどうかを判定する.
- 10 分前と 10 分後
- 期初と期末
独立2群
異なる母集団に対する検定.
- A 組と B 組
- 男と女
F-Scores: F 検定
帰無仮説が正しければ統計量が F 分布に従うような統計学的検定の総称
the variation between groups to the variation within groups.
Sum of Square (SS) = xx
Mean Square (MS) = SS/df
Bookmarks
Chi-Scores: カイ二乗検定
Categorical Data をテストするための方法.
x^2 = sigma (observed - expected)^2/expected
Test of Independence: 独立性検定
カイ二乗検定は, 観測された分割表から, 二つの確率変数が独立かどうかを測る指標にもなる.
観測されたデータの分布は, 理論値の分布とほぼ同じと見なせるだろうか?
df = (row - 1) x (col - 1)
expected cell value = col x row / total numbers of sample.
ANOVA: 分散分析
Analisis of Variance.
観測データにおける変動を誤差変動と各要因およびそれらの交互作用による変動に分解することによって, 要因および交互作用の効果を判定する.
ANOVA is an appropriate statistical measure when we want to compare the means of three or more populations at once.
Now ANOVA is a framework of testing, that can handle multiple situations.
分散分析は実験計画法に密接に結びついた統計解析であるため, それが適用されるのは実験データであることがほとんど. 分析結果から導かれた結論として因果関係に言及するケースが多い.
xx と xx には関係がある.
事後検定
事後比較 (Post hoc comparisons)
比較する平均値についての明確な仮説がない場合は, ANOVA で比較対象を決めて, 多重比較を行う.
Tukey’s test
互いに有意に差がある平均を探索するために分散分析 (ANOVA) と併用される.
F 統計量を用いない多重比較.
優位性検定
フィッシャーが考案.
📊統計的有意性
有意性. 統計的に優位. statistical significance.
確率的に偶然とは考えにくく, 意味があると考えられること.
いわゆる科学的に正しいとは統計的優位をさすことが多く、それは心理学がこれをつかってるから.
- 優位は誤り.
- 有意 - Wikipedia
- 🏆トレードエッジ
p値
帰無仮説の下で実際にデータから計算された統計量よりも極端な統計量が観測される確率.
科学との関係
科学的な結論であるためには, 適切な統計手法を用いて適切に「有意な違い」があることを示さなければならない.
従って科学的な方法の対象であるためには, 適切な統計手段が行使し得る対象である必要がある.
- 適切なグループ分けの設定
- 適切な方法で実験条件を振る/ キザむこと (所謂「条件出し」の問題)
- 適切な統計手法/ 統計検定量の採用
- 統計的な有意差を得るために必要な実験例数の設定
- 統計的な相関, 差異の適切な解釈
- 実験データを適切な可視化手段にて可視化されること
逆にいえば, 科学的に正しいことをいうためには, 統計的手法が効果的 ということだ.