記述統計学/要約統計とは

Descriptive Statistics.

別名は, 要約統計(Summary Statistics), 基本統計(Basic Statistics).

データの特徴を記述する統計学のサブジャンル.

標本の分布の特徴を定量的に記述し要約する統計量を扱う.

収集したデータの平均や分散, 標準偏差などを計算し, 分布を明らかにすることで, データの傾向や性質を把握する分野.


Wikipediaでは要約統計量のページと同じ扱いをされているように, データを要約して説明するための統計量を扱う.

🐥Glossary

📊要約統計量

要約統計量, 記述統計量, summary statistics.

標本の性質を要約するための📊統計量.

代表値(representative value)ともいう.

要約統計量一覧

定性的な意味も記述していく. 使いどころ.

比率

📝比(ratio)

なにかをなにかで割ったもの.

📝割合(proportion)

分子の部分が分母にも含まれている類のratio.

📝率(rate)

率(rate): ある単位量あたりの変化量.

📝パーセント(%/percentage)

百分率. 0.01.

📝パーミル

千分率, 0.001.

📝ベーシスポイント(bp)

basis point, bp. 複数形はbps. 万分率. 0.0001. %のうしろの○が3つついていたりする.

ファイナンス領域の📝金利などの小さい変化率で利用されることが多い.

Measures of Chenter: 中心の測定

Mode: 最頻値

データ群や確率分布で最も頻繁に出現する値. 一つに定まらない場合もある.

📊平均値(Mean)

観測されるデータから, 算術的に計算して”得られる, 統計的な指標値

一般的な Average は 平均値のこと.

以下のような場合には, 平均値よりも, 中央値がよい

  • データに異常値が混ざっていて, 平均値がその値に引きずられてしまう.
  • データの分布が非対称になっている.
  • 母平均

    母集団の全ての要素に関する相加平均

  • 標本平均

    母集団から抽出した標本 (母集団の部分集合) の要素に関する相加平均

📊標準偏差(SD)

Standard Deviation, SD.

データの平均値からのばらつきを示す指標.

📊二乗平均平方根(RMS)

root mean square. 複数要素からなる対象について、二乗して算術平均して平方根をとる統計量.

強さの特性を表す指標として、工業分野でよく使われる. 別名、実効値.

分位数

代表値の一つ.

ぶんいすう, 分位点, 分位値, quantile, クオンタイル.

中央値: Median

有限個のデータを小さい順に並べたとき中央に位置する値.

1/2分位数.メディアン(median).

平均値: Meanとともにデータを見る上での重要指標.


四分位数

有限個データを5分割したときの値.

  • 第1四分位数(q1), 小さいほうから 1/4 のところのデータ.
  • 第3四分位数(q3), 小さいほうから 3/4 のところのデータ.

が文脈でつかわれることが多い.

第0四分位数は最小値, 第2四分位数は中央値, 第5四分位数は最大値である.

5つの四分位数をまとめたデータセットである📊五数要約をとIQRを合わせたものがよく使われる.

四方位範囲: IQR(interquantile range)

下位 50% と 上位 50%の中央値の差.

📊標準得点

標準得点(standard score).

期待値や標準偏差などの集団基準を用いて、母集団の中における個人の相対的な位置づけが分かるように変換した得点のこと

標準得点に変換することを📐標準化

標準得点 - Wikipedia

📊Z-score

Z値、Z得点.

  • 平均が0、標準偏差 (SD) が1になるように変換した得点
  • もとの母集団が正規分布に従っているとき、Z得点は、必ず標準正規分布に従う.

Z-score = (spread - mean) / std

levels of measurement: 尺度

データの尺度. それぞれ性質がある.

質的データ-本来数値化できないデータ

名義尺度-同一性を表現 (nominal scale)

測定対象の違いをカテゴリーごとに数値へ割り当てます.

例:男性と女性の区別を 1 と 2 に割り当てるような場合です.

順序尺度-同一性・順序性を表現 (ordinal scale)

測定対象の差を測定値間の大小関係で表します.

例:水の美味しさを示すのに, 一番美味しい水から順に 1,2,3,・・・と割り当てるような場合です.

量的データ-数値化可能なデータ

間隔尺度-同一性・順序性・加法性を表現 (interval scale)

測定対象の差を測定値間の等間隔の数値として表します.

例:温度, 湿度, 好悪の程度を 1 (非常に嫌い)~5 (非常に好き) の 5 段階に割り当てる ような場合です. 評定値 1 と 2 の差 は評定値 4 と 5 の差 と等間隔とみなしています.

比率尺度-同一性・順序性・加法性・等比性を表現 (ratio scale)

間隔尺度との違いは絶対原点 0 (ゼロ) があることです.

例:身長, 体重, 高度, 深度などです.

統計の表現方法

📝データ可視化

📈相関

相関. colleration. 2 種類のデータの関係, 類似性.

🔬相関関係は因果関係を含意しない

相関の種類

  • 正の相関: 右肩上がり
  • 負の相関: 右肩下がり
  • 完全相関: 相関がつよい
  • 無相関: 相関が弱い

相関係数

2 つの確率変数の間の相関 (類似性の度合い) を示す統計学的指標.

特徴は以下.

  • -1 から1の間の実数値をとる.
  • 1 に近いときは 2 つの確率変数には正の相関がある
  • -1 に近ければ負の相関がある

📊共分散

共分散(covariance)とは、大きさが同じ2つのデータの間での、平均からの偏差の積の平均値.

📊ピアソンの積率相関係数

ピアソンの積率相関係数とは - 統計学用語 Weblio 辞書

この計算方法は線形な関係の時しか, 利用できない.

scatter plot によってまずは視覚化して適用できるかを見極める.

📊スピアマンの順位相関係数

非線形関数はこっち.

スピアマンの順位相関係数 - Wikipedia

質的データ (Categorical) の相関

定量的データと定性的データ はアプローチがことなる.

  • 性別
  • 満足度
  • 地域 …

ピアソンよりも, ポリコリック相関係数のほうがよい値がでる??

統計のウソ

🔬相関関係は因果関係を含意しない

相関はあるが因果はない.

因果関係は相関関係を含意するが、相関関係は因果関係を含意しない

  • 因果は相関の十分条件である。
  • 相関は因果の必要条件である。
  • 相関は因果の十分条件でない。
  • 因果は相関の必要条件でない。

  • 相関と因果は違うが相関からウソの因果は簡単に捏造できる

形式

虚偽の原因の誤謬

  • 事象 A の発生は、事象 B と相関する。
  • したがって、A は B の原因である。

具体例

References