データ可視化まとめ

Data Visualization.

データ可視化の目的は自分のための分析と, 他者に説明するための可視化がある.

各論

📝探索的データ解析(EDA)

Exploratory Data Analysis. 未知の関係性を見つけることが目的.

可視化することで関係性を見つける.

  • To understand data properties
  • To find patterns in data
  • To suggest modeling strategies
  • To “debug” analyses

基本的な手法

  • Five-number summary
  • Histograms
  • Density plot (Scatter Plot)
  • Boxplots (for Numerical Data, ヒゲ)
  • Barplot (for categorical Data)

統計量可視化

📝要約統計量をまとまりのあるデータセットにしてリストで表示したり, テーブルで表示したりする.

📊五数要約

Five number summary.

データのばらつきの様子をあらわすのに四分位数の5つの統計量を用いて表すこと. 5つの四分位数をひとつにまとめたデータセット.

  • 最小値: 第0四分位数
  • Q1: 第 1 四分位数
  • 中央値: 第 2 四分位数
  • Q3: 第 3 四分位数
  • 最大値: 第 4四分位数

これを視覚化したのが📊箱ひげ図.

📊度数分布表

標本の整理方法の一つ, Frequency Destribution, Frequency Tables

度数: frequency

データの値をxnilで表すとき, xが現れる回数. すべての度数に対するそれぞれの度数を比率で現したものを相対度数 (Relative Frequencies) という.

比較系可視化: 共通軸で2つ以上の値を比べる

共通軸で2つ以上の値を比べるグラフ. 比較軸がとくに大事になる.

📊棒グラフ

プロットされた棒で項目の値を示すグラフ.

一本一本の棒は独立していて, カテゴリカル変数を現す場合に利用される.

📊ヒストグラム

📊度数分布表を長方形の柱で現したものをヒストグラム (histogram) という.

しばしば棒グラフと区別して柱グラフ, 柱状グラフという.

全体のデータのばらつき(分布)や内訳をみるために使われる. 連続的なスケールでデータを扱う.

⚖棒グラフとヒストグラムの違いは?

棒グラフは独立したデータを表示する. ヒストグラムは連続したデータのばらつきをみる.

見た目が同じだがほかは全部違う.

📊箱ひげ図: Box Plot

ボックスプロット図, Box And Wisker.

ばらつきのあるデータをわかりやすく表現するための統計学的グラフ.

五数要約: five-number summaryの視覚化.

長方形の箱とその両端から伸びるひげで表現される.

要約統計量と元のデータの分布の両方を表すことができ,棒グラフより情報量が多い.

箱ひげ図は異なる複数のデータのばらつきを比較する事ができる.


📊散布図: Scatter Plot

構成系可視化: 全体と部分を比較

全体と部分を比較するグラフ.

📊円グラフ: Pie Graph

変化系可視化: 時系列の比較

時系列の比較をするグラフ.

📊折れ線グラフ: Line Chart/Dot Plot

定量的変数を現す場合に利用される.

EDAツールまとめ

🔖BIツールへ.

データ可視化Topics

💡分析とは比べること: 定量分析の3つの型

📚イシューからはじめよ - 安宅和人より.

分析とは, 比較すること. そして比較の軸が分析に大事になる.

特に定量分析において大事な型は3つ. いろんな分析手法もこの3つのどれかに分類可能.

  • 比較: 共通軸で2つ以上の値を比べること
    • ヒストグラム
    • 分布図
    • バー
    • コラム
  • 構成: 全体と部分を比較すること
    • パイ
    • スタック
    • ウォーターフォール
    • ビルドアップ
  • 変化: 時系列の比較をすること
    • ライン
    • コラム
    • レンジ

✅Chart/Plot/Graphの違いは?

言葉がいろいろあるように思うので整理したい.