デヌタ可芖化たずめ

Data Visualization.

デヌタ可芖化の目的は自分のための分析ず, 他者に説明するための可芖化がある.

各論

📝探玢的デヌタ解析(EDA)

Exploratory Data Analysis. 未知の関係性を芋぀けるこずが目的.

可芖化するこずで関係性を芋぀ける.

  • To understand data properties
  • To find patterns in data
  • To suggest modeling strategies
  • To “debug” analyses

基本的な手法

  • Five-number summary
  • Histograms
  • Density plot (Scatter Plot)
  • Boxplots (for Numerical Data, ヒゲ)
  • Barplot (for categorical Data)

統蚈量可芖化

📝芁玄統蚈量をたずたりのあるデヌタセットにしおリストで衚瀺したり, テヌブルで衚瀺したりする.

📊五数芁玄

Five number summary.

デヌタのばら぀きの様子をあらわすのに四分䜍数の5぀の統蚈量を甚いお衚すこず. 5぀の四分䜍数をひず぀にたずめたデヌタセット.

  • 最小倀: 第0四分䜍数
  • Q1: 第 1 四分䜍数
  • 䞭倮倀: 第 2 四分䜍数
  • Q3: 第 3 四分䜍数
  • 最倧倀: 第 4四分䜍数

これを芖芚化したのが📊箱ひげ図.

📊床数分垃衚

暙本の敎理方法の䞀぀, Frequency Destribution, Frequency Tables

床数: frequency

デヌタの倀をxnilで衚すずき, xが珟れる回数. すべおの床数に察するそれぞれの床数を比率で珟したものを盞察床数 (Relative Frequencies) ずいう.

比范系可芖化: 共通軞で぀以䞊の倀を比べる

共通軞で2぀以䞊の倀を比べるグラフ. 比范軞がずくに倧事になる.

📊棒グラフ

プロットされた棒で項目の倀を瀺すグラフ.

䞀本䞀本の棒は独立しおいお, カテゎリカル倉数を珟す堎合に利甚される.

📊ヒストグラム

📊床数分垃衚を長方圢の柱で珟したものをヒストグラム (histogram) ずいう.

しばしば棒グラフず区別しお柱グラフ, 柱状グラフずいう.

党䜓のデヌタのばら぀き(分垃)や内蚳をみるために䜿われる. 連続的なスケヌルでデヌタを扱う.

⚖棒グラフずヒストグラムの違いは?

棒グラフは独立したデヌタを衚瀺する. ヒストグラムは連続したデヌタのばら぀きをみる.

芋た目が同じだがほかは党郚違う.

📊箱ひげ図: Box Plot

ボックスプロット図, Box And Wisker.

ばら぀きのあるデヌタをわかりやすく衚珟するための統蚈孊的グラフ.

五数芁玄: five-number summaryの芖芚化.

長方圢の箱ずその䞡端から䌞びるひげで衚珟される.

芁玄統蚈量ず元のデヌタの分垃の䞡方を衚すこずができ,棒グラフより情報量が倚い.

箱ひげ図は異なる耇数のデヌタのばら぀きを比范する事ができる.


📊散垃図: Scatter Plot

構成系可芖化: 党䜓ず郚分を比范

党䜓ず郚分を比范するグラフ.

📊円グラフ: Pie Graph

倉化系可芖化: 時系列の比范

時系列の比范をするグラフ.

📊折れ線グラフ: Line Chart/Dot Plot

定量的倉数を珟す堎合に利甚される.

EDAツヌルたずめ

🔖BIツヌルぞ.

デヌタ可芖化Topics

💡分析ずは比べるこず: 定量分析の3぀の型

📚むシュヌからはじめよ - 安宅和人より.

分析ずは, 比范するこず. そしお比范の軞が分析に倧事になる.

特に定量分析においお倧事な型は3぀. いろんな分析手法もこの぀のどれかに分類可胜.

  • 比范: 共通軞で぀以䞊の倀を比べるこず
    • ヒストグラム
    • 分垃図
    • バヌ
    • コラム
  • 構成: 党䜓ず郚分を比范するこず
    • パむ
    • スタック
    • りォヌタヌフォヌル
    • ビルドアップ
  • 倉化: 時系列の比范をするこず
    • ラむン
    • コラム
    • レンゞ

✅Chart/Plot/Graphの違いは?

蚀葉がいろいろあるように思うので敎理したい.