📝データラングリングまとめ

Data Wranging. データの整理と変換を合わせた概念.

ラングリングには, もともと馬や牛を集めて飼いならす意味がある. カーボーイのようにデータを自在に操るスキル.

簡単にデータにアクセスして分析できるように, 乱雑で複雑なデータセットを整理して結合するプロセス.

🔖データフレームをつかった変換処理.

データ前処理, データ整形, データクリーニング… いろいろな変換の用語を整理する.

各論

📝データ前処理

機械学習やデータマイニングの前段階で行われるデータ変換.

Data pre-processing.

しばしば, wrangingと同じ意味に使われるような, いろんな概念を含むもの.

📝データ整形

外部から取得したデータ(非整形データ)を表形式データに整えること.

すなわち, 各列が変数で, 各行が観測値になる.

正規化とも.

📝整形データ

📝データ整形されたデータは整形データ(tidy data)と言われる.

各列が変数で, 各行が観測値のデータ.

いろいろ呼び名がある.

  • テーブル形式データ
  • Tabularデータ
  • 表形式データ
  • 構造化データ
  • 正規化データ

📝データクリーニング

外れ値や欠損値を補う.

📊正規化

Normalization. データを一貫した形式や標準に変換するプロセス.

📝データ変換

Data Preprocessing. 整理データに対するデータ変換.

  • 対象となる観測範囲を狭める.
  • 既存の変数(列)から新たな変数(列)の追加.
  • 要約統計量の追加.

データ抽出

データ集約

groupby, aggregateと呼ばれるもの.

手法には2つある.

  • groupbyに集約関数を指定する(count/sumなど).
  • window関数に対応した集約関数を利用.

ユニークカウント集計

カテゴリカルデータの重複をのぞいた数の集計.

度数分布

任意の階級ごとに出現頻度を計算. 連続データを階級別に離散化した上でのユニークカウント集計.

cf. 📊ヒストグラム: Histgram

合計値算出

cumsum, 累積分布.

ビニング処理

binning, ビン分割ともいう.

連続値を任意の境界値で区切りカテゴリ分けして離散値に変換する処理のこと.

ビニングにもいろいろ種類がある. 一般的なのはバケットびにんぐ(bucket:バケツ).

ビニングにも色々あるらしい - 雑記 in hibernation

データ結合

データ分割

データ生成

データ展開

up: 📝データサイエンス