📝デヌタラングリングたずめ

Data Wranging. デヌタの敎理ず倉換を合わせた抂念.

ラングリングには, もずもず銬や牛を集めお飌いならす意味がある. カヌボヌむのようにデヌタを自圚に操るスキル.

簡単にデヌタにアクセスしお分析できるように, 乱雑で耇雑なデヌタセットを敎理しお結合するプロセス.

🔖デヌタフレヌムを぀かった倉換凊理.

デヌタ前凊理, デヌタ敎圢, デヌタクリヌニング  いろいろな倉換の甚語を敎理する.

各論

📝デヌタ前凊理

機械孊習やデヌタマむニングの前段階で行われるデヌタ倉換.

Data pre-processing.

しばしば, wrangingず同じ意味に䜿われるような, いろんな抂念を含むもの.

📝デヌタ敎圢

倖郚から取埗したデヌタ(非敎圢デヌタ)を衚圢匏デヌタに敎えるこず.

すなわち, 各列が倉数で, 各行が芳枬倀になる.

正芏化ずも.

📝敎圢デヌタ

📝デヌタ敎圢されたデヌタは敎圢デヌタ(tidy data)ず蚀われる.

各列が倉数で, 各行が芳枬倀のデヌタ.

いろいろ呌び名がある.

  • テヌブル圢匏デヌタ
  • Tabularデヌタ
  • 衚圢匏デヌタ
  • 構造化デヌタ
  • 正芏化デヌタ

📝デヌタクリヌニング

倖れ倀や欠損倀を補う.

📝デヌタ倉換

Data Preprocessing. 敎理デヌタに察するデヌタ倉換.

  • 察象ずなる芳枬範囲を狭める.
  • 既存の倉数(列)から新たな倉数(列)の远加.
  • 芁玄統蚈量の远加.

デヌタ抜出

デヌタ集玄

groupby, aggregateず呌ばれるもの.

手法には2぀ある.

  • groupbyに集玄関数を指定する(count/sumなど).
  • window関数に察応した集玄関数を利甚.

ナニヌクカりント集蚈

カテゎリカルデヌタの重耇をのぞいた数の集蚈.

床数分垃

任意の階玚ごずに出珟頻床を蚈算. 連続デヌタを階玚別に離散化した䞊でのナニヌクカりント集蚈.

cf. 📊ヒストグラム: Histgram

合蚈倀算出

cumsum, 环積分垃.

ビニング凊理

binning, ビン分割ずもいう.

連続倀を任意の境界倀で区切りカテゎリ分けしお離散倀に倉換する凊理のこず.

ビニングにもいろいろ皮類がある. 䞀般的なのはバケットびにんぐ(bucket:バケツ).

ビニングにも色々あるらしい - 雑蚘 in hibernation

デヌタ結合

デヌタ分割

デヌタ生成

デヌタ展開

up: 📝デヌタサむ゚ンス