データ分析/エンジニアリングまとめ

データ分析. データエンジニアリング.

📂データサイエンスよりも実際のデータを元に実践的な話題.

大きなトピックでありいろんな分野で登場するので共通の知識をためていく.

データやコード含めたプロジェクト管理は🔖データ分析プロジェクト管理へ.

主観的な意見は🌳データ分析でまとめる.

データ分析の目的

  • 問題を発見する.
    • 心理診断テストなどもこの類.
  • 相手を説得する.
  • 自分を納得させる.

データ分析の種類

探索的データ解析

📝探索的データ解析(EDA)

Predictive Analysis: 予測解析

ある出来事を予測するためにデータを利用することが目的.

確証的データ解析, 仮説検定とも.

Causal Data Analysis: 因果分析

ある変数が変化したとき, 別の変数になにが起きるかを明かにすることが目的.

Mechanistic Data Analysis: 機構的解析

ある出来事の変数に決定的な変化をもたらす別の出来事の変数を理解することが目的.

📝定量分析

数を扱うのが定量分析.

比較・差異による分析

2つや3つの対象を比較して, 違いがどこにあるのかに注目する.

時系列分析

時間による変化に着目する.

分布による分析

相関関係や特異点を見つける分析. 散布図をつかうことがおおい.

因数分解による分析

📝ロジックツリーで展開して数値で裏付けいていく.

📝定性分析

直感的な分類が定性分析.

データマイニング

大量のデータから知識を取り出す技術.

解析方法概要

  • 頻出パターン抽出

データ集合の中から, 高頻度で発生する特徴的なパターンを見つける.

  • クラス分類

クラス分類は与えられたデータに対応するカテゴリを予測する問題.

  • 回帰分析

与えられたデータに対応する実数値を予測する問題

  • クラスタリング

データの集合をクラスタと呼ぶグループに分ける. クラスタとは, 同じクラスタのデータならば互いに似ていて, 違うクラスタならば似ていないようなデータの集まり.

クラスタ分析

階層的クラスタ分析

二つの近いものを探す.

  • 近さの定義

    • ユークリッド距離
    • 相関係数
    • マンハッタン距離

非階層クラスタ分析

  • K-means cluster 分析

    クラスタの平均を用い, 与えられたクラスタ数 k 個に分類する

多変量解析

bivariate data: 二変量データ

Contingency Tables: 分割表

2 つ以上の変数 (名義尺度が一般的) の間の関係を記録し分析するためのもの.

A contingency table or two-way table is used to organize data from multiple categories of two variables so that various assessments may be made.

🤖LLMデータ分析

データ分析とLLMまとめ.

Desktop App

Desktop APPにcsvアップロード

Jupiter MCP Server

Desktop Appから操作

Jupyter MCP Serverを使ったデータ解析のやり方|伊志嶺(LLMで業務改善する人)

Data Science Agent

LLM Notebooks

Jupiter notebook上でセル編集. インタラクティブさが重要.

🔦LLMにコードを書かせても問題を解いた達成感も得られないしイライラする - CJ Reynolds, fast.aiのsolve.it methodでちょうど考えたことだ. 全部生成はよくない. インタラクティブに小さく生成して結果を確認するloopがほしい.

Claude code

NotebookEdit/NotebookReadという権限を有効にする.

推奨方法として、 VS CodeでClaude Codeと.ipynbファイルを並べて開く. その他、Jupyter notebookのクリーンアップアップやデータを可視化した時の見た目を改善できる.

APIを叩く

APIへの課金が必要そうだ.

Coding Agnet

基本はスクリプト、可視化だけJupiter notebookにする.

<2025-10-16 Thu 18:42> Jupiter notebookをClaudeに生成させるのは筋が悪かった.

Best Practics

Jupiter notebookを編集させるのは非効率. scriptベースの分析. レポートのときは、mdとpngで作成.

  • トークン使用料が多い.
  • 実行は人間がしたほうがいいが、それだと正と実行の仮説サイクルが回せない.

LLM Analysis プロジェクト構成

  • src
  • issues
    • 001
      • script.py
      • ANALYSIS.md
    • 002
  • data

📊データサイエンスプロジェクト