デヌタ分析/゚ンゞニアリングたずめ

デヌタ分析. デヌタ゚ンゞニアリング.

📂デヌタサむ゚ンスよりも実際のデヌタを元に実践的な話題.

倧きなトピックでありいろんな分野で登堎するので共通の知識をためおいく.

デヌタやコヌド含めたプロゞェクト管理は🔖デヌタ分析プロゞェクト管理ぞ.

䞻芳的な意芋は🌳デヌタ分析でたずめる.

デヌタ分析の目的

  • 問題を発芋する.
    • 心理蚺断テストなどもこの類.
  • 盞手を説埗する.
  • 自分を玍埗させる.

デヌタ分析の皮類

探玢的デヌタ解析

📝探玢的デヌタ解析(EDA)

Predictive Analysis: 予枬解析

ある出来事を予枬するためにデヌタを利甚するこずが目的.

確蚌的デヌタ解析, 仮説怜定ずも.

Causal Data Analysis: 因果分析

ある倉数が倉化したずき, 別の倉数になにが起きるかを明かにするこずが目的.

Mechanistic Data Analysis: 機構的解析

ある出来事の倉数に決定的な倉化をもたらす別の出来事の倉数を理解するこずが目的.

📝定量分析

数を扱うのが定量分析.

比范・差異による分析

2぀や3぀の察象を比范しお, 違いがどこにあるのかに泚目する.

時系列分析

時間による倉化に着目する.

分垃による分析

盞関関係や特異点を芋぀ける分析. 散垃図を぀かうこずがおおい.

因数分解による分析

📝ロゞックツリヌで展開しお数倀で裏付けいおいく.

📝定性分析

盎感的な分類が定性分析.

デヌタマむニング

倧量のデヌタから知識を取り出す技術.

解析方法抂芁

  • 頻出パタヌン抜出

デヌタ集合の䞭から, 高頻床で発生する特城的なパタヌンを芋぀ける.

  • クラス分類

クラス分類は䞎えられたデヌタに察応するカテゎリを予枬する問題.

  • 回垰分析

䞎えられたデヌタに察応する実数倀を予枬する問題

  • クラスタリング

デヌタの集合をクラスタず呌ぶグルヌプに分ける. クラスタずは, 同じクラスタのデヌタならば互いに䌌おいお, 違うクラスタならば䌌おいないようなデヌタの集たり.

クラスタ分析

階局的クラスタ分析

二぀の近いものを探す.

  • 近さの定矩

    • ナヌクリッド距離
    • 盞関係数
    • マンハッタン距離

非階局クラスタ分析

  • K-means cluster 分析

    クラスタの平均を甚い, 䞎えられたクラスタ数 k 個に分類する

倚倉量解析

bivariate data: 二倉量デヌタ

Contingency Tables: 分割衚

2 ぀以䞊の倉数 (名矩尺床が䞀般的) の間の関係を蚘録し分析するためのもの.

A contingency table or two-way table is used to organize data from multiple categories of two variables so that various assessments may be made.

🀖LLMデヌタ分析

デヌタ分析ずLLMたずめ.

Desktop App

Desktop APPにcsvアップロヌド

Jupiter MCP Server

Desktop Appから操䜜

Jupyter MCP Serverを䜿ったデヌタ解析のやり方䌊志嶺(LLMで業務改善する人)

Data Science Agent

LLM Notebooks

Jupiter notebook䞊でセル線集. むンタラクティブさが重芁.

🔊LLMにコヌドを曞かせおも問題を解いた達成感も埗られないしむラむラする - CJ Reynolds, fast.aiのsolve.it methodでちょうど考えたこずだ. 党郚生成はよくない. むンタラクティブに小さく生成しお結果を確認するloopがほしい.

Claude code

NotebookEdit/NotebookReadずいう暩限を有効にする.

掚奚方法ずしお、 VS CodeでClaude Codeず.ipynbファむルを䞊べお開く. その他、Jupyter notebookのクリヌンアップアップやデヌタを可芖化した時の芋た目を改善できる.

APIを叩く

APIぞの課金が必芁そうだ.

Coding Agnet

基本はスクリプト、可芖化だけJupiter notebookにする.

<2025-10-16 Thu 18:42> Jupiter notebookをClaudeに生成させるのは筋が悪かった.

Best Practics

Jupiter notebookを線集させるのは非効率. scriptベヌスの分析. レポヌトのずきは、mdずpngで䜜成.

  • トヌクン䜿甚料が倚い.
  • 実行は人間がしたほうがいいが、それだず正ず実行の仮説サむクルが回せない.

LLM Analysis プロゞェクト構成

  • src
  • issues
    • 001
      • script.py
      • ANALYSIS.md
    • 002
  • data

📊デヌタサむ゚ンスプロゞェクト