データサイエンスとは
データの収集から分析、モデリング、そしてそこから得られた知見をビジネスに活用するまでの全プロセス. 計量科学.
プロセス
🔍データ分析: 統計学、数学などの専門知識を用いてデータを掘り下げる一部.
- 問題定義/仮説生成
- 📝データ収集
- 📝データラングリング
- データクリーニング
- [[20221201210306.md][📝探索的データ解析]
- 特徴量設計
- モデル構築
- 🔖データ可視化
- デプロイ
- モデル運用
📊データサイエンスプロジェクト
機械学習プロジェクト.
ディレクトリ構造ベストプラクティス
- src: 実験用のプロをグラム. lib, bin.
- data: 実験用のデータ.
- notes
- result
🔦機械学習研究でのコード・データ管理方法
私が機械学習研究をするときのコード・データ管理方法 - Qiita
実験に用いる元データは改変不可能になっていることが大前提.
大本のrawデータをS3で管理.
tweets/
2015/
01/
01/
tweet-001.gz元テータから切り出した実験データは圧縮して保存.
projects/
20151101_{project_name}/
data.gz
readme.txt
...Refs
- AIエージェント頼みでデータ分析コンペにチャレンジしてみた, もうコードかかないからVSCodeじゃなくてObsidianという点が驚いた.
- 目指せメダリスト!Kaggle実験管理術 着実にコンペで成果を出すためのノウハウ (AI & TECHNOLOGY) | 髙橋 正憲, 篠田 裕之 |本 | 通販 | Amazon
Topics
Opinions
📐まず仮説ありき、そして分析
最も大事なことは, 📝仮説を立ててそれから分析をすること.
問題を整理するために闇雲に分析するのではない. この主張の理由は, 📝仮説思考, つまり限られたリソースの中で最短で解見極めることを目的とする.
仮説ドリブンだからこそデータドリブンが成り立つ – Data
仮説がなく研究をして大した発見がなかったという物理学研究の事例.