データサイエンスとは

データの収集から分析、モデリング、そしてそこから得られた知見をビジネスに活用するまでの全プロセス. 計量科学.

プロセス

🔍データ分析: 統計学、数学などの専門知識を用いてデータを掘り下げる一部.

📊データサイエンスプロジェクト

機械学習プロジェクト.

ディレクトリ構造ベストプラクティス

  • src: 実験用のプロをグラム. lib, bin.
  • data: 実験用のデータ.
  • notes
  • result

🔦機械学習研究でのコード・データ管理方法

私が機械学習研究をするときのコード・データ管理方法 - Qiita

実験に用いる元データは改変不可能になっていることが大前提.

大本のrawデータをS3で管理.

tweets/
    2015/
        01/
            01/
               tweet-001.gz

元テータから切り出した実験データは圧縮して保存.

projects/
    20151101_{project_name}/
        data.gz
        readme.txt
   ...

Refs


Topics

Opinions

📐まず仮説ありき、そして分析

最も大事なことは, 📝仮説を立ててそれから分析をすること.

問題を整理するために闇雲に分析するのではない. この主張の理由は, 📝仮説思考, つまり限られたリソースの中で最短で解見極めることを目的とする.


仮説ドリブンだからこそデータドリブンが成り立つ – Data

仮説がなく研究をして大した発見がなかったという物理学研究の事例.

🔗References