1.1 Data Science Workflow

 データ分析の方法は様々ですが、そのプロセスは下図のように抽象化することができます。

Data Science Workflow, CC BY-NC-ND 3.0 US, Hadley Wickham

Fig 1.1: Data Science Workflow, CC BY-NC-ND 3.0 US, Hadley Wickham

 この図は「Data Science Workflow」と呼ばれ、R コミュニティに多大な貢献をしている Hadley Wickham がその著書 『R for Data Science』 で提唱している概念図です。本書は、この Data Science Workflow に基づくページ構成になっており各プロセスのスコープ概略は下記の通りです。
 

Program
 データ分析のすべてのプロセス(Tidy 〜 Communicate/Automate)で必要となるツールがプログラミングです。プログラミングを覚えることで効率的に分析処理を行えるようになります。

Import
 分析対象となるデータを分析環境に取り込み分析をできるようにするのがインポートプロセスです。データは様々な形式(文字コード、ファイル形式など)で保存されていますので、それらに見合った方法でインポートする必要があります。
 
Tidy
 インポートしたデータは必ずしもデータ分析に適した形式になっているとは限りませんので、一貫した形式(Tidy data)に整理します。 Tidy data はデータ分析において重要な概念です。
 
Transform
 整理したデータ(Tidy data)がそのまま状態でデータ分析に使えることは稀です。不要なデータを削除したり(クレンジング)、必要なデータだけに絞り込んだり、新しい変数を計算したりする必要があります。
 Tidy プロセスと合わせて WrangleData wrangling、前処理と呼ばれることもあります。
 
Visualize
 データを可視化することは様々な示唆を得ることと同義といえます。分析方針を考えるためにもデータがどういう傾向をもっているのかを把握するためのプロセスともいえます。
 
Model
 可視化で得られた情報を元に数式可(モデル化)するのプロセスです。モデルは様々な
 
Communicate
 分析結果を他人に伝えるためのプロセスです。結果を他人に伝えるだけでは不十分で 再現可能性(Reproducible research) が伴っていることも求められます。    3つの再現可能性