1.1 Data Science Workflow
データ分析の方法は様々ですが、そのプロセスは下図のように抽象化することができます。
この図は「Data Science Workflow」と呼ばれ、R コミュニティに多大な貢献をしている Hadley Wickham がその著書 『R for Data Science』 で提唱している概念図です。本書は、この Data Science Workflow に基づくページ構成になっており各プロセスのスコープ概略は下記の通りです。
Program
データ分析のすべてのプロセス(Tidy 〜 Communicate/Automate)で必要となるツールがプログラミングです。プログラミングを覚えることで効率的に分析処理を行えるようになります。
Import
分析対象となるデータを分析環境に取り込み分析をできるようにするのがインポートプロセスです。データは様々な形式(文字コード、ファイル形式など)で保存されていますので、それらに見合った方法でインポートする必要があります。
Tidy
インポートしたデータは必ずしもデータ分析に適した形式になっているとは限りませんので、一貫した形式(Tidy data)に整理します。 Tidy data はデータ分析において重要な概念です。
Transform
整理したデータ(Tidy data)がそのまま状態でデータ分析に使えることは稀です。不要なデータを削除したり(クレンジング)、必要なデータだけに絞り込んだり、新しい変数を計算したりする必要があります。
Tidy プロセスと合わせて Wrangle や Data wrangling、前処理と呼ばれることもあります。
Visualize
データを可視化することは様々な示唆を得ることと同義といえます。分析方針を考えるためにもデータがどういう傾向をもっているのかを把握するためのプロセスともいえます。
Model
可視化で得られた情報を元に数式可(モデル化)するのプロセスです。モデルは様々な
Communicate
分析結果を他人に伝えるためのプロセスです。結果を他人に伝えるだけでは不十分で 再現可能性(Reproducible research) が伴っていることも求められます。
3つの再現可能性