Appendix C: RStudio IDE
データ分析勉強会では長らく R Commander(以降、Rcmdr) が利用されています。勉強会の母体となっている SQiP研究会 のソフトウェアメトリクスに関する演習コースでも同様です。これはプログラミングに縁の薄いソフトウェア品質管理技術者が短期間で R を用いた分析を行えるようにとの配慮からです。実際、 Rcmdr はコードを記述しなくてもデータの可視化や分析ができますのでデータ分析の初学者にとっては R の恩恵を簡単に受けられる非常に便利な道具です。
しかし、Rcmdr は R のごく一部の関数を GUI で使えるようにしたラッパープログラムですので、できることが非常に限られています。加えて GUI 操作なため操作自体が記録に残りません。つまり、探索的にデータを分析を行ってもその手順分析者の記憶に依存してしまいますので分析再現性の観点から見ると好ましい分析環境とは言えません。
本格的な探索的データ分析を行うには、出来ることが限られる Rcmdr ではなく R のスクリプトを用いるべきです。しかし、 R 本体(R Console)は非常に機能が限られていますので、それだけで探索的データ分析を行うのは非常に困難です。そこで、初学者には様々な機能を予め備えている統合開発環境(IDE - Integrated Development Environment)を利用をおすゝめします。
R 用統合開発環境のデファクトスタンダードと言えるのが RStudio, PBC の RStudio IDE (以降、RStudio) です。無償版である Open Source Edition でも全ての基本的な機能を利用できます。
初学者にとって RStudio には以下のような便利な機能があります。
- 補完機能が強力
- 関数名・変数名・パッケージ名などを補完してくれますので入力負荷が大幅に減ります
- エディタ機能が強力
- キーひとつでヘルプの参照が可能ですので即座に疑問が解決できます
- 部分的にコードを実行できますので手順を確認しながらコーディングできます
- Markdown 記述が使えますので分析と報告書作成を同時に進められます
- コードの直下に実行結果を表示することができますのでコードと実行結果の関係性が一目でわかります
- パッケージ管理が分かりやすい
- インストールされているパッケージが一目でわかります
- パッケージの検索・読込み・インストールが GUI 操作で簡単にできます
- その他の便利な機能
- 作成した変数を一覧で確認できると共に値も確認できます
- プロジェクト管理機能が使えますので分析ごとにファイルなどをセパレートできます
- バージョンコントロールシステムを用いた履歴管理ができます
- Python などの他言語もサポートしています
上記は機能のほんの一部を紹介したにすぎません。 RStudio は R を利用した探索的データ分析を効率的かつ強力にしかも無償でサポートしてくれる道具です。