4  始める前に

※本ページの内容はテキストの第4章に相当します

 データ分析を始める前に使用するデータについて把握しておきましょう。データはテキスト特設サイトからダウンロードしておきます。

https://bluebacks.kodansha.co.jp/books/9784065318164/appendix/にあるデータはWindows用とmacOS用がありますので、利用環境に合わせてダウンロードしてください。

4.1 使用するデータの内容

 テキストでは使用するデータのファイル名が「外来患者ストレス.RData」となっていますが、ファイル名が異なるのに同じデータセット名であったり、テキストの説明と異なる順番で変数が並んでいたり、Rcmdrのバグに引っかかったりするので、区別がつくようにいくつかのファイルを用意しました。

 各変数の詳細についてはテキストで確認してください。

Rcmdr 2.8.0にはアクティブデータセット内に10を超える変数がある場合、要約統計量が計算できずフリーズするというバグがあります。

 なお、作成したデータでは使い方がよくわからない変数「ID」を除いてあります。

4.2 変数の種類

 テキストでは変数を「数値をとる場合」と「非数値をとる場合」に二分していますが、一般的には「量的変数」と「質的変数」という名称が使われますが、このふたつの変数を更に分類した尺度を用いるのが一般的です。

変数区分 尺度 意味
質的変数 名義尺度 値が同じか否かという意味しかない
質的変数 順序尺度 順序や大小には意味があるが間隔には意味がない
量的変数 間隔尺度 0が相対的な意味を持ち等間隔であり間隔に意味がある
量的変数 比例尺度 0が絶対的な意味を持ち間隔と比率に意味があるもの

4.3 データ解析の流れ

  1. 一変数単位での要約統計量と分布の確認(第5章)
  2. 二変数単位での相関の確認(第6章)
  3. 二変数以上の変数間の関係を表すモデルの作成