統計学やデータサイエンスを学ぶ上で、最初に理解すべき基本的な概念としてて「データの種類」があります。
データとひと口に言っても、株価のような数値で表せるデータもあれば、アンケートでの回答文、顧客満足度などこの世に存在するデータは多種多様、扱い方もそれぞれ異なってきます。
そこで、統計学初学者にありがちなのが「量的変数」と「質的変数」の違いや、量的変数のなかでも「間隔尺度」「比例尺度」のどちらかの変数の違いを混同しがちで「改めて問われると、どの分類かわからない……」という方も多いはず。
本記事では、各変数の定義とそれぞれの種類や特徴を理論的に説明した上で、実際のデータセットを用いて、実務でもイメージがつきやすいように解説していきます。
さらに、記事の最後には演習問題もございますので、実際に解いて定着をさせていきましょう。
監修者
經田 原弘
東京大学大学院新領域創成科学研究科複雑理工学専攻修了。大学時代は3次元の医療データの平滑化処理を研究テーマとし、大学院時代はJAXAと協業し、月探査機かぐやの衛星データから、月面上の水の存否について調査していた。新卒では株式会社リクルートにてレコメンドシステムの開発等に従事し、現在は製造業系スタートアップにてデータサイエンティストとして勤務。応用情報技術者試験・E資格合格者。
データの種類(量的変数・質的変数)
皆さんが日々触れるデータにも実は種類があり、データ分析実務では、データの種類がなにかによって分析結果への解釈やデータ分析手法が変わります。現時点では不明な点もあるかと思いますが、しっかりとこの記事で学習をしていきましょう。
- ねらい
- データのタイプの違いを理解し、それぞれのデータに適した処理法を理解する
- 学習項目
- 量的変数、間隔尺度、比例尺度
量的変数と質的変数の違い
変数の種類 | 尺度 | 具体例 | 説明 |
---|---|---|---|
質的変数 | 名義尺度 | 性別、血液型 | これらのデータ間での足し算、引き算が困難 |
順序尺度 | 学籍番号、アンケートの満足度 | 優劣、あるいは大小の順番に意味があるデータ。 | |
量的変数 | 間隔尺度 | 気温、西暦 | 足し算、引き算ができるが、10℃は5℃の2倍ではないため、比率計算できない。算術平均、中央値、最頻値の全てが使える。 |
比例尺度 | テストの点数、兄弟・姉妹の数 | 算術平均、中央値、最頻値の計算に加えて、比率計算もできるため、最も扱いやすい尺度 |
データの種類を大別すると「量的変数」「質的変数」という2種類があり、量的変数のなかに間隔尺度・比例尺度、質的変数のなかに名義尺度・順序尺度があります。
まずは全体像を見て、感覚的に見ていきましょう。下記はデータの種類を端的にまとめた表です。(まだこの表だけではイメージがつきづらいとは思いますので、ふんわりとした理解で大丈夫です)
量的変数は測れるデータ(数値で示される)、質的変数は測れないデータ(カテゴリーデータ)と覚えておきましょう。
量的変数とは?
ここからは、データの2分類のなかの「量的データ」について解説をしていきます。
量的変数は「数値によって測れる変数」を指し、その中でも「間隔尺度」「比例尺度」という2種類があります。
サンプルデータ(学校のアンケートデータ)
実際のデータがあった方がイメージしやすいため、本記事では下記のようなサンプルデータを用いて説明していきます。例えば、下記のような試験の受験者のデータがあったと仮定します。
ID | 性別 | 年齢 | 血液型 | 勉強時間 | 教育レベル | 満足度 | クラブ活動 | テストの点数 | 通学手段 | 兄弟姉妹の数 | 学籍番号 | (受験時の)気温 | 西暦 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 男性 | 16 | A | 3 | 高校生 | 3 | サッカー部 | 80 | 電車 | 1 | 123456 | 25℃ | 2019 |
2 | 女性 | 18 | B | 2 | 大学生 | 4 | テニス部 | 90 | 自転車 | 2 | 123457 | 34℃ | 2018 |
3 | 男性 | 17 | O | 1 | 高校生 | 2 | 吹奏楽部 | 70 | 徒歩 | 0 | 123458 | 5℃ | 2017 |
4 | その他 | 19 | AB | 4 | 大学院生 | 5 | 写真部 | 85 | バス | 3 | 123459 | 13℃ | 2020 |
5 | 女性 | 16 | A | 2 | 高校生 | 3 | 漫画研究部 | 75 | 電車 | 1 | 123460 | 18℃ | 2021 |
量的変数の種類・具体例
早速上記のデータを分類し、質的データの具体例をまとめたのが下記の表です。シンプルにいずれも数値として測れるデータかつ、足し引きなどの算術計算をして意味のあるデータとなっているのため、量的変数として扱われます。
尺度 | 具体例 |
---|---|
間隔尺度 | (受験時の)気温、西暦 |
比例尺度 | 年齢、勉強時間、テストの点数、兄弟姉妹の数 |
ここで重要なのが「算術計算」や「平均値」を求めることに意味のあるデータとなっているということです。たとえばこの中には、「満足度」というデータがありますが、こちらは数値で表されるが「質的データ」に分類されます。
例えば、下記のような設問でアンケート回答を促していると仮定しましょう。下記の設問では、「非常に不満」から「非常に満足」までのカテゴリーに分けられます。
あなたの現在の学習環境に対する満足度を教えてください。
- 非常に不満
- 不満
- どちらでもない
- 満足
- 非常に満足
これらの回答は1~5で順序や優劣があったとしても、数値としての意味や間隔は一定ではなく、例えば、「1:非常に不満」と「2:不満」の差と、「4:満足」と「5:非常に満足」の差が同じかどうかはわからないため、測ることができないデータということになります。
統計学的にはカテゴリーを分類するためのデータとして扱われるため、満足度は「質的変数」となります。
編集部では、量的変数と質的変数をまとめて学習できる記事や、質的変数のみを詳しく解説した記事も別で用意しています。興味のある方は是非そちらもご一読ください。
間隔尺度
ここからは、質的変数のなかの「間隔尺度」と「比例尺度」の違いと見分け方について説明していきます。
先ほど、量的変数は「数値で測れるデータであるかつ、算術計算をして意味のあるデータ」と説明しましたが、間隔尺度は「①データの差が均一であるかどうか」「②人間が恣意的にゼロを設定しているかどうか」という条件が追加されます。
間隔尺度の具体例
本データのなかで具体的を示すと、「気温」「西暦」などが間隔尺度に当たります。
変数名 | 値の具体例 | 説明 |
---|---|---|
受験時の気温 | 18℃、20℃、22℃、25℃ | 気温は数値の差は等間隔だが、30℃は15℃の2倍とは言えないため比率を計算できない。 |
西暦 | 2023年 | 西暦も数値の差は等間隔だが、西暦1000年と2000年が倍だという数値に意味をもたない。 |
もう少し具体的に説明していきます。例えば、西暦は一見すると比率計算ができそうに思えるかもしれませんが、実際には間隔尺度に分類されます。
確かに、年数自体は等間隔に時間として経過していきますが、西暦の「0年」というのは人間が設定した値で、紀元前と紀元後でカウントが分かれていだけになります。
比率計算とは、ある数値が別の数値の何倍であるかを示すものです。しかし、西暦において、「2000年は1000年の2倍」と言うことは歴史的または実際的な意味を持ちません。年数そのものは連続する時間のポイントを示しているだけで、比率を取ることに意味がありません。
温度も同様に、10℃と20℃の間隔は等間隔ですが、温度のゼロ点が恣意的であり、0℃は絶対的な基準ではないため、間隔尺度にあたります。
このように、「数値の差が等間隔である」が、「人間が恣意的にゼロを設定しているため、比率の計算ができない(しても意味がない)」という点が見分けるポイントとなります。
比例尺度
次に量的データのもう片方、比例尺度を説明していきます。皆さんが扱うデータの大半は比例尺度に当たり、最も扱いやすい数値データと言っても過言がありません。
比例尺度の具体例
本データセットで説明をすると、「年齢」「勉強時間」「テストの点数」「兄弟姉妹の数」は算術計算や比率計算ができる(することで得られたデータに意味がある)ため、比例尺度に分類されます。
変数名 | 値の具体例 | 説明 |
---|---|---|
年齢 | 16歳、18歳 | (ゼロが存在し)比率計算ができる。 |
勉強時間 | 1時間、3時間 | 〃 |
テストの点数 | 70点、90点 | 〃 |
兄弟姉妹の数 | 1人、3人 | 〃 |
これらの分類方法は一番シンプルといえるでしょう。感覚的にわかる人も多いですが、判別方法をあえて言語化すると「 ①(人間が設定していない)ゼロが存在するか」「 ②比率の計算ができるか」という2点になります。
例えば、年齢0歳、勉強時間0時間、テストの点数0点、兄弟姉妹の数0人はすべて意味のあるゼロですし、2倍の体重や年齢は実際に2倍の量を示します。
演習問題
問題①
問題:
次のうち、比例尺度に該当する変数はどれですか?
選択肢:
a) 年齢
b) 性別
c) 血液型
d) 教育レベル
問題②
問題:
次のうち、間隔尺度に該当する変数はどれですか?
選択肢:
a) 勉強時間
b) 受験時の気温(℃)
c) テストの点数
d) 兄弟姉妹の数
問題③
問題:
次のうち、比率計算が可能な変数はどれですか?
選択肢:
a) 勉強時間
b) 教育レベル
c) 満足度
d) 通学手段