統計学やデータサイエンスを学ぶ上で、最初に理解すべき基本的な概念としてて「データの種類」があります。
データとひと口に言っても、株価のような数値で表せるデータもあれば、アンケートでの回答文、顧客満足度などこの世に存在するデータは多種多様、扱い方もそれぞれ異なってきます。
そこで、統計学初学者にありがちなのが「量的変数」と「質的変数」の違いや、「名義尺度」「順序尺度」のどちらかの変数の違いを混同しがちで「改めて問われると、どの分類かわからない……」という方も多いはず。
本記事では、各変数の定義とそれぞれの種類や特徴を理論的に説明した上で、実際のデータセットを用いて、実務でもイメージがつきやすいように解説していきます。
さらに、記事の最後には演習問題もございますので、実際に解いて定着をさせていきましょう。
監修者
經田 原弘
東京大学大学院新領域創成科学研究科複雑理工学専攻修了。大学時代は3次元の医療データの平滑化処理を研究テーマとし、大学院時代はJAXAと協業し、月探査機かぐやの衛星データから、月面上の水の存否について調査していた。新卒では株式会社リクルートにてレコメンドシステムの開発等に従事し、現在は製造業系スタートアップにてデータサイエンティストとして勤務。応用情報技術者試験・E資格合格者。
データには「種類」がある!
データとひと口に言っても、降水量などの「量的データ」から、アンケート内のフリーテキスト内容のような「質的データ」など、種類は様々。皆さんが日々触れるデータは思っている以上に幅広く、分類が存在しています。
実務ではデータの種類がなにかによって分析結果への解釈やデータ分析手法が変わります。現時点では不明な点もあるかと思いますが、しっかりとこの記事で学習をしていきましょう。
- ねらい
- データのタイプの違いを理解し、それぞれのデータに適した処理法を理解する
- 学習項目
- 量的変数、間隔尺度、比例尺度、質的変数、名義尺度、順序尺度
量的変数と質的変数
データの種類を大別すると「量的変数」「質的変数」という2種類があり、量的変数のなかに間隔尺度・比例尺度、質的変数のなかに名義尺度・順序尺度があります。
変数の種類 | 尺度 | 具体例 | 説明 |
---|---|---|---|
質的変数 | 名義尺度 | 性別、血液型 | これらのデータ間での足し算、引き算が困難 |
順序尺度 | 学籍番号、アンケートの満足度 | 優劣、あるいは大小の順番に意味があるデータ。 | |
量的変数 | 間隔尺度 | 気温、西暦 | 足し算、引き算ができるが、10℃は5℃の2倍ではないため、比率計算できない。算術平均、中央値、最頻値の全てが使える。 |
比例尺度 | テストの点数、兄弟・姉妹の数 | 算術平均、中央値、最頻値の計算に加えて、比率計算もできるため、最も扱いやすい尺度 |
まずは全体像を見て、感覚的に見ていきましょう。下記はデータの種類を端的にまとめた表です。(まだこの表だけではイメージがつきづらいとは思いますので、ふんわりとした理解で大丈夫です)
量的変数は測れるデータ(数値で示される)、質的変数は測れないデータ(カテゴリーデータ)と覚えておきましょう。
編集部では、量的変数・質的変数を分けて、それぞれを詳細に解説した記事も執筆しています。興味のある方はそちらも是非ご覧ください。
量的変数とは?
ここからは、データの2分類のなかの「量的データ」について解説をしていきます。
量的変数は「数値によって測れる変数」を指し、その中でも「間隔尺度」「比例尺度」という2種類があります。
サンプルデータ(学校のアンケートデータ)
実際のデータがあった方がイメージしやすいため、本記事では下記のようなサンプルデータを用いて説明していきます。例えば、下記のような試験の受験者のデータがあったと仮定します。
ID | 性別 | 年齢 | 血液型 | 勉強時間 | 教育レベル | 満足度 | クラブ活動 | テストの点数 | 通学手段 | 兄弟姉妹の数 | 学籍番号 | (受験時の)気温 | 西暦 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 男性 | 16 | A | 3 | 高校生 | 3 | サッカー部 | 80 | 電車 | 1 | 123456 | 25℃ | 2019 |
2 | 女性 | 18 | B | 2 | 大学生 | 4 | テニス部 | 90 | 自転車 | 2 | 123457 | 34℃ | 2018 |
3 | 男性 | 17 | O | 1 | 高校生 | 2 | 吹奏楽部 | 70 | 徒歩 | 0 | 123458 | 5℃ | 2017 |
4 | その他 | 19 | AB | 4 | 大学院生 | 5 | 写真部 | 85 | バス | 3 | 123459 | 13℃ | 2020 |
5 | 女性 | 16 | A | 2 | 高校生 | 3 | 漫画研究部 | 75 | 電車 | 1 | 123460 | 18℃ | 2021 |
量的変数の種類・具体例
早速上記のデータを分類し、質的データの具体例をまとめたのが下記の表です。シンプルにいずれも数値として測れるデータかつ、足し引きなどの算術計算をして意味のあるデータとなっているのため、量的変数として扱われます。
尺度 | 具体例 |
---|---|
間隔尺度 | (受験時の)気温、西暦 |
比例尺度 | 年齢、勉強時間、テストの点数、兄弟姉妹の数 |
間隔尺度
ここからは、質的変数のなかの「間隔尺度」と「比例尺度」の違いと見分け方について説明していきます。
先ほど、量的変数は「数値で測れるデータであるかつ、算術計算をして意味のあるデータ」と説明しましたが、間隔尺度は「①データの差が均一であるかどうか」「②人間が恣意的にゼロを設定しているかどうか」という条件が追加されます。
間隔尺度の具体例
本データのなかで具体的を示すと、「気温」「西暦」などが間隔尺度に当たります。
変数名 | 値の具体例 | 説明 |
---|---|---|
受験時の気温 | 18℃、20℃、22℃、25℃ | 気温は数値の差は等間隔だが、30℃は15℃の2倍とは言えないため比率を計算できない。 |
西暦 | 2023年 | 西暦も数値の差は等間隔だが、西暦1000年と2000年が倍だという数値に意味をもたない。 |
もう少し具体的に説明していきます。例えば、西暦は一見すると比率計算ができそうに思えるかもしれませんが、実際には間隔尺度に分類されます。
確かに、年数自体は等間隔に時間として経過していきますが、西暦の「0年」というのは人間が設定した値で、紀元前と紀元後でカウントが分かれていだけになります。
比率計算とは、ある数値が別の数値の何倍であるかを示すものです。しかし、西暦において、「2000年は1000年の2倍」と言うことは歴史的または実際的な意味を持ちません。年数そのものは連続する時間のポイントを示しているだけで、比率を取ることに意味がありません。
温度も同様に、10℃と20℃の間隔は等間隔ですが、温度のゼロ点が恣意的であり、0℃は絶対的な基準ではないため、間隔尺度にあたります。
このように、「数値の差が等間隔である」が、「人間が恣意的にゼロを設定しているため、比率の計算ができない(しても意味がない)」という点が見分けるポイントとなります。
比例尺度
次に量的データのもう片方、比例尺度を説明していきます。皆さんが扱うデータの大半は比例尺度に当たり、最も扱いやすい数値データと言っても過言がありません。
比例尺度の具体例
本データセットで説明をすると、「年齢」「勉強時間」「テストの点数」「兄弟姉妹の数」は算術計算や比率計算ができる(することで得られたデータに意味がある)ため、比例尺度に分類されます。
変数名 | 値の具体例 | 説明 |
---|---|---|
年齢 | 16歳、18歳 | (ゼロが存在し)比率計算ができる。 |
勉強時間 | 1時間、3時間 | 〃 |
テストの点数 | 70点、90点 | 〃 |
兄弟姉妹の数 | 1人、3人 | 〃 |
これらの分類方法は一番シンプルといえるでしょう。感覚的にわかる人も多いですが、判別方法をあえて言語化すると「 ①(人間が設定していない)ゼロが存在するか」「 ②比率の計算ができるか」という2点になります。
例えば、年齢0歳、勉強時間0時間、テストの点数0点、兄弟姉妹の数0人はすべて意味のあるゼロですし、2倍の体重や年齢は実際に2倍の量を示します。
質的変数とは?
ここからは、その中でも質的データについて説明していきます。
質的変数は「カテゴリーやグループなどによって分けられる変数」を指し、その中でも「順序尺度」「名義尺度」という2種類があります。
(再掲)サンプルデータ(学校のアンケートデータ)
再掲ですが、実際のデータがあった方がイメージしやすいため、本記事では下記のようなサンプルデータを用いて説明していきます。例えば、下記のような試験の受験者のデータがあったと仮定します。
ID | 性別 | 年齢 | 血液型 | 勉強時間 | 教育レベル | 満足度 | クラブ活動 | テストの点数 | 通学手段 | 兄弟姉妹の数 | 学籍番号 | (受験時の)気温 | 西暦 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 男性 | 16 | A | 3 | 高校生 | 3 | サッカー部 | 80 | 電車 | 1 | 123456 | 25℃ | 2019 |
2 | 女性 | 18 | B | 2 | 大学生 | 4 | テニス部 | 90 | 自転車 | 2 | 123457 | 34℃ | 2018 |
3 | 男性 | 17 | O | 1 | 高校生 | 2 | 吹奏楽部 | 70 | 徒歩 | 0 | 123458 | 5℃ | 2017 |
4 | その他 | 19 | AB | 4 | 大学院生 | 5 | 写真部 | 85 | バス | 3 | 123459 | 13℃ | 2020 |
5 | 女性 | 16 | A | 2 | 高校生 | 3 | 漫画研究部 | 75 | 電車 | 1 | 123460 | 18℃ | 2021 |
質的変数の種類・具体例
早速上記のデータを分類し、質的データの具体例をまとめたのが下記の表です。
これらの変数は数値ではないか、もしくは数値で表されていても、足し引きなどの算術演算に意味がないため、質的変数(名義尺度または順序尺度)として分類されます。
次の章からは、名義尺度・順序尺度の判別方法を説明していきます。
尺度 | 具体例 |
---|---|
名義尺度 | ID、性別、血液型、教育レベル、クラブ活動、通学手段、学籍番号 |
順序尺度 | 満足度 |
名義尺度
ここからは、質的変数のなかの「名義尺度」と「順序尺度」の違いと見分け方について説明していきます。
先ほど、質的変数は「特定のカテゴリーに分類できるもの」と説明しましたが、名義尺度には「(データをカテゴリに分類したときに)数値的な優劣・大小が発生しないもの」という条件が追加されます。
名義尺度の具体例
本データのなかで名義尺度の具体的示すと、「ID」「性別」「血液型」「教育レベル」「満足度」「クラブ活動」「通学手段」などが質的変数に当たります。
変数名 | 値の具体例 | 説明 |
---|---|---|
ID | 1、2、3 | IDは識別用のラベルであり、数値としての意味や順序はありません。 |
性別 | 男性、女性、その他 | 性別はカテゴリーに順序がなく、各ラベルは単なる分類を示します。 |
血液型 | A型、B型、O型、AB型 | 血液型も順序がなく、数値としての意味はありません。 |
クラブ活動 | サッカー部、テニス部、吹奏楽部、写真部、漫画研究部 | クラブ活動も同様に、カテゴリーに順序がなく、単なる分類を示します。 |
通学手段 | 電車、自転車、徒歩、バス | 通学手段も順序がなく、数値としての大小関係はありません。 |
名義尺度の判別方法
データが名義尺度か順序尺度かどうかを判別する際のポイントは2点、「①データ間の足し算・引き算をして意味があるか)」「②データ間に優劣・大小が発生しない」というのが見分ける上での基準となります。
例えば、上記のデータセットには名義尺度として、「ID」があります。これは数値で表されますが、これは単に識別用のラベルとして使われているため、順序や大小関係がなく、足したり引いたりして得られたデータには意味がないものになります。
また、「データの間に優劣・大小がない」ということも重要です。数値で分類できたとしても、優劣や大小にはつながらないという点に留意しておきましょう。
IDは数値ではありますが、一般的には順番で識別するよりはランダムで指定されることが多いです。IDの数字が高いほど受験日が早い・登録が早かったという時系列のデータであれば優劣や大小が示されますが、実務ではそれらは「受験日」「登録日」など他のカラムで識別されるため、一般的にIDは名義尺度して扱われることになります。
順序尺度
質的データのもう片方、順序尺度を説明していきます。順序尺度は名義尺度とは逆に「順番に意味のあるデータ」を指します。
順序尺度の具体例
本データセットで説明をすると、「満足度」などは明確に優劣・大小が表現されるため順序尺度に分類されます。
変数名 | 値 の具体例 | 説明 |
---|---|---|
満足度 | 1(非常に不満) 2(不満) 3(どちらでもない) 4(満足) 5(非常に満足) | 満足度も順序があり、1は非常に不満、5は非常に満足を示しますが、各段階間の差の大きさは一定ではありません。 |
順序尺度の判別方法
ただしここで重要なポイントなのが、順序尺度はデータに優劣・大小が存在しますが、階級間の具体的な数値の差に意味はないということです。下記のような設問をイメージするとよいでしょう。
あなたの現在の学習環境に対する満足度を教えてください。
- 非常に不満
- 不満
- どちらでもない
- 満足
- 非常に満足
優劣や大小があっても具体的な差異が均一であるとは限らないため、単純に足し引きをして比べたり、平均化しても意味のないデータになることが多く、データを分析する際にはその特性を考慮する必要があります。
例えば、満足度を「4」と回答した人と、「1」で回答した人で、「満足度が4倍違う」という解釈にはならず、「1」のという値の差については一様ではありません。
また余談ですが、実務上ではデータを軽量化・簡略化するためにもともとの文字データを数値に変換することがあります。「非常に不満"1"」「不満なら"2"」「どちらでもないなら"3"」と、質的データでも数値で表すことがあります。
演習問題
では、最後に演習問題で理解を深めていきましょう。
問題①
問題:
次のうち、名義尺度の変数はどれですか?
選択肢:
a) 年齢
b) 満足度
c) クラブ活動
d) 受験時の気温
問題②
問題:
次のうち、名義尺度の変数はどれですか?
選択肢:
a) テストの点数
b) 勉強時間
c) 血液型
d) 教育レベル
問題③
問題:
次のうち、順序尺度の変数はどれですか?
選択肢:
a) 学籍番号
b) 年齢
c) 満足度
d) 兄弟姉妹の数
問題④
問題:
次のうち、比例尺度に該当する変数はどれですか?
選択肢:
a) 年齢
b) 性別
c) 血液型
d) 教育レベル
問題⑤
問題:
次のうち、間隔尺度に該当する変数はどれですか?
選択肢:
a) 勉強時間
b) 受験時の気温(℃)
c) テストの点数
d) 兄弟姉妹の数
問題⑥
問題:
次のうち、比率計算が可能な変数はどれですか?
選択肢:
a) 勉強時間
b) 教育レベル
c) 満足度
d) 通学手段