統計学やデータサイエンスを学ぶ上で、最初に理解すべき基本的な概念としてて「データの種類」があります。
データとひと口に言っても、株価のような数値で表せるデータもあれば、アンケートでの回答文、顧客満足度などこの世に存在するデータは多種多様、扱い方もそれぞれ異なってきます。
そこで、統計学初学者にありがちなのが「量的変数」と「質的変数」の違いや、「名義尺度」「順序尺度」のどちらかの変数の違いを混同しがちで「改めて問われると、どの分類かわからない……」という方も多いはず。
本記事では、各変数の定義とそれぞれの種類や特徴を理論的に説明した上で、実際のデータセットを用いて、実務でもイメージがつきやすいように解説していきます。
さらに、記事の最後には演習問題もございますので、実際に解いて定着をさせていきましょう。
監修者
經田 原弘
東京大学大学院新領域創成科学研究科複雑理工学専攻修了。大学時代は3次元の医療データの平滑化処理を研究テーマとし、大学院時代はJAXAと協業し、月探査機かぐやの衛星データから、月面上の水の存否について調査していた。新卒では株式会社リクルートにてレコメンドシステムの開発等に従事し、現在は製造業系スタートアップにてデータサイエンティストとして勤務。応用情報技術者試験・E資格合格者。
データの種類(量的変数・質的変数)
皆さんが日々触れるデータにも実は種類があり、データ分析実務では、データの種類がなにかによって分析結果への解釈やデータ分析手法が変わります。現時点では不明な点もあるかと思いますが、しっかりとこの記事で学習をしていきましょう。
- ねらい
- データのタイプの違いを理解し、それぞれのデータに適した処理法を理解する
- 学習項目
- 質的変数、名義尺度、順序尺度
量的変数と質的変数の違い
まずは全体像を見て、感覚的に見ていきましょう。下記はデータの種類を端的にまとめた表です。(まだこの表だけではイメージがつきづらいとは思いますので、ふんわりとした理解で大丈夫です)
データの種類を大別すると「量的変数」「質的変数」という2種類があり、量的変数のなかに間隔尺度・比例尺度、質的変数のなかに名義尺度・順序尺度があります。
量的変数は測れるデータ(数値で示される)、質的変数は測れないデータ(カテゴリーデータ)と覚えておきましょう。
変数の種類 | 尺度 | 具体例 | 説明 |
---|---|---|---|
質的変数 | 名義尺度 | 性別、血液型 | これらのデータ間での足し算、引き算が困難 |
順序尺度 | 学籍番号、アンケートの満足度 | 優劣、あるいは大小の順番に意味があるデータ。 | |
量的変数 | 間隔尺度 | 気温、西暦 | 足し算、引き算ができるが、10℃は5℃の2倍ではないため、比率計算できない。算術平均、中央値、最頻値の全てが使える。 |
比例尺度 | テストの点数、兄弟・姉妹の数 | 算術平均、中央値、最頻値の計算に加えて、比率計算もできるため、最も扱いやすい尺度 |
編集部では、量的変数と質的変数をまとめて学習できる記事や、量的変数のみを詳しく解説した記事も別で用意しています。興味のある方は是非そちらもご一読ください。
質的変数とは?
ここからは、その中でも質的データについて説明していきます。
質的変数は「カテゴリーやグループなどによって分けられる変数」を指し、その中でも「順序尺度」「名義尺度」という2種類があります。
サンプルデータ(学校のアンケートデータ)
実際のデータがあった方がイメージしやすいため、本記事では下記のようなサンプルデータを用いて説明していきます。例えば、下記のような試験の受験者のデータがあったと仮定します。
ID | 性別 | 年齢 | 血液型 | 勉強時間 | 教育レベル | 満足度 | クラブ活動 | テストの点数 | 通学手段 | 兄弟姉妹の数 | 学籍番号 | (受験時の)気温 | 西暦 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 男性 | 16 | A | 3 | 高校生 | 3 | サッカー部 | 80 | 電車 | 1 | 123456 | 25℃ | 2019 |
2 | 女性 | 18 | B | 2 | 大学生 | 4 | テニス部 | 90 | 自転車 | 2 | 123457 | 34℃ | 2018 |
3 | 男性 | 17 | O | 1 | 高校生 | 2 | 吹奏楽部 | 70 | 徒歩 | 0 | 123458 | 5℃ | 2017 |
4 | その他 | 19 | AB | 4 | 大学院生 | 5 | 写真部 | 85 | バス | 3 | 123459 | 13℃ | 2020 |
5 | 女性 | 16 | A | 2 | 高校生 | 3 | 漫画研究部 | 75 | 電車 | 1 | 123460 | 18℃ | 2021 |
質的変数の種類・具体例
早速上記のデータを分類し、質的データの具体例をまとめたのが下記の表です。
これらの変数は数値ではないか、もしくは数値で表されていても、足し引きなどの算術演算に意味がないため、質的変数(名義尺度または順序尺度)として分類されます。
次の章からは、名義尺度・順序尺度の判別方法を説明していきます。
尺度 | 具体例 |
---|---|
名義尺度 | ID、性別、血液型、教育レベル、クラブ活動、通学手段、学籍番号 |
順序尺度 | 満足度 |
名義尺度
ここからは、質的変数のなかの「名義尺度」と「順序尺度」の違いと見分け方について説明していきます。
先ほど、質的変数は「特定のカテゴリーに分類できるもの」と説明しましたが、名義尺度には「(データをカテゴリに分類したときに)数値的な優劣・大小が発生しないもの」という条件が追加されます。
名義尺度の具体例
本データのなかで名義尺度の具体的示すと、「ID」「性別」「血液型」「教育レベル」「満足度」「クラブ活動」「通学手段」などが質的変数に当たります。
変数名 | 値の具体例 | 説明 |
---|---|---|
ID | 1、2、3 | IDは識別用のラベルであり、数値としての意味や順序はありません。 |
性別 | 男性、女性、その他 | 性別はカテゴリーに順序がなく、各ラベルは単なる分類を示します。 |
血液型 | A型、B型、O型、AB型 | 血液型も順序がなく、数値としての意味はありません。 |
クラブ活動 | サッカー部、テニス部、吹奏楽部、写真部、漫画研究部 | クラブ活動も同様に、カテゴリーに順序がなく、単なる分類を示します。 |
通学手段 | 電車、自転車、徒歩、バス | 通学手段も順序がなく、数値としての大小関係はありません。 |
名義尺度の判別方法
データが名義尺度か順序尺度かどうかを判別する際のポイントは2点、「①データ間の足し算・引き算をして意味があるか)」「②データ間に優劣・大小が発生しない」というのが見分ける上での基準となります。
例えば、上記のデータセットには名義尺度として、「ID」があります。これは数値で表されますが、これは単に識別用のラベルとして使われているため、順序や大小関係がなく、足したり引いたりして得られたデータには意味がないものになります。
また、「データの間に優劣・大小がない」ということも重要です。数値で分類できたとしても、優劣や大小にはつながらないという点に留意しておきましょう。
IDは数値ではありますが、一般的には順番で識別するよりはランダムで指定されることが多いです。IDの数字が高いほど受験日が早い・登録が早かったという時系列のデータであれば優劣や大小が示されますが、実務ではそれらは「受験日」「登録日」など他のカラムで識別されるため、一般的にIDは名義尺度して扱われることになります。
順序尺度
質的データのもう片方、順序尺度を説明していきます。順序尺度は名義尺度とは逆に「順番に意味のあるデータ」を指します。
順序尺度の具体例
本データセットで説明をすると、「満足度」などは明確に優劣・大小が表現されるため順序尺度に分類されます。
変数名 | 値 の具体例 | 説明 |
---|---|---|
満足度 | 1(非常に不満) 2(不満) 3(どちらでもない) 4(満足) 5(非常に満足) | 満足度も順序があり、1は非常に不満、5は非常に満足を示しますが、各段階間の差の大きさは一定ではありません。 |
順序尺度の判別方法
ただしここで重要なポイントなのが、順序尺度はデータに優劣・大小が存在しますが、階級間の具体的な数値の差に意味はないということです。下記のような設問をイメージするとよいでしょう。
あなたの現在の学習環境に対する満足度を教えてください。
- 非常に不満
- 不満
- どちらでもない
- 満足
- 非常に満足
優劣や大小があっても具体的な差異が均一であるとは限らないため、単純に足し引きをして比べたり、平均化しても意味のないデータになることが多く、データを分析する際にはその特性を考慮する必要があります。
例えば、満足度を「4」と回答した人と、「1」で回答した人で、「満足度が4倍違う」という解釈にはならず、「1」のという値の差については一様ではありません。
また余談ですが、実務上ではデータを軽量化・簡略化するためにもともとの文字データを数値に変換することがあります。「非常に不満"1"」「不満なら"2"」「どちらでもないなら"3"」と、質的データでも数値で表すことがあります。
演習問題
では、最後にここからは演習問題で理解を深めていきましょう。
問題①
問題:
次のうち、名義尺度の変数はどれですか?
選択肢:
a) 年齢
b) 満足度
c) クラブ活動
d) 受験時の気温
問題②
問題:
次のうち、名義尺度の変数はどれですか?
選択肢:
a) テストの点数
b) 勉強時間
c) 血液型
d) 教育レベル
問題③
問題:
次のうち、順序尺度の変数はどれですか?
選択肢:
a) 学籍番号
b) 年齢
c) 満足度
d) 兄弟姉妹の数