統計講師が質的変数を解説!名義尺度・順序尺度の違いとは?

統計学やデータサイエンスを学ぶ上で、最初に理解すべき基本的な概念に「質的変数」があります。

ただ、統計学初学者だと「名義尺度」「順序尺度」のどちらかの変数の違いを混同しがちで「改めて問われると、どの分類かわからない……」という方も多いはず。

本記事では、各変数の定義とそれぞれの種類や特徴を理論的に説明した上で、実際のデータセットを用いて、実務でもイメージがつきやすいように解説していきます。

さらに、記事の最後には演習問題もございますので、実際に解いて定着をさせていきましょう。

監修者
經田 原弘
東京大学大学院新領域創成科学研究科複雑理工学専攻修了。大学時代は3次元の医療データの平滑化処理を研究テーマとし、大学院時代はJAXAと協業し、月探査機かぐやの衛星データから、月面上の水の存否について調査していた。新卒では株式会社リクルートにてレコメンドシステムの開発等に従事し、現在は製造業系スタートアップにてデータサイエンティストとして勤務。応用情報技術者試験・E資格合格者。

【Udemy講座】サイト限定でDS検定講座クーポン配布中!

  • 元リクルート・東大院卒(JAXAと共同研究)監修のデータサイエンティスト検定の対策講座をUdemyで配信中
  • 機械学習に必要な数学知識も基礎から丁寧に解説
  • 期間限定&業界最安!サイト内限定クーポン利用で1,600円で受講可能(正規価格は8,800円)

\ クーポン利用で1,600円/

目次

データの種類

皆さんが日々触れるデータにも実は種類があり、データ分析実務では、データの種類がなにかによって分析結果への解釈やデータ分析手法が変わります。現時点では不明な点もあるかと思いますが、しっかりとこの記事で学習をしていきましょう。

この記事で学べること
  • ねらい
    • データのタイプの違いを理解し、それぞれのデータに適した処理法を理解する
  • 学習項目
    • 質的変数、名義尺度、順序尺度

使用するデータ

本記事では実際のデータを見て、データのどれが量的変数にあたり、どれが質的変数にあたるのかをと具体例と、データの分類の考え方に基づいて説明していきます。

今回は米カルフォルニア大学アーバイン校の「UCI Machine Learning Repository」にて公開されている、ポルトガルの中等教育学校の649人の生徒に関するデータセットを用いて説明をしていきます。

データの中には「現在の学校」や「(在籍する学校の)選択理由」「成績」など、実際のリアルなデータが含まれており、イメージがしやすいデータセットとなっています。

使用するデータ
  • データセット名
  • データ内容
    • ポルトガルの2つの学校の中等教育の生徒の成績に関するアンケートデータ。
    • 生徒の学校名、年齢、性別、居住地などのデータが含まれる。
スクロールできます
カラム名内容
学校GP -> Gabriel Pereira, MS -> Mousinho da Silveira
選択理由名目:「家」から近い、学校の「評判」、「コース」の希望、または「その他」
通学時間自宅から学校までの移動時間 (数値: 1 - <15 分、2 - 15 ~ 30 分、3 - 30 分~1 時間、または 4 - >1 時間)
勉強時間週の学習時間 数値: (1 - > 2 時間、2 - 2 ~ 5 時間、3 - 5 ~ 10 時間、または 4 - >10 時間)
不合格科目数数値: 1<=n<3 の場合は n、それ以外の場合は 4
学校のサポート追加の教育支援 (はい or いいえ)
家族のサポート家族の教育支援 (はい or いいえ)
課外活動はい or いいえ
保育園通っていた or 通っていない
高等教育の意欲高等教育を受けたい or 受けたくない
インターネットのアクセスアクセス可能 or アクセス不可能
自由時間1 - 非常に低い、5 - 非常に高い
外出頻度1 - 非常に低い、5 - 非常に高い
欠席日数0~93
1学期の成績0~20
2学期の成績0~20
3学期の成績0~20

量的変数と質的変数の違い

まずは全体像を見て、感覚的に見ていきましょう。下記はデータの種類を端的にまとめた表です。

データの種類を大別すると「量的変数」「質的変数」という2種類があり、量的変数のなかに間隔尺度・比例尺度、質的変数のなかに名義尺度・順序尺度があります。

質的変数(名義尺度・順序尺度)、量的変数(間隔尺度・比例尺度)
変数の種類尺度具体例説明
質的変数名義尺度学校名、性別、学校選択理由これらのデータ間での足し算、引き算が困難
順序尺度成績優劣、あるいは大小の順番に意味があるデータ。
量的変数間隔尺度体温足し算、引き算ができるが、10℃は5℃の2倍ではないため、比率計算できない。算術平均、中央値、最頻値の全てが使える
比例尺度欠席日数算術平均、中央値、最頻値の計算に加えて、比率計算もできるため、最も扱いやすい尺度

まだこの表だけではイメージがつきづらいとは思いますので、ふんわりとした理解で大丈夫です。

量的変数は「量」を測るのに使われ、質的変数は「質」を区別するのに使われるという点を理解しておきましょう。

質的変数

では、比較的イメージのしやすい質的変数から説明していきましょう。質的変数を端的に表すと、カテゴリーやグループなどによって分けられる変数のことを指します。

普通「データ」というと「必ず数値で表すもの」とイメージしがちですが、実際は数値でないものも「データ」として扱うことがあります。

例えば、下記のようなアンケートデータがあったとき、「学校名」「(その学校の)選択理由」などの解答は数値ではないと場合もあります。特定のカテゴリーやグループに分けられるため「質的変数」になります。

アンケート回答No学校名(その学校の)選択理由
1GP家から近い
2MS 評判がよい
3MSカリキュラム(コース)がよい

名義尺度

次に質的変数のなかの2つの変数「名義尺度」と「順序尺度」についてみていきましょう。

名義尺度は「データをカテゴリに分類したときに、数値的な優劣・大小が発生しないもの」を指します。

本データセット(中学生へのアンケートデータ)で説明をすると、「どこの学校に通っているか(学校)」や「なぜその学校を選んだか(選択理由)」というアンケートの回答は名義尺度に分類されます。

データが名義尺度かどうかを判別する際のポイントは2点、「①データ間の足し算・引き算をして意味があるか)」「②データ間に優劣・大小が発生しない」というのが見分ける上での基準となります。

ポイント①:データの足し引きをして意味があるか

例えば、上記のデータセットの値には、「学校」の列に文字列で「学校名(GP、MS)」入っていたり、「選択理由」の列に「カリキュラム(Course)」「評判(Reputation)」と分類がされていることがわかりますが、いずれも足し引きして意味があるものではないですよね。

ポイント②:データ間に大小や優劣がない

また、「データの間に優劣・大小がない」ということも重要です。

例えば、上記のデータでは学校名は文字列としてデータの値が入っていますが、実務上ではデータを軽量化・簡略化するために「A中学なら1」「B中学なら2」「C中学なら3」と、質的データでも数値で表すことがあります。

下記のようなイメージです。

学校名CD
A中学校0001
B中学校0002
C中学校0003

ここでは「0001」+「0002」をして、「0003」という数値を出しても「3だからC学校」とはならず意味のないデータになります。

本データセット(中学生へのアンケートデータ)で説明をすると、質的データに分類されます。数値で分類できたとしても、優劣や大小にはつながらないという点に留意しておきましょう。

順序尺度

質的データのもう片方、順序尺度を説明していきます。順序尺度は名義尺度とは逆に「順番に意味のあるデータ」を指します。

本データセット(中学生へのアンケートデータ)で説明をすると、「1学期の成績」「2学期の成績」「3学期の成績」などは明確に優劣・大小が表現されるため順序尺度に分類されます。

例えば下記のようなデータだった場合は、1学期の成績は、回答Noが1の生徒の成績がよいということになります。

アンケート回答No1学期の成績
118
217
39

順序尺度はデータに優劣・大小が存在しますが、階級間の具体的な数値的な差に意味はないということも留意しましょう。

例えば、1学期の成績が18の生徒と、17の生徒がそれぞれいたとき、成績の数値が1点違うことの実際の「量」の差については一様ではないと解釈されることが多いです。

また、成績が「15」と「10」の間の学習達成度の差と、「5」と「0」の間の差が同じであるとは限りません。試験の内容や難易度の調整などによって、点数間の学習達成度の実際の差が異なる場合があります。

このように、順序尺度には他にも活用の事例があり、商品の顧客満足度調査(例:非常に不満、不満、普通、満足、非常に満足)、競争イベントのランキング(1位、2位、3位)、教育レベル(高校卒、大学卒、大学院卒)など、多くの分野で広く利用されています。

優劣や大小があっても具体的な差異が均一であるとは限らないため、単純に足し引きをして比べたり、平均化しても意味のないデータになることが多く、データを分析する際にはその特性を考慮する必要があります。

演習問題

では、ここからは先ほどのデータセットを用いた演習問題で理解を深めていきましょう。

問題①

問題①

問題
以下のうち、順序尺度に該当する変数はどれでしょう?

選択肢:
A. 学校名
B. 欠席日数
C. 自由時間
D. 学校のサポート

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

「Ukatta!」は資格を一覧、検索できる資格のデータベースサイトです。コンテンツは専門家の監修・指導を受けながら、執筆・編集しています。読者に資格学習のきっかけやモチベーションを提供することで、最短合格を支援します。

目次
閉じる