統計講師が具体例で解説!量的変数(間隔尺度・比例尺度)とは?

統計学やデータサイエンスを学ぶ上で、最初に理解すべき基本的な概念としてて「データの種類」があります。

データとひと口に言っても、株価のような数値で表せるデータもあれば、アンケートでの回答文、顧客満足度などこの世に存在するデータは多種多様、扱い方もそれぞれ異なってきます。

そこで、統計学初学者にありがちなのが「量的変数」と「質的変数」の違いや、量的変数のなかでも「間隔尺度」「比例尺度」のどちらかの変数の違いを混同しがちで「改めて問われると、どの分類かわからない……」という方も多いはず。

本記事では、各変数の定義とそれぞれの種類や特徴を理論的に説明した上で、実際のデータセットを用いて、実務でもイメージがつきやすいように解説していきます。

さらに、記事の最後には演習問題もございますので、実際に解いて定着をさせていきましょう。

監修者
經田 原弘
東京大学大学院新領域創成科学研究科複雑理工学専攻修了。大学時代は3次元の医療データの平滑化処理を研究テーマとし、大学院時代はJAXAと協業し、月探査機かぐやの衛星データから、月面上の水の存否について調査していた。新卒では株式会社リクルートにてレコメンドシステムの開発等に従事し、現在は製造業系スタートアップにてデータサイエンティストとして勤務。応用情報技術者試験・E資格合格者。

目次

データの種類(量的変数・質的変数)

皆さんが日々触れるデータにも実は種類があり、データ分析実務では、データの種類がなにかによって分析結果への解釈やデータ分析手法が変わります。現時点では不明な点もあるかと思いますが、しっかりとこの記事で学習をしていきましょう。

この記事で学べること
  • ねらい
    • データのタイプの違いを理解し、それぞれのデータに適した処理法を理解する
  • 学習項目
    • 量的変数、間隔尺度、比例尺度

量的変数と質的変数の違い

変数の種類尺度具体例説明
質的変数名義尺度性別、血液型これらのデータ間での足し算、引き算が困難
順序尺度学籍番号、アンケートの満足度優劣、あるいは大小の順番に意味があるデータ。
量的変数間隔尺度気温、西暦足し算、引き算ができるが、10℃は5℃の2倍ではないため、比率計算できない。算術平均、中央値、最頻値の全てが使える。
比例尺度テストの点数、兄弟・姉妹の数算術平均、中央値、最頻値の計算に加えて、比率計算もできるため、最も扱いやすい尺度

データの種類を大別すると「量的変数」「質的変数」という2種類があり、量的変数のなかに間隔尺度・比例尺度、質的変数のなかに名義尺度・順序尺度があります。

まずは全体像を見て、感覚的に見ていきましょう。下記はデータの種類を端的にまとめた表です。(まだこの表だけではイメージがつきづらいとは思いますので、ふんわりとした理解で大丈夫です)

量的変数は測れるデータ(数値で示される)、質的変数は測れないデータ(カテゴリーデータ)と覚えておきましょう。

量的変数とは?

ここからは、データの2分類のなかの「量的データ」について解説をしていきます。

量的変数は「数値によって測れる変数」を指し、その中でも「間隔尺度」「比例尺度」という2種類があります。

サンプルデータ(学校のアンケートデータ)

実際のデータがあった方がイメージしやすいため、本記事では下記のようなサンプルデータを用いて説明していきます。例えば、下記のような試験の受験者のデータがあったと仮定します。

スクロールできます
ID性別年齢血液型勉強時間教育レベル満足度クラブ活動テストの点数通学手段兄弟姉妹の数学籍番号(受験時の)気温西暦
1男性16A3高校生3サッカー部80電車112345625℃2019
2女性18B2大学生4テニス部90自転車212345734℃2018
3男性17O1高校生2吹奏楽部70徒歩01234585℃2017
4その他19AB4大学院生5写真部85バス312345913℃2020
5女性16A2高校生3漫画研究部75電車112346018℃2021

量的変数の種類・具体例

早速上記のデータを分類し、質的データの具体例をまとめたのが下記の表です。シンプルにいずれも数値として測れるデータかつ、足し引きなどの算術計算をして意味のあるデータとなっているのため、量的変数として扱われます。

尺度具体例
間隔尺度(受験時の)気温、西暦
比例尺度年齢、勉強時間、テストの点数、兄弟姉妹の数

ここで重要なのが「算術計算」や「平均値」を求めることに意味のあるデータとなっているということです。たとえばこの中には、「満足度」というデータがありますが、こちらは数値で表されるが「質的データ」に分類されます。

例えば、下記のような設問でアンケート回答を促していると仮定しましょう。下記の設問では、「非常に不満」から「非常に満足」までのカテゴリーに分けられます。

質問

あなたの現在の学習環境に対する満足度を教えてください。

  1. 非常に不満
  2. 不満
  3. どちらでもない
  4. 満足
  5. 非常に満足

これらの回答は1~5で順序や優劣があったとしても、数値としての意味や間隔は一定ではなく、例えば、「1:非常に不満」と「2:不満」の差と、「4:満足」と「5:非常に満足」の差が同じかどうかはわからないため、測ることができないデータということになります。

統計学的にはカテゴリーを分類するためのデータとして扱われるため、満足度は「質的変数」となります。

編集部では、量的変数と質的変数をまとめて学習できる記事や、質的変数のみを詳しく解説した記事も別で用意しています。興味のある方は是非そちらもご一読ください。

間隔尺度

ここからは、質的変数のなかの「間隔尺度」と「比例尺度」の違いと見分け方について説明していきます。

先ほど、量的変数は「数値で測れるデータであるかつ、算術計算をして意味のあるデータ」と説明しましたが、間隔尺度は「①データの差が均一であるかどうか」「②人間が恣意的にゼロを設定しているかどうか」という条件が追加されます。

間隔尺度の具体例

本データのなかで具体的を示すと、「気温」「西暦」などが間隔尺度に当たります。

スクロールできます
変数名値の具体例説明
受験時の気温18℃、20℃、22℃、25℃気温は数値の差は等間隔だが、30℃は15℃の2倍とは言えないため比率を計算できない。
西暦2023年西暦も数値の差は等間隔だが、西暦1000年と2000年が倍だという数値に意味をもたない。

もう少し具体的に説明していきます。例えば、西暦は一見すると比率計算ができそうに思えるかもしれませんが、実際には間隔尺度に分類されます。

確かに、年数自体は等間隔に時間として経過していきますが、西暦の「0年」というのは人間が設定した値で、紀元前と紀元後でカウントが分かれていだけになります。

比率計算とは、ある数値が別の数値の何倍であるかを示すものです。しかし、西暦において、「2000年は1000年の2倍」と言うことは歴史的または実際的な意味を持ちません。年数そのものは連続する時間のポイントを示しているだけで、比率を取ることに意味がありません。

温度も同様に、10℃と20℃の間隔は等間隔ですが、温度のゼロ点が恣意的であり、0℃は絶対的な基準ではないため、間隔尺度にあたります。

このように、「数値の差が等間隔である」が、「人間が恣意的にゼロを設定しているため、比率の計算ができない(しても意味がない)」という点が見分けるポイントとなります。

比例尺度

次に量的データのもう片方、比例尺度を説明していきます。皆さんが扱うデータの大半は比例尺度に当たり、最も扱いやすい数値データと言っても過言がありません。

比例尺度の具体例

本データセットで説明をすると、「年齢」「勉強時間」「テストの点数」「兄弟姉妹の数」は算術計算や比率計算ができる(することで得られたデータに意味がある)ため、比例尺度に分類されます。

スクロールできます
変数名値の具体例説明
年齢16歳、18歳(ゼロが存在し)比率計算ができる。
勉強時間1時間、3時間
テストの点数70点、90点
兄弟姉妹の数1人、3人

これらの分類方法は一番シンプルといえるでしょう。感覚的にわかる人も多いですが、判別方法をあえて言語化すると「 ①(人間が設定していない)ゼロが存在するか」「 ②比率の計算ができるか」という2点になります。


例えば、年齢0歳、勉強時間0時間、テストの点数0点、兄弟姉妹の数0人はすべて意味のあるゼロですし、2倍の体重や年齢は実際に2倍の量を示します。

演習問題

問題①

問題①

問題
次のうち、比例尺度に該当する変数はどれですか?
選択肢:
a) 年齢
b) 性別
c) 血液型
d) 教育レベル

問題②

問題②

問題
次のうち、間隔尺度に該当する変数はどれですか?
選択肢:

a) 勉強時間
b) 受験時の気温(℃)
c) テストの点数
d) 兄弟姉妹の数

問題③

問題②

問題
次のうち、比率計算が可能な変数はどれですか?
選択肢:

a) 勉強時間
b) 教育レベル
c) 満足度
d) 通学手段

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

「Ukatta!」は資格を一覧、検索できる資格のデータベースサイトです。コンテンツは専門家の監修・指導を受けながら、執筆・編集しています。読者に資格学習のきっかけやモチベーションを提供することで、最短合格を支援します。

目次
閉じる