尺度水準の定義と実例: 名義、順序、間隔、比例

statistics/basics/scale
2018/03/12 更新

  1. 概要: 尺度水準とは
  2. 名義尺度
  3. 順序尺度
  4. 間隔尺度
  5. 比例尺度

広告

概要: 尺度水準とは

それぞれの尺度水準の特徴を簡単にまとめた (2)。

水準 最頻値 中央値 相加平均 相乗平均 分散

名義尺度
Nominal scale

電話番号
OK
-
-
-
-

順序尺度
Ordinal scale

徒競走の順位
OK
OK
-
-
OK

間隔尺度
Interval scale

カレンダーの日付、摂氏温度
OK
OK
OK
-
OK

比例尺度
Ratio scale

長さ、重さ、絶対温度
OK
OK
OK
OK
OK

名義尺度

名義尺度 nominal scale とは、データを単にカテゴリーに分けた変数 である。名義尺度のみで記述されるデータは、カテゴリーデータと呼ばれる。以下のようなものが名義尺度に相当する。これらのデータは、度数、最頻値 には意味があるが、平均、分散 variance などには意味がない。

  • 電話番号
  • 遺伝子の ID
  • 紅白、A, B, C... などのグループ分けも、それぞれ数字に対応させることができるので、本質的に名義尺度と同じである。

名義尺度で炎上

2016 年 1 月に、京大が以下のようなプレスリリースを出した。問題になったので、現在は削除されているようだ。

ビッグデータの解析で薬の副作用予測がほぼ100%可能に

江谷典子 医学研究科特定研究員は、薬剤やその副作用、疾患の原因となる遺伝子などのビッグデータを解析することで、副作用をほぼ確実に予測できるとの研究成果を発表しました。加えて、既存の薬剤の中で、元々のターゲット以外の疾患に効果を発揮する可能性があるものについての予測も行い、いままで治療薬が公開されていない疾患に対して300件以上の候補を発見しました。

本研究成果は8月7日、Springer 社の学術雑誌 Journal of Big data に掲載されました。


削除したものを曝しておくのも可哀想な気がするが、100%予測可能という誇大広告の罪は大きいと思う ので、例として使わせてもらう。

この論文では、目的変数 y' について


y' = a1*SCORE + a2*ACT + a3*GeneID + b


という式を立て、y' を薬の副作用のパラメーターとして定義している。ここで不思議なのが、名義変数である GeneID が線形結合の中に登場する ことである。これは、例えて言えば「ある人の体重 (kg) = a1*身長 + a2*胸囲 + a3*腹囲 + a4*アイウエオ順の出席番号」のような感覚である。変数の性質をよく理解していないと、このようなミスを犯すことになるので気をつけたい。

既存のパラメーターに対してオーバーフィッティングを行なった結果、100% フィットということになった。これは、今後の副作用を予想できることとは別の話である。このあたりも、いずれ回帰分析のページでまとめたい。


順序尺度

順序尺度 ordinal scale で記述されるデータでは 数字の順番に意味があるが、数字に対して演算を行うことはできない。例えば、以下のようなデータである。

  • 徒競走の順位: 1 位は 2 位よりも上位であるが、何かの値が 2 倍であることを意味するわけではない。
  • 原発事故のレベル

度数、最頻値に加えて、中央値 を意味のあるデータとして扱うことができる。順序尺度のデータは、順序カテゴリーデータとも呼ばれる。


広告

間隔尺度

間隔尺度 interval scale で記述されたデータでは、目盛りが等間隔になっており、数値間の差に意味が あるが、比には意味がない。

  • カレンダーの日付: 1/1 と 1/3 の間には 1 日の時間がある。これは 1/5 から 1/9 日の間の 3 日間の 3 分の 1 であると言える。しかし、それぞれの日付の比をとった 3 と 1.8 という数値を比較する意味はない。
  • 摂氏温度、華氏温度

最頻値、中央値に加え 相加平均 (算術平均) を代表値として使うことができる。


比例尺度

間隔尺度の基準を満たし、さらに ゼロを原点として考えられるもの を比例尺度 ratio scale という。比率尺度とも呼ばれる。

  • 長さ、重さなどの物理量: 原点としての 0 が存在する。摂氏 0 度の 0 は便宜上の値であり、長さの 0 とは意味が異なる。
  • 絶対温度

広告

コメント欄

一言コメントをどうぞ! (100 字まで)

このコメント欄は各ページにあるので、いつ管理人がコメントを見ることになるのか分かりません。内容について質問がある場合は、下のリンク先のフォームから質問頂ければ、早めに返信するようにします。


References

  1. 統計データの種類、尺度水準. Link.
  2. 尺度水準. Link.