標準化とZ-Score

統計

分布を変形する

異なる種類や取得したタイミングの異なるデータ同士を比較する場合には、単純にそのデータ同士を比較しても適切に判断することが難しい場合があります。
例えば、以下のような場合を考えてみましょう。

満点が100 点のテストで、Aさんの得点は数学が60点、物理が80点 だったとします。この場合、一見、物理の方が良い成績を取れたように見えます。しかし、ここでデータの分布がそれぞれ異なっていたら結果はどうなるでしょうか。データの分布が異なっている場合には、これらのデータを比較できるようにするために、データの分布自体を変形してあげることを考えます。

すでに得られているデータ群があると仮定して、その各データに対してデータを足したり、掛けたりするとデータの分布が変形します。各データに対する処理とその結果は以下のようになります。

・各データに値 \( a \) を加えると、平均は \( a \) 倍になる。
   ⇨ 加算の性質
・各データに値 \( k \) を掛けると、平均は \( k \) 倍、分散は \( k^2 \) 倍になる。
   ⇨ 乗算の性質

標準化

ここで、各データに対する加算・乗算の性質を使って、平均 0 、分散1 となる分布を作ることを考えてみましょう。ここに、平均 \( \bar{x}\) 、分散 \( s^2 \) となるデータがあると仮定します。
この時、以下手順を実行してみましょう。

① 各データから値 \( \bar{x}\) を引きます。
平均 \( \bar{x}\) は 加算の性質より 値 \( -\bar{x}\) を 加算すると以下のように なります。
平均 : \( \bar{x}\) – \( \bar{x}\) = 0

② 各データに対して、値 \(\frac{1}{s} \) を掛けます。
すると、乗算の性質より、平均は \(\frac{1}{s} \) 倍、分散は \(\frac{1}{s^2} \) 倍となります。
平均は、すでに①の手順で、0 となっているので、0です。
分散:\( s^2 \) × \(\frac{1}{s^2} \) = 1

つまり、各データから平均 \( \bar{x}\) を引き、標準偏差 \( s\) で割ることで
平均 0 、分散 1 の状態にすることができます。このようなデータの加工を標準化と言います。
また、この加工後のデータを Z-Score と呼びます。

\begin{aligned} z = \frac{x – \bar{x}}{s} \end{aligned}

Z-Score で比較する

冒頭にあった、数学と物理の得点の比較について、改めて考えてみます。
ここでは、以下の問題設定を考えてみましょう。

・数学:Aさんの得点 60 点、平均 45 点、分散 144
・物理:Aさんの得点 80 点、平均 70 点、分散 400

数学、物理の Z-Score をそれぞれ \( z_1 \)、\( z_2 \) として公式に当てはめて計算すると、
それぞれ以下のようになります。
\( z_1 \) = \(\frac{60-50}{\sqrt{144}} \) = 0.83
\( z_2 \) = \(\frac{80-70}{\sqrt{400}} \) = 0.5
\( z_1 \) > \( z_2 \) となり、一見低いように見えた数学の方が成績が良かったことが分かります。

偏差値

Z-Score では異なるデータ分布同士の値の比較ができましたが、点数の比較としてはいまいちイメージが湧きません。そこで、我々の馴染みのある偏差値を求めてみます。求め方は簡単です。
データ加工の加算と乗算の性質を利用して、平均が 50 標準偏差が 10 になるようにデータを加工します。Z-Score は平均 0 、標準偏差 1 の分布なので、これに 10 を掛けて 50 を足してあげれば、平均が 50 分散が 100 の分布になります。これが、我々が普段「偏差値」と呼んでいるものの正体になります。以上より、偏差値 \( T \) は以下のように求まります。

\begin{aligned} T = \frac{x – \bar{x}}{s} × 10 + 50 \end{aligned}

つまり、Aさんの数学と物理の偏差値をそれぞれ、\( T_1 \) 、\( T_2 \)とすると
\( T_1 \) = 0.83 × 10 + 50 = 58.3
\( T_2 \) = 0.5 × 10 + 50 = 55
となります。
馴染みのある偏差値という指標で2つの科目のテスト結果を比較できるようになりました。

まとめ

異なる分布の値同士を比較するのに便利な 標準化Z-Score について学びました。
標準化はデータ分析において必須の技術なので覚えておきましょう。

コメント

タイトルとURLをコピーしました