ばらつき
平均や中央値はデータ全体を代表するものですが、そこからそのデータがどのような特徴を持っているかを判断することはできません。そこで、重要になってくるのがデータの散らばり方(ばらつき)という考え方になります。
このようなデータのばらつきを表す数値としては、分散や標準偏差が用いられています。
分散
分散とは何でしょうか。
分散を求めるには準備が必要です。まず、ここのデータが全体の平均からどれだけズレているかというのを求める必要があります。これを偏差と呼びます。偏差は個々のデータから平均を引いて求めます。
たとえば、データ\( x_1\)~\( x_n\)が存在する時、\( x_1\)の偏差は以下のような式になります。
※ここで、\( \bar{x}\) はデータの平均を表します。( xバーと読みます。)
\begin{aligned}(x_1 – \bar{x} )\end{aligned}
ここで、データが広範囲に分布している場合を考えると、大きな偏差が多く存在すると考えられます。
そこで、データ全体のばらつきを求めるには全てのデータの偏差の平均を取ってあげれば求まる気がします。実際に、偏差の平均をとって見てみましょう。
\begin{aligned}(x_1 – \bar{x} )+ ( x_2 – \bar{x} )+ … + ( x_n – \bar{x}) \end{aligned}
\begin{aligned}(x_1 + x_2 + … + x_n ) – n \bar{x}\end{aligned}
\begin{aligned}(x_1 + x_2 + … + x_n ) – n \frac{x_1 + x_2 + … + x_n }{n}\end{aligned}
\begin{aligned}(x_1 + x_2 + … + x_n ) – (x_1 + x_2 + … + x_n ) = 0 \end{aligned}
すると、あれれ。。。ゼロになってしまいました。
そこで、分散という考え方では、ここの偏差を2乗してから、その平均を求めてあげます。
そうすると、分散 \(\sigma^2\) を求める式は以下のようになります。
\begin{aligned} \sigma^2 = \frac{(x_1 – \bar{x} )^2+ ( x_2 – \bar{x} )^2+ … + ( x_n – \bar{x})^2}{n}\end{aligned}
\begin{aligned} \sigma^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i – \bar{x})^2\end{aligned}
標準偏差
先ほど求めた分散ですが何かがまだ不十分です。何でしょうか?
そうです。2乗してしまっています。元のデータは2乗されていませんでしたから、元のデータに単位を合わせるために分散の正の平方根を求めてあげます。これを標準偏差と言います。
式で表すと、\(\sqrt{分散}\) なので以下のようになります。
\begin{aligned} \sigma = \sqrt{\frac{\sum_{i=1}^{n}(x_i – \bar{x})^2}{n}}\end{aligned}
分散の公式
分散を求める公式には、以下のような公式もあり、計算するのに便利です。
\begin{aligned} \sigma^2 = \bar{x^2} – (\bar{x})^2\end{aligned}
\(\bar{x^2}\)は個々のデータの2乗和の平均、\((\bar{x})^2\) はデータの平均の2乗を示しています。
まとめ
データのばらつきを表すことができる分散と標準偏差について説明しました。
データ解析や統計処理を行う際には、平均などの代表値だけでなく、対象のデータがどのような分布になっているかを把握することが重要です。


コメント