
データの分析(数学1)で学習する「平均値」「分散(標準偏差)」と、統計的な推測(数学B)で学習する「期待値」「分散(標準偏差)」が同じものであることを確かめます。
数学1で学ぶ平均値 $m$ は $\frac{1}{n} (x_1 + \cdots + x_n)$ で、分散 $s^2$ は $\frac{1}{n} \{ (x_1 - m)^2 + \cdots + (x_n-m)^2 \}$ でした。
ここで、$[x_1, \ldots, x_n]$ はデータで、$n$ はデータの大きさです。
さて、数学Bで学ぶ期待値 $\mu$ は $x_1p_1 + \cdots + x_np_n$ で、分散 $\sigma^2$ は $(x_1 - m)^2p_1 + \cdots + (x_n-m)^2p_n$ でした。
ここで、$x_1, \ldots, x_n$ は確率変数が取りうる値で、$p_1, \ldots, p_n$ は、おのおのの確率です。
これらの公式が同じものであることを確認することが今回の目標です。
$n$ と $x_k(1\leqq k \leqq n)$ が公式間で意味が変わっているので、この違いが分かればバッチリです!
2つの単元を結びつけるために、ヒストグラムが活躍します。
データの分析と統計の違い
データを度数分布(ヒストグラム)として整理したものを頻度として考えると確率分布ができます。
データの例
次のデータを使って確率分布の考えを整理します。
$D = [150, 150, 160, 160, 160, 160, 160, 165, 165, 170]$
データの分析の計算
データ $D$ の度数分布表とヒストグラムを作成しました。
データ $D$ の度数分布表
階級 | 度数 |
---|---|
150 | $2$ |
160 | $5$ |
165 | $2$ |
170 | $1$ |
合計 | $10$ |
データ $D$ のヒストグラム
データ $D$ の平均値と分散
この度数分布表からデータの分析の「平均値 $m$ 」と「分散 $s^2$ 」を計算しましょう。
$\begin{aligned}
m & \displaystyle = \frac{1}{10}(150 \times 2 + 160 \times 5 + 165 \times 2 + 170 \times 1) \\
&= 160
\end{aligned}$
$\begin{aligned}
s^2 & \displaystyle = \frac{1}{10}((-10)^2 \times 2 + 0 \times 5 + 5^2 \times 2 + 10^2 \times 1) \\
&= 35
\end{aligned}$
この値と、統計的な推測で計算する期待値と分散を比較してみます。
統計の計算
さきほどの度数分布表を頻度表に変形しましょう。頻度は、そのまま確率と思ってOKです。
頻度のヒストグラムは確率分布表になります。
データ $D$ の頻度表
階級 | 頻度 |
---|---|
150 | $0.2$ |
160 | $0.5$ |
165 | $0.2$ |
170 | $0.2$ |
合計 | $1$ |
データ $D$ の確率分布表
変数 | 150 | 160 | 165 | 170 |
確率 | $\displaystyle \frac{2}{10}$ | $\displaystyle \frac{5}{10}$ | $\displaystyle \frac{2}{10}$ | $\displaystyle \frac{1}{10}$ |
この頻度表および、棒グラフが意味するものが「確率分布」です。
データ $D$ の期待値と分散
確率分布から「期待値 $\mu$ 」と「分散 $\sigma^2$ 」を計算しましょう。
$\begin{aligned}
\mu &= \displaystyle 150 \times \frac{2}{10} + 160 \times \frac{5}{10} + 165 \times \frac{2}{10} + 170 \times \frac{1}{10} \\
&= 160
\end{aligned}$
$\begin{aligned}
\sigma^2 & \displaystyle = (-10)^2 \times \frac{2}{10} + 0 \times \frac{5}{10} + 5^2 \times \frac{2}{10} + 10^2 \times \frac{1}{10} \\
&= 35
\end{aligned}$
2つの違いの整理
度数分布表から平均と分散を計算した結果と、確率分布から期待値と分散を計算した結果はピッタリ一致しました。
お分かりだと思いますが、データの分析のときの $n$ 個のうち、重複するものをセットにした後の個数が統計の公式の $n$ になっています。
そして、2つの計算の違いはデータの大きさの $10$ を割る順序が違うということだけです。
同じ値が複数存在するデータを度数分布表に整理して頻度を考えたものが最も基本的な確率分布といえます。