統計の期待値と、データの分析の平均値の違いを解説！

データの分析（数学１）で学習する「平均値」「分散（標準偏差）」と、統計的な推測（数学B）で学習する「期待値」「分散（標準偏差）」が同じものであることを確かめます。

目次 [hide]

平均値と期待値、分散の公式
データの分析と統計の違い

平均値と期待値、分散の公式

数学１では平均値 $m$ と分散 $s^{2}$ を学びます。

$m = \frac{1}{n} (x_{1} + \dots + x_{n})$

$s^{2} = \frac{1}{n} {(x_{1} - m)^{2} + \dots + (x_{n} - m)^{2}}$

ここで、 $[x_{1}, \dots, x_{n}]$ はデータで、 $n$ はデータの大きさです。

さて、数学Bでは期待値 $μ$ と分散 $σ^{2}$ を学びます。

$μ = x_{1} p_{1} + \dots + x_{n} p_{n}$

$σ^{2} = (x_{1} - m)^{2} p_{1} + \dots + (x_{n} - m)^{2} p_{n}$

ここで、 $x_{1}, \dots, x_{n}$ は確率変数が取りうる値で、 $p_{1}, \dots, p_{n}$ は、おのおのの確率です。

これらの公式が同じものであることを確認することが今回の目標です。

$n$ と $x_{k} (1 ≦ k ≦ n)$ が公式間で意味が変わっているので、この違いが分かればバッチリです！

２つの単元を結びつけるために、ヒストグラムが活躍します。

データの分析と統計の違い

データを度数分布（ヒストグラム）として整理したものを頻度として考えると確率分布ができます。

データの例

次のデータを使って確率分布の考えを整理します。

$D = [150, 150, 160, 160, 160, 160, 160, 165, 165, 170]$

データの分析の計算

データ $D$ の度数分布表とヒストグラムを作成しました。

データ $D$ の度数分布表

階級	度数
150	$2$
160	$5$
165	$2$
170	$1$
合計	$10$

D

の度数分布表

データ $D$ のヒストグラム

データ $D$ の平均値と分散

この度数分布表からデータの分析の「平均値 $m$ 」と「分散 $s^{2}$ 」を計算しましょう。

$\begin{aligned} m & = \frac{1}{10} (150 \times 2 + 160 \times 5 + 165 \times 2 + 170 \times 1) \\ = 160 \end{aligned}$

$\begin{aligned} s^{2} & = \frac{1}{10} ((- 10)^{2} \times 2 + 0 \times 5 + 5^{2} \times 2 + 10^{2} \times 1) \\ = 35 \end{aligned}$

この値と、統計的な推測で計算する期待値と分散を比較してみます。

統計の計算

さきほどの度数分布表を頻度表に変形しましょう。頻度は、そのまま確率と思ってOKです。

頻度のヒストグラムは確率分布表になります。

データ $D$ の頻度表

階級	頻度
150	$0.2$
160	$0.5$
165	$0.2$
170	$0.2$
合計	$1$

D

の頻度表

データ $D$ の確率分布表

変数	150	160	165	170
確率	$\frac{2}{10}$	$\frac{5}{10}$	$\frac{2}{10}$	$\frac{1}{10}$

X

の確率分布

この頻度表および、棒グラフが意味するものが「確率分布」です。

データ $D$ の期待値と分散

確率分布から「期待値 $μ$ 」と「分散 $σ^{2}$ 」を計算しましょう。

$\begin{aligned} μ & = 150 \times \frac{2}{10} + 160 \times \frac{5}{10} + 165 \times \frac{2}{10} + 170 \times \frac{1}{10} \\ = 160 \end{aligned}$

$\begin{aligned} σ^{2} & = (- 10)^{2} \times \frac{2}{10} + 0 \times \frac{5}{10} + 5^{2} \times \frac{2}{10} + 10^{2} \times \frac{1}{10} \\ = 35 \end{aligned}$

２つの違いの整理

度数分布表から平均と分散を計算した結果と、確率分布から期待値と分散を計算した結果はピッタリ一致しました。

お分かりだと思いますが、データの分析のときの $n$ 個のうち、重複するものをセットにした後の個数が統計の公式の $n$ になっています。

そして、２つの計算の違いはデータの大きさの $10$ を割る順序が違うということだけです。

同じ値が複数存在するデータを度数分布表に整理して頻度を考えたものが最も基本的な確率分布といえます。

カテゴリー: サイエンティスト

タグ: データの分析情報科統計的な推測

統計の期待値と、データの分析の平均値の違いを解説！

平均値と期待値、分散の公式