データの分析(数学1)で学習する「平均値」「分散(標準偏差)」と、統計的な推測(数学B)で学習する「期待値」「分散(標準偏差)」が同じものであることを確かめます。

平均値と期待値、分散の公式

数学1では平均値 m と分散 s2 を学びます。

m=1n(x1++xn)

s2=1n{(x1m)2++(xnm)2}

ここで、[x1,,xn] はデータで、n はデータの大きさです。

さて、数学Bでは期待値 μ と分散 σ2 を学びます。

μ=x1p1++xnpn

σ2=(x1m)2p1++(xnm)2pn

ここで、x1,,xn は確率変数が取りうる値で、p1,,pn は、おのおのの確率です。

これらの公式が同じものであることを確認することが今回の目標です。

nxk(1kn) が公式間で意味が変わっているので、この違いが分かればバッチリです!

2つの単元を結びつけるために、ヒストグラムが活躍します。

データの分析と統計の違い

データを度数分布(ヒストグラム)として整理したものを頻度として考えると確率分布ができます。

データの例

次のデータを使って確率分布の考えを整理します。

D=[150,150,160,160,160,160,160,165,165,170]

データの分析の計算

データ D の度数分布表とヒストグラムを作成しました。

データ D の度数分布表

階級度数
1502
1605
1652
1701
合計10
Dの度数分布表

データ D のヒストグラム

データ D の平均値と分散

この度数分布表からデータの分析の「平均値 m 」と「分散 s2 」を計算しましょう。

m=110(150×2+160×5+165×2+170×1)=160

s2=110((10)2×2+0×5+52×2+102×1)=35

この値と、統計的な推測で計算する期待値と分散を比較してみます。

統計の計算

さきほどの度数分布表を頻度表に変形しましょう。頻度は、そのまま確率と思ってOKです。

頻度のヒストグラムは確率分布表になります。

データ D の頻度表

階級頻度
1500.2
1600.5
1650.2
1700.2
合計1
Dの頻度表

データ D の確率分布表

変数150160165170
確率210510210110
Xの確率分布

この頻度表および、棒グラフが意味するものが「確率分布」です。

データ D の期待値と分散

確率分布から「期待値 μ 」と「分散 σ2 」を計算しましょう。

μ=150×210+160×510+165×210+170×110=160

σ2=(10)2×210+0×510+52×210+102×110=35

2つの違いの整理

度数分布表から平均と分散を計算した結果と、確率分布から期待値と分散を計算した結果はピッタリ一致しました。

お分かりだと思いますが、データの分析のときの n 個のうち、重複するものをセットにした後の個数が統計の公式の n になっています。

そして、2つの計算の違いはデータの大きさの 10 を割る順序が違うということだけです。

同じ値が複数存在するデータを度数分布表に整理して頻度を考えたものが最も基本的な確率分布といえます。

コメントを残す