
ウィリアム・ゴセットのビールの研究により発掘されたt分布について、正規分布との違いを解説します。
ギネスビールとt分布
ウィリアム・ゴセットとビール酵母
アイルランド🇮🇪発祥の有名なギネスビールのダブリン醸造所に、ウィリアム・ゴセットという人物が1899年に就職しました。
当時のビールの醸造の過程で、酵母の数を調べるのに、正規分布で推定していました。
酵母の数を正確に計測しなければ、ビールの味が不安定だったそうです。
醗酵タンクが少なくサンプル数が少なかったという点がポイントになります。
正規分布による推定では不充分でした。
正規分布による推定
酵母の数や平均 $\mu$ を求めるために、標本平均 $\bar{X}$ と分散 $\sigma^2$ を使います。
標本平均 $\bar{X}$ が $N(\mu, \sigma^2/n)$ に従うという事実から、次が成り立ちます。
$$\displaystyle \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim N(0,1)$$
ここで推定に使うビール(発酵タンク)のサンプル数は $n$ とします。
t分布をなぜ使うのか?
先ほどの数式が当時も信じられていましたが、分散 $\sigma^2$ をどう使うかが不充分でした。
サンプル数が少ないとき、母分散が分かるときと、分からないときで、話が変わってしまうのです!
母分散が分かるとき(正規分布)
母分散 $\sigma^2$ が分かるとき、定説通り、標本平均 $\bar{X}$ は正規分布 $N(\mu, \sigma^2/n)$ に従います。
標準化して、次が成り立ちます:
$$\displaystyle \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim N(0,1).$$
母分散が分からないとき(t分布)
母分散 $\sigma^2$ が分からないとき、その代わりに不偏分散 $s^2$ を使います。
$$\displaystyle s^2 = \frac{1}{n-1} \sum_{k=1}^n(X_k - \mu)^2$$
しかし、実は、残念ながら、これを使った $\displaystyle \frac{\bar{X} - \mu}{s / \sqrt{n}}$ は正規分布 $N(\mu, s^2/n)$ に従いません。
ゴセットはそれまでのデータから、これが他の確率分布に従うことを発見しました。
スチューデントのt分布といいます。
$$\displaystyle \frac{\bar{X} - \mu}{s / \sqrt{n}} \sim t(n-1)$$
※ $t(n-1)$ は自由度 $n-1$ のt分布という意味です。
ウィリアム・ゴセットの発見
「スチューデント」という名称が突如出てきました。
これはゴセットのペンネームです。ギネスビールでは、企業内で発見したことを実名で外部に発表することが禁止されていたので、ゴセットは「スチューデント」というペンネームを使って論文としてt分布を世界に公開しました。
なお、tには特に理由はないみたいで、フィッシャーとゴセットがアルファベット $a, b, \cdots, z$ で統計手法の話をしていてtになったみたいです。
特に、サンプル数 $n$ が少ないとき、標本平均 $\bar{X}$ という確率変数を調べる際に、不偏分散で標準化した形の確率変数は、正規分布ではなく t分布 $t(n-1)$ に従う。
なお、サンプル数 $n$ が大きいときも、もちろんt分布に従いますが、正規分布との誤差が(ほぼ)なく、正規分布で代用しても可になります。