
確率統計
確率統計(Probability Statistics)とは、不確実な現象を数学的に記述し、確率を用いて推測統計の基盤を築く分野です。具体的には、事象と確率、確率分布、期待値・分散、確率変数、大数の法則、中心極限定理などを扱います。推測統計の準備として標本分布に関する用語集もこちらで整理しています。
試行(Trial)
確率的な結果をもたらす実験や操作のこと。例えば、サイコロを1回振ることや、コインを1回投げることが試行にあたります。
事象(Event)
試行によって得られる結果の集合。例えば、「サイコロを振って偶数が出る」や「コインを投げて表が出る」など、試行の結果に基づく特定の条件を満たす集合を指します。
根元事象(Elementary Event)
試行の結果として得られる、これ以上分解できない最も基本的な事象のことです。例えば、サイコロを振る試行において「3が出る」などが根元事象にあたります。
全事象(標本空間 / Sample Space)
試行において考えられるすべての可能な結果を集めた集合のことです。例えば、サイコロを1回振る試行では、全事象は\(\{1, 2, 3, 4, 5, 6\}\)となります。
空事象(Empty Event)
試行の結果として起こり得ない事象のことです。記号\(\emptyset\)で表されます。例えば、通常の6面サイコロを振る試行において「7が出る」という事象は空事象となります。
ベン図(Venn Diagram)
集合の関係を円や楕円で視覚的に表現する図です。確率論では、事象の包含関係や和事象・積事象を直感的に理解するために用いられます。
確率(Probability)
試行の結果が特定の事象となる度合いを数値で表したものです。確率は 0 から 1 の範囲をとり、0 は決して起こらない事象、1 は必ず起こる事象を意味します。
確率の公理(Axioms of Probability)
確率を数学的に定義するための基本的な3つのルールです。コルモゴロフの公理として知られ、以下の条件を満たします。
- 加法性:互いに排反な事象\(A, B\)に対して\(P(A \cup B) = P(A) + P(B)\)
- 非負性:すべての事象の確率は 0 以上( \( P(A) \geq 0\))
- 全確率の和は1:全事象の確率は 1 (\(P(S) = 1\))
排反事象(Mutually Exclusive Events)
同時に起こることがない事象のことです。例えば、サイコロを1回振るとき、「偶数が出る」と「奇数が出る」は排反事象です。排反な事象\(A\) と\(B\) については、$$ P(A \cap B) = 0$$が成り立ちます。
和事象(Union of Events)
複数の事象のうち、少なくとも1つが起こる事象のことです。事象\(A\) または\(B\) のどちらか、あるいは両方が起こる場合を表し、\(P(A \cup B)\)で表されます。
積事象(Intersection of Events)
複数の事象が同時に起こる事象のことです。事象\(A\)かつ\(B\)が同時に起こる場合を表し、\(P(A \cap B)\)で表されます。
加法定理(Addition Theorem)
複数の事象の和事象(どちらか一方または両方が起こる確率)を求める公式 です。事象\(A\) または\(B\) が起こる確率は、個々の確率の和から、重複する部分(共通部分)を引く ことで求められます。$$P(A \cup B) = P(A) + P(B) – P(A \cap B)$$特に、\(A\) と\(B\) が排反事象の場合(同時に起こらない場合) は、\( P(A \cap B) = 0\)となり、シンプルな形になります。$$P(A \cup B) = P(A) + P(B)$$この定理は、確率の基本法則 の1つとして、複数の事象の確率を求める際に広く用いられます。
条件付き確率(Conditional Probability)
ある事象\(B\) が起こったときに、別の事象\(A\) が起こる確率のことです。事象\(B\) が確定している状況での\(A\) の確率を表し、以下の式で定義されます。$$P(A \mid B) = \frac{P(A \cap B)}{P(B)}$$ ただし、\( P(B) > 0\) である必要があります。この条件付き確率の概念は、情報が与えられたときの確率の更新を考える際に重要なものとなります。
乗法定理(Multiplication Theorem)
条件付き確率を用いて、2つの事象が同時に起こる確率(積事象の確率)を求める公式 です。以下の式で表されます。$$ P(A \cap B) = P(A \mid B) P(B)$$また、順序を変えると$$P(A \cap B) = P(B \mid A) P(A)$$とも書けます。この定理は、複数の事象の同時発生確率を求める際や、ベイズの定理の導出 などに用いられます。
独立性(Independence)
2つの事象\(A\) と\(B\) が互いに影響を与えず、片方が起こってももう片方の確率が変わらない場合、それらは独立であるといいます。数学的には、以下の式で定義されます。$$ P(A \cap B) = P(A) P(B)$$この式が成り立つとき、\(A\) と\(B\) は独立であり、一方の事象が発生しても、もう一方の確率には影響しない ことを意味します。
条件付き独立(Conditional Independence)
2つの事象\(A\) と\(B\) は、ある事象\(C\) のもとで独立である場合、条件付き独立といいます。これは、事象\(C\) が起こったとき、\(A\) の発生が\(B\) に影響を与えないことを意味し、以下の式で表されます。$$P(A \cap B \mid C) = P(A \mid C) P(B \mid C)$$つまり、事象\(C\) の情報を考慮すると、\(A\) と\(B\) が独立になることを表します。条件付き独立は、ベイズネットワークや確率モデルの簡略化に利用されます。
ベイズの定理(Bayes’ theorem)
「結果から原因の確率を推定する」ための重要な定理です。新たな情報(結果)を考慮して、ある事象(原因)の確率を更新する公式ともいえます。事象\(B\) が起こったときに、事象\(A\) が起こる確率\(P(A \mid B)\) を求めるために用いられ、以下の式で表されます。$$ P(A \mid B) = \frac{P(A) P(B \mid A)}{P(B)}$$この定理は、事前情報をもとに、観測データを取り入れて確率を修正する重要な方法であり、統計学や機械学習で広く使われます。
事前確率(Prior Probability)
新たな情報を得る前に設定された、ある事象が起こる確率のことです。ベイズの定理においては、観測データを考慮する前の初期確率\(P(A)\)を指します。たとえば、ある病気の発生確率を事前確率として設定することができます。
事後確率(Posterior Probability)
新たな情報を得た後に更新された確率のことです。ベイズの定理を用いて、事前確率\(P(A)\)を観測データ\(B\)に基づいて修正した確率\(P(A \mid B)\)を指します。たとえば、検査結果を考慮した後の病気の発生確率が事後確率になります。
ベイズ更新(Bayesian Update)
新たなデータを得るたびに、ベイズの定理を用いて確率を更新するプロセスです。事前確率\(P(A)\)に観測データ\(B\)の情報を加味し、事後確率\(P(A \mid B)\)を計算します。$$P(A \mid B) = \frac{P(A) P(B \mid A)}{P(B)}$$この更新を繰り返すことで、データに基づいて確率を継続的に修正し、より精度の高い推定を行うことが可能になります。機械学習や統計推論、意思決定の分野で広く活用されています。
確率変数(Random Variable)
試行や観測の結果を値として表し、その値の取りうる可能性に確率が付与された変数を指します。具体例としては、サイコロを振った結果の「出目(1~6)」や、コインを投げた結果の「0(裏)または1(表)」なども確率変数になります。確率変数という概念を導入することで、確率論と数学的な手法を結び付けられるようになり、数式による厳密な扱いが可能になります。
離散型確率変数(Discrete Random Variable)
値として取りうる数が、整数や有限の離散的な集合からなる確率変数を指します。サイコロの出目(1~6)やコイン投げで表・裏を「0(裏)または1(表)」と数値化したものなどが典型例です。このとき、それぞれの取りうる値に確率を割り当てて分析するのが離散型確率変数の基本的な考え方となります。
連続型確率変数(Continuous Random Variable)
ある連続的に広がった範囲の数値を取りうる確率変数を指します。例えば身長や体重、測定時間などが該当し、値と値の間に無数の可能性が存在するという特徴があります。連続型確率変数では、「特定の値」そのものをとる確率は0とみなされ、区間を用いて確率を扱うのが一般的です。
離散型確率分布(Discrete Probability Distribution)
離散型確率変数が取りうる各値と、それらの値が発生する確率の対応関係をまとめたものを指します。サイコロを例にとると、「1の目が出る確率は1/6、2の目が出る確率は1/6、…」というように、一つひとつの値に明確な確率を割り当てます。これによって、全ての取りうる値を合計すると必ず確率が1になるという性質が成り立ちます。
連続型確率分布(Continuous Probability Distribution)
連続型確率変数に関する確率分布を指します。連続型確率変数は無数の連続的な値をとりうることから、特定の値そのものをとる確率は0とみなされます。そこで、連続型確率分布では確率そのものではなく確率密度と呼ばれる相対的な確率の大きさを表し、これを確率密度関数として表します。また、特定の区間における確率を「確率密度関数の積分(下側の面積)」として導出する点が特徴です。
確率質量関数(Probability Mass Function: PMF)
離散型確率変数が特定の値をとる確率を定める関数です。すべての確率の合計は1となり、以下の条件を満たします。$$ P(X = x) = f(x), \quad \sum_{x} f(x) = 1$$
確率密度関数(Probability Density Function: PDF)
連続型確率変数の確率分布を表す関数です。特定の値の確率は0ですが、ある範囲に属する確率は確率密度関数\(f(x)\)を積分することで求められます。$$P(a \leq X \leq b) = \int_{a}^{b} f(x) dx$$また、確率密度関数は確率の合計が1になるように定義されており、次の条件を満たします。$$\int_{-\infty}^{\infty} f(x) dx = 1$$
累積分布関数(Cumulative Distribution Function: CDF)
確率変数\(X\)がある値\(x\)以下となる確率を表す関数です。確率質量関数(PMF)や確率密度関数(PDF)を積分することで求められます。$$ F(x) = P(X \leq x) = \int_{-\infty}^{x} f(t) dt$$
- 離散型確率変数の場合: 各値の確率を順に加えたもの。
- 連続型確率変数の場合: 確率密度関数(PDF)を\(-\infty\)から\(x\)まで積分したもの
積分と面積と確率
連続型確率変数の確率は、確率密度関数(PDF)の下の面積として表されるという関係があります。ある範囲\(a \leq X \leq b\)における確率は、次のように PDF を積分することで求められます。$$P(a \leq X \leq b) = \int_{a}^{b} f(x) dx$$つまり、確率密度関数のグラフにおいて、確率は特定の範囲の面積として解釈できるため、積分計算が確率を求める基本手法となります。
期待値(Expectation)
確率変数の「平均的な値」を表す指標で、長期的または繰り返しの試行における平均値と解釈されます。確率変数\(X\)の期待値\(E[X]\)は、離散型確率変数の場合は$$ E[X] = \sum_{i} x_i P(X = x_i)$$と定義され、連続型確率変数の場合は$$E[X] = \int_{-\infty}^{\infty} x f(x) dx$$と定義されます。
分散(Variance)
確率変数の値の散らばり具合を表す指標です。期待値からの偏差の2乗の平均(期待値)として定義されます。確率変数\(X\)の分散\(\text{Var}(X)\)は、離散型確率変数の場合は$$\text{Var}(X) = E[(X – E[X])^2] = \sum_{i} (x_i – E[X])^2 P(X = x_i)$$と定義され、連続型確率変数の場合は$$\text{Var}(X) = \int_{-\infty}^{\infty} (x – E[X])^2 f(x) dx$$と定義されます。分散の平方根を取ると標準偏差(Standard Deviation)となり、元の単位に戻して解釈しやすくなります。
分散の公式
分散は、確率変数の2乗の期待値から、期待値の2乗を引いたものとして計算することもできます。$$\text{Var}(X) = E[X^2] – (E[X])^2$$この公式は、分散の定義$$\text{Var}(X) = E[(X – E[X])^2]$$を展開することで導かれます。計算の際に便利な形であり、特に手計算や理論的な証明でよく使われます。
モーメント(Moment)
確率変数の分布の形状を特徴づける指標です。\(k\)次モーメントは、確率変数\(X\)の\(k\)乗の期待値として定義されます。$$ E[X^k]$$1次モーメントは期待値に相当し、2次モーメントは分散の計算に関連します。
中心モーメント(Central Moment)
確率変数の値と期待値の偏差を\(k\)乗した期待値で、分布の対称性やばらつきを示す指標です。\(k\)次中心モーメントは以下のように定義されます。$$E[(X – E[X])^k]$$なお、2次中心モーメント は 分散 を表し、3次・4次中心モーメント は、歪度や尖度の計算に用いられます。
歪度(Skewness)
分布の対称性の度合いを表す指標で、分布が左右どちらに偏っているかを示します。3次中心モーメントを標準化して計算され、以下の式で表されます。$$\gamma_1 = \frac{E[(X – E[X])^3]}{\sigma^3}$$歪度が正(\(\gamma_1 > 0\))のとき分布は右に長い裾を持つ(右に偏る)形状となり、歪度が負(\( \gamma_1 < 0\))のとき分布は左に長い裾を持つ(左に偏る)形状となります。また、歪度が0(\( \gamma_1 = 0\))のとき分布は左右対称な形状となります。
尖度(Kurtosis)
分布のとがり具合や裾の厚さを表す指標で、4次中心モーメントを標準化して計算されます。$$\gamma_2 = \frac{E[(X – E[X])^4]}{\sigma^4}$$尖度が3より大きい(\(\gamma_2 > 3\))とき分布の形状はとがった分布(裾が厚い、鋭峰型)となり、尖度が3より小さい(\(\gamma_2 < 3\))とき分布の形状は平坦な分布(裾が薄い、鈍峰型)となります。また、正規分布における尖度は3となります。なお、正規分布の尖度を基準(\(=0\))とするために、尖度を\(\gamma_2 – 3\)と定義することもあります。その場合、正規分布の尖度は0となります。
ベルヌーイ分布(Bernoulli Distribution)
成功(1)または失敗(0)の2つの結果しかとらない確率変数の分布です。成功確率を\(p\)とすると、確率質量関数(PMF)は以下のように表されます。$$P(X = k) = p^k (1 – p)^{1 – k}, \quad k \in \{0,1\}$$また、期待値\(E[X]\)と分散\(\text{Var}(X)\)は以下の通りです。$$E[X] = p$$ $$ \text{Var}(X) = p(1 – p)$$
二項分布(Binomial Distribution)
独立なベルヌーイ試行を\(n\)回繰り返したときの成功回数の分布です。成功確率\(p\)で\(n\)回の試行を行うとき、\(k\)回成功する確率は次の式で表されます。$$P(X = k) = \frac{n!}{k!(n-k)!} p^k (1 – p)^{n – k}, \quad k = 0,1,2,\dots,n$$また、期待値と分散は以下の通りです。$$E[X] = np$$ $$\text{Var}(X) = np(1 – p)$$ベルヌーイ分布は二項分布(\(n=1\))の特別な場合となります。
ポアソン分布(Poisson Distribution)
一定時間または空間内での希な事象の発生回数を表す確率分布です。平均発生率を\( \lambda\)(単位時間あたりの平均発生回数)とすると、\(k\)回発生する確率は以下の式で表されます。$$P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0,1,2,\dots$$例えば、1時間あたりのコールセンターへの電話件数や、道路を通過する車の台数などが従う確率分布です。期待値と分散はともに\(\lambda\)となります。$$ E[X] = \lambda, \quad \text{Var}(X) = \lambda$$
幾何分布(Geometric Distribution)
独立なベルヌーイ試行を繰り返し、最初の成功が出るまでの試行回数を表す確率分布です。成功確率を\(p\)とすると、最初の成功が\(k\)回目に起こる確率は以下の式で表されます。$$P(X = k) = (1 – p)^{k-1} p, \quad k = 1,2,3,\dots$$例えば、サイコロを振って初めて 6 が出る回数や、コインを投げて初めて表が出る回数などが従う確率分布です。期待値と分散は次のようになります。$$E[X] = \frac{1}{p}, \quad \text{Var}(X) = \frac{1 – p}{p^2}$$幾何分布は「何回試行すれば初めて成功するか」をモデル化するのに適しています。
超幾何分布(Hyper Geometric Distribution)
置き換えなし(非復元抽出)で対象を選ぶ場合の成功回数の分布です。全体の母集団\(N\)のうち成功とみなせる要素が\(K\)個あり、そこから\(n\)個を無作為に選んだとき、成功が\(k\)回起こる確率は次の式で表されます。$$P(X = k) = \frac{\frac{K!}{k!(K-k)!} \times \frac{(N-K)!}{(n-k)!(N-K-(n-k))!}}{\frac{N!}{n!(N-n)!}}, \quad k = 0,1,2,\dots, \min(K, n)$$例えば、トランプの山から 5 枚引いてハートのカードが 3 枚含まれる確率などが従う確率分布です。期待値と分散は次のようになります。$$E[X] = n \frac{K}{N}, \quad \text{Var}(X) = n \frac{K}{N} \frac{N-K}{N} \frac{N-n}{N-1}$$超幾何分布は、「非復元抽出」による確率を求める場合に適用されるため、二項分布(復元抽出)の類似形ともいえます。
負の二項分布(Negative Binomial Distribution)
独立なベルヌーイ試行を繰り返し、\(r\)回目の成功が起こるまでの試行回数が従う確率分布です。成功確率を\(p\)とすると、\(r\)回目の成功がちょうど\(k\)回目で起こる確率は以下の式で表されます。$$P(X = k) = \frac{(k-1)!}{(r-1)! (k-r)!} p^r (1 – p)^{k – r}, \quad k = r, r+1, r+2, \dots$$例えば、サイコロを振って\(r=3\)回目の6が出る(成功する)までの回数\(k\)は負の二項分布に従います。期待値と分散は次のようになります。$$E[X] = \frac{r}{p}, \quad \text{Var}(X) = \frac{r (1 – p)}{p^2}$$負の二項分布は、幾何分布の一般化と考えることができ、「成功が\(r\)回起こるまでに必要な試行回数\(k\)」をモデル化する際に使用されます。
連続一様分布(Continuous Uniform Distribution)
指定された区間\([a, b]\)の範囲内で、すべての値が等しい確率で出現する分布です。確率密度関数(PDF)は以下のように表されます。$$f(x) = \begin{cases} \frac{1}{b-a}, & a \leq x \leq b \\ \;0, & \text{otherwise} \end{cases}$$例えば、ランダムな時間帯の測定結果や、サイコロを振った目などの理論的な分布となります。期待値と分散は以下の通りです。$$E[X] = \frac{a + b}{2}, \quad \text{Var}(X) = \frac{(b-a)^2}{12}$$
正規分布(Normal Distribution)
平均\(\mu\)、分散\(\sigma^2\)をもつ、左右対称な鐘形の分布です。確率密度関数(PDF)は以下のように表されます。$$f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$$自然界や社会・経済活動における事象が正規分布に従うことが多くあり、その背景には中心極限定理があります。例えば、身長や試験の点数、誤差の分布などが正規分布に従うことがあります。期待値と分散は以下の通りです。$$E[X] = \mu, \quad \text{Var}(X) = \sigma^2$$
標準正規分布(Standard Normal Distribution)
正規分布の特別なケースで、平均が0、分散が1に標準化された分布です。確率密度関数(PDF)は以下のようになります。$$f(x) = \frac{1}{\sqrt{2\pi}} \exp\left(-\frac{x^2}{2}\right)$$任意の正規分布\(N(\mu, \sigma^2)\)に従う確率変数\(X\)について、以下の標準化により、標準正規分布に従う確率変数\(Z\)へと変換できます。$$Z = \frac{X – \mu}{\sigma}$$
対数正規分布(Lognormal Distribution)
確率変数\(X\)が対数をとると正規分布に従う分布です。つまり、\( Y = \log X\)が正規分布\(N(\mu, \sigma^2)\)に従う場合、\(X\)は対数正規分布に従います。確率密度関数(PDF)は次のように表されます。$$f(x) = \frac{1}{x \sqrt{2\pi\sigma^2}} \exp\left(-\frac{(\log x – \mu)^2}{2\sigma^2}\right), \quad x > 0$$例えば、株価の変動や所得分布、生物の成長率などが対数正規分布に従うことがあります。対数をとることで正の値のみをとり、右に厚い裾を持つ分布形状となります。期待値と分散は以下の通りです。$$E[X] = e^{\mu + \frac{\sigma^2}{2}}, \quad \text{Var}(X) = (e^{\sigma^2} – 1) e^{2\mu + \sigma^2}$$
指数分布(Exponential Distribution)
事象がランダムに発生する間隔(待ち時間)を表す分布です。パラメータ\( \lambda\)(単位時間あたりの発生率)を用いた確率密度関数(PDF)は次のように表されます。$$f(x) = \lambda e^{-\lambda x}, \quad x \geq 0$$例えば、顧客の到着間隔や部品の故障時間、電話の着信間隔などが指数分布に従うことがあります。指数分布には無記憶性という性質があり、ある時点まで経過しても残りの待ち時間の分布は変わりません。つまり、ある時間\(t\)が経過した後に、さらに\(s\)時間待つ確率は、最初から\(s\)時間待つ確率と等しくなります。$$ P(X > t + s \mid X > t) = P(X > s)$$期待値と分散は以下の通りです。$$E[X] = \frac{1}{\lambda}, \quad \text{Var}(X) = \frac{1}{\lambda^2}$$
ガンマ分布(Gamma Distribution)
指数分布の一般化で、複数の指数分布の和として解釈できる分布です。パラメータ\( \alpha\)(形状母数)と\(\beta\)(尺度母数)を用いた確率密度関数(PDF)は次のように表されます。$$f(x) = \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha – 1} e^{-\beta x}, \quad x > 0$$ここで、\(\Gamma(\alpha)\)はガンマ関数です。例えば、機械の寿命や保険クレームの発生間隔、待ち時間の合計などがガンマ分布に従うことがあります。また、\(\alpha = 1\)のガンマ分布は指数分布と一致します。期待値と分散は以下の通りです。$$E[X] = \frac{\alpha}{\beta}, \quad \text{Var}(X) = \frac{\alpha}{\beta^2}$$ガンマ分布はポアソン過程やベイズ統計で頻繁に使われます。
共分散(Covariance)
2つの確率変数\(X\)と\(Y\)の同時変動の程度を示す指標です。以下の式で定義されます。$$\text{Cov}(X, Y) = E[(X – E[X])(Y – E[Y])]$$共分散が0より大きい場合、\(X\)が大きいときに\(Y\)も大きい傾向(正の関係)があります。共分散が0より小さい場合、\(X\)が大きいときに\(Y\)は小さい傾向(負の関係)があります。共分散が0の場合は、\(X\)と\(Y\)は無相関となります。ただし、共分散の値は変数のスケールに依存するため、比較が難しいことがあります。
相関係数(Correlation Coefficient)
共分散を標準化し、\(-1\)から\(1\)の範囲に正規化した指標で、2つの変数の線形関係の強さを表します。以下の式で定義されます。$$\rho(X, Y) = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}$$ \(\rho = 1\)の場合、完全な正の相関(\(X\)が増えると\(Y\)も増える)があり、\(\rho = -1\)の場合、完全な負の相関(\(X\)が増えると\(Y\)は減る)があります。\(\rho = 0\)の場合は無相関(線形関係なし)となります。相関係数はスケールに依存しないため、異なる確率変数組の間の比較が可能です。
独立性(Independence)
2つの確率変数\(X\)と\(Y\)が互いに影響を与えず、片方の値が分かってももう片方の確率分布が変わらない場合、それらは独立であるといいます。数学的には、すべての\(x, y\)に対して以下の式が成り立つとき、\(X\)と\(Y\)は独立です。$$P(X = x, Y = y) = P(X = x) P(Y = y)$$また、連続型確率変数の場合、確率密度関数(PDF)を用いると$$f_{X,Y}(x, y) = f_X(x) f_Y(y)$$が成り立つとき、独立といえます。独立な確率変数は、共分散が0になりますが、逆に共分散が0でも必ずしも独立とは限りません。
線形結合(Linear Combination)
複数の確率変数を係数付きで足し合わせた形のことを指します。確率変数\(X_1, X_2, \dots, X_n\)の線形結合は、以下の式で表されます。$$Y = a_1 X_1 + a_2 X_2 + \dots + a_n X_n$$ここで、\( a_1, a_2, \dots, a_n\)は定数(スカラー係数)です。
期待値の線形性(Linearity of Expectation)
期待値は線形性を持ち、以下の式が常に成り立ちます。$$E[aX + bY] = aE[X] + bE[Y]$$ ここで、\(X, Y\)は確率変数、\(a, b\)は定数です。確率変数の和やスカラー倍の期待値は、それぞれの期待値の和やスカラー倍に分解できるという重要な性質を示します。
線形結合の期待値
期待値の線形性により、確率変数の線形結合の期待値は、各期待値の線形結合と等しくなります。$$ E[Y] = E[a_1 X_1 + a_2 X_2 + \dots + a_n X_n] = a_1 E[X_1] + a_2 E[X_2] + \dots + a_n E[X_n]$$つまり、期待値の演算では、係数はそのまま外に出せるという性質があります。
線形結合の分散
確率変数が互いに独立である場合、線形結合の分散は以下のように求められます。$$\text{Var}(Y) = \text{Var}(a_1 X_1 + a_2 X_2 + \dots + a_n X_n)$$ $$= a_1^2 \text{Var}(X_1) + a_2^2 \text{Var}(X_2) + \dots + a_n^2 \text{Var}(X_n)$$独立でない場合は、共分散も考慮する必要があり、次のようになります。$$\text{Var}(Y) = \sum_{i=1}^{n} a_i^2 \text{Var}(X_i) + 2 \sum_{i<j} a_i a_j \text{Cov}(X_i, X_j)$$この式から、確率変数間に相関がある場合、分散は単純な足し算ではなく、共分散の影響を受ける ことがわかります。
標本平均の期待値
標本平均\(\bar{X}\)は、母平均と同じ期待値を持つ不偏推定量です。\(n\)個の独立な確率変数\(X_1, X_2, …, X_n\)の標本平均は$$\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i$$と表せ、この期待値は、期待値の線形性より$$E[\bar{X}] = \frac{1}{n} \sum_{i=1}^{n} E[X_i] = \mu$$となります。したがって、標本平均の期待値は母平均\(\mu\)に等しくなります。
標本平均の分散
各標本が独立で分散\(\sigma^2\)を持つ場合、標本平均の分散は以下のように求められます。$$\text{Var}(\bar{X}) = \text{Var} \left( \frac{1}{n} \sum_{i=1}^{n} X_i \right)$$分散の性質を用いると、$$\text{Var}(\bar{X}) = \frac{1}{n^2} \sum_{i=1}^{n} \text{Var}(X_i) = \frac{\sigma^2}{n}$$となります。つまり、標本サイズ\(n\)が大きくなるほど標本平均の分散は小さくなり、標本平均の推定精度が向上することを意味します。
標本分布(Sampling Distribution)
標本統計量(標本平均や標本分散など)が、無作為に抽出された標本ごとに異なる値をとることによって形成される確率分布のことです。端的には標本統計量のしたがう確率分布になります。例えば、母集団からサイズ\(n\)の標本を複数回抽出し、それぞれの標本平均\(\bar{X}\)を求めると、\(\bar{X}\)の分布が形成されます。これが標本平均の標本分布です。標本サイズ\(n\)が大きくなると、中心極限定理により(母集団の分布に関係なく)標本平均の標本分布は正規分布に近づきます。標本分布の特性は、推定や仮説検定の基盤となる重要な概念です。
標準正規分布(Standard Normal Distribution)
正規分布の特別なケースで、平均が0、分散が1に標準化された分布です。確率密度関数(PDF)は以下のようになります。$$f(x) = \frac{1}{\sqrt{2\pi}} \exp\left(-\frac{x^2}{2}\right)$$任意の正規分布\(N(\mu, \sigma^2)\)に従う確率変数\(X\)について、以下の標準化により、標準正規分布に従う確率変数\(Z\)へと変換できます。$$Z = \frac{X – \mu}{\sigma}$$
カイ二乗分布(Chi-Square Distribution)
\(k\)個の独立な標準正規分布の2乗の和(平方和)として定義される分布です。自由度\(k\)のカイ二乗分布の確率密度関数(PDF)は次のように表されます。$$f(x) = \frac{x^{k/2 – 1} e^{-x/2}}{2^{k/2} \Gamma(k/2)}, \quad x > 0$$カイ二乗分布は以下のように定義されます。$$ \chi^2 = \sum_{i=1}^{k} Z_i^2, \quad Z_i \sim N(0,1)$$ 0以上の値をとり、自由度が増えると分布の形状が左右対称に近づきます。母分散の推定や適合度検定、分散分析(ANOVA)などで用いられます。
\(t\)分布(t-distribution)
母分散が未知の場合に、標本平均の標本分布を記述するための分布です。自由度\(\nu\)の \(t\)分布の確率密度関数(PDF)は以下のように表されます。$$f(t) = \frac{\Gamma\left(\frac{\nu+1}{2}\right)}{\sqrt{\nu \pi} \Gamma\left(\frac{\nu}{2}\right)} \left(1 + \frac{t^2}{\nu}\right)^{-\frac{\nu+1}{2}}, \quad -\infty < t < \infty$$ \(t\)分布は以下のように定義されます。$$t = \frac{Z}{\sqrt{W / \nu}}, \quad Z \sim N(0,1), \quad W \sim \chi^2(\nu)$$ 自由度\(\nu\)が小さいと分布の裾が厚くなり、自由度が大きくなると標準正規分布に近づきます。小標本の仮説検定や信頼区間の計算に用いられます。
\(F\)分布(F-Distribution)
2つの独立なカイ二乗分布の平均の比(平均平方和の比)として定義される分布です。自由度\(\nu_1, \nu_2\)の\(F\)分布の確率密度関数(PDF)は以下のように表されます。$$f(F) = \frac{\left(\frac{\nu_1}{\nu_2} F\right)^{\frac{\nu_1}{2}}}{B\left(\frac{\nu_1}{2}, \frac{\nu_2}{2}\right)} \frac{1}{F^{1+\frac{\nu_1}{2}}}, \quad F > 0$$\(F\)分布は以下のように定義されます。$$F = \frac{W_1 / \nu_1}{W_2 / \nu_2}, \quad W_1 \sim \chi^2(\nu_1), \quad W_2 \sim \chi^2(\nu_2)$$\(F\)分布は右に長い裾を持ち、非対称な分布形状となり、自由度が大きくなると正規分布に近づきます。分散の比の検定(F検定)や分散分析(ANOVA)、回帰分析のモデル評価などに用いられます。
大数の法則(Law of Large Numbers)
標本サイズが大きくなるにつれて、標本平均が母平均に収束することを示す定理です。弱法則と強法則があります。
- 弱法則$$ P\left(\left| \bar{X} – \mu \right| \geq \epsilon \right) \to 0 \quad \text{as } n \to \infty$$つまり、標本サイズ\(n\)を増やすと、標本平均\(\bar{X}\) が母平均\(\mu\)に確率的に近づくことを示します。
- 強法則$$\bar{X} \to \mu \quad \text{almost surely as } n \to \infty$$ほぼ確実に標本平均が母平均に収束することを示します。
大数の法則は、多くの試行を行うことで、経験的な平均が理論的な期待値に近づく(例: サイコロを多く振ると、出目の平均が 3.5 に近づく)ことを意味するものです。
チェビシェフの不等式(Chebyshev’s Inequality)
確率変数が期待値から一定の範囲を超えて外れる確率の上限を与える不等式です。$$P(|X – E[X]| \geq k\sigma) \leq \frac{1}{k^2}, \quad k > 0$$ここで、\(E[X]\)は期待値、\(\sigma^2\)は分散です。どんな確率分布にも適用可能で、データの大半が平均値の周りに集まることを保証します。この不等式は大数の法則の証明にも使われ、データの分散が小さいほど平均に集中することを示します。
中心極限定理(Central Limit Theorem: CLT)
独立同分布(i.i.d.)の確率変数の「和」や「平均」が、元の分布の形状に関係なく、正規分布に近づくことを示す定理です。一般的な形式(確率変数の和)としては、独立同分布(i.i.d.)の確率変数\(X_1, X_2, \dots, X_n\)を考え、それぞれの平均と分散を以下のように定義します。$$E[X_i] = \mu, \quad \text{Var}(X_i) = \sigma^2$$このとき、確率変数の「和」\(S_n\)を次のように表し、$$S_n = X_1 + X_2 + \dots + X_n$$これを標準化すると、$$\frac{S_n – n\mu}{\sigma\sqrt{n}} \to N(0,1) \quad \text{as } n \to \infty$$つまり、十分に大きな\(n\)では、確率変数の和(や平均)が正規分布に従うことを示しています。
中心極限定理の例:標本平均の分布
サンプルサイズが大きくなると、標本平均の分布が正規分布に近づくことを示します。標本平均\(\bar{X}\)は次の分布に従います。$$\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)$$母集団がどんな分布でも、サンプルサイズ\(n\)が大きいとき、標本平均は正規分布に近づくことを意味します。平均身長の推定や製品の品質管理(平均値を使った管理手法)など、「平均」に関する推定や検定の理論的根拠となるものです。
中心極限定理の例:二項分布の正規分布近似
二項分布\(B(n, p)\)は\(n\)が大きいと正規分布に近似できることを示します。二項分布の期待値と分散は、$$E[X] = np, \quad \text{Var}(X) = np(1 – p)$$となり、これを標準化すると、$$Z = \frac{X – np}{\sqrt{np(1 – p)}} \to N(0,1) \quad \text{as } n \to \infty$$となります。一般的に\(np \geq 5\)、\( n(1 – p) \geq 5\)のとき、正規分布で近似可能とすることがあります。選挙の投票結果の予測や不良品の発生確率の推定などに用いられます。