
目次
1. はじめに
確率分布の一つである「負の二項分布」は、データのばらつきが大きい場合や、試行回数がランダムに決まるような状況でよく用いられます。特に、ポアソン分布ではデータの分散と平均が等しくなるという制約がありますが、実際のデータでは分散が平均より大きくなることが多いです。そんなときに役立つのが負の二項分布です。
この記事では、負の二項分布の基本的な概念から応用例までを、できるだけわかりやすく解説していきます。
2. 負の二項分布の基本
負の二項分布は、独立したベルヌーイ試行(成功確率 p)を繰り返し、「成功が r 回得られるまでに要した試行回数 X」を表す確率分布です。
2-1. 基本的な考え方
負の二項分布は、「一定数の成功が得られるまでに必要な試行回数」に着目した分布です。
例えば、
- サイコロを振り、「3の目が5回出るまでに何回振る必要があるか?」
- 顧客が商品を3回購入するまでに、何回の訪問が必要か?
このような問題設定では、負の二項分布を適用できます。
2-2. 二項分布との違い
負の二項分布は二項分布とよく比較されます。
- 二項分布:「n 回の試行のうち、成功が r 回起こる確率」
- 負の二項分布:「成功が r 回起こるまでに必要な試行回数の分布」
このように、負の二項分布は「成功するまでの試行回数」に焦点を当てている点が特徴です。
3. 負の二項分布の適用例
負の二項分布は、次のような実際のデータ分析で役立ちます。
3-1. 顧客行動のモデリング
マーケティングの分野では、「顧客が一定の購買回数に達するまでに要する期間」をモデル化する際に負の二項分布が用いられます。
- 例:「顧客が 3 回目の購入をするまでに何回の広告接触が必要か?」
3-2. 医学・生物統計
医療分野では、「特定の治療法で患者が 5 回目の改善を経験するまでの治療回数」をモデル化するのに利用されます。
- 例:「患者が 3 回目の症状緩和を経験するまでに必要な治療回数は?」
3-3. 保険・リスク管理
保険のリスク分析では、「一定の保険金請求が発生するまでの期間」を分析するのに負の二項分布が使われることがあります。
- 例:「ある企業が 10 回の保険金請求をするまでに何日かかるか?」
4. 負の二項分布と他の分布との関係
負の二項分布は、他の確率分布とも深い関係を持っています。
4-1. 幾何分布との関係
幾何分布は、負の二項分布の特殊なケースと考えられます。負の二項分布で成功回数 r を 1 に固定すると、試行が成功するまでに要する回数が幾何分布に従います。
- 負の二項分布(r=1 の場合) → 幾何分布
- 応用例:「最初の成功が得られるまでにかかる試行回数」
4-2. ポアソン分布との関係
負の二項分布は、ポアソン分布の拡張として解釈されることがあります。ポアソン分布は平均と分散が等しいという制約がありますが、負の二項分布は分散を調整できるため、過分散(分散 > 平均)を持つデータをモデル化するのに適しています。
- ポアソン分布:平均 = 分散
- 負の二項分布:分散 > 平均(過分散)
4-3. ガンマ分布との関係
負の二項分布は、ポアソン分布の平均がガンマ分布に従う場合に導かれることが知られています。これをポアソン・ガンマ混合分布とも呼びます。
- ポアソン分布の平均値をガンマ分布に従わせると、負の二項分布になる。
- これにより、分散をより柔軟に調整できる。
この関係は、ベイズ統計や階層モデルで特に活用されます。
5. 負の二項分布のパラメータ
負の二項分布には、以下の2つのパラメータがあります。
- r(成功回数):目標とする成功の回数
- p(成功確率):1回の試行で成功する確率
期待値(平均)と分散は以下のように求められます。
- 期待値 = r / p
- 分散 = r(1 – p) / p²
この分散の式からもわかるように、p の値が小さいほど分散が大きくなり、ばらつきのあるデータを表現しやすくなります。
6. まとめ
- 負の二項分布は、成功が一定回数に達するまでの試行回数をモデル化する分布。
- 幾何分布は、負の二項分布の特別なケース(r=1)。
- ポアソン分布では過分散が問題となる場合、負の二項分布を使うと適切なモデリングが可能。
- ガンマ分布との関係により、ポアソン・ガンマ混合モデルとしても解釈される。
負の二項分布を正しく理解し、適切な場面で活用することで、より精度の高いデータ分析ができるようになります。