
目次
1. はじめに
確率分布の中でも、多項分布は「複数のカテゴリーに分類される試行が繰り返される場合」に適用されます。二項分布の拡張版と考えることができ、成功・失敗の2種類に限定されない試行結果を扱うことができます。
例えば、
- サイコロを10回振ったとき、それぞれの目が出る回数の分布
- あるアンケートで「賛成」「反対」「どちらでもない」に分類される回答の数
- 顧客が3種類の商品を選ぶ確率に基づいた購買行動のモデル化
このようなケースでは、多項分布が適用されます。
この記事では、多項分布の基本概念から実用例までを、できるだけわかりやすく解説していきます。
2. 多項分布の基本
2-1. 多項分布の考え方
多項分布は、「n回の試行を行い、それぞれのカテゴリーにどれだけの回数が割り当てられるか」をモデル化する確率分布です。
例えば、6面のサイコロを10回振ると、各目(1, 2, 3, 4, 5, 6)の出る回数は試行ごとに異なります。このような結果の分布が多項分布に従います。
二項分布との関係を整理すると、
- 二項分布:成功 or 失敗の2カテゴリ(例:コイン投げで表 or 裏)
- 多項分布:3つ以上のカテゴリが存在する(例:サイコロの目、投票の選択肢)
多項分布は、カテゴリの数が2つ以上に増えた場合の確率を計算するのに使われます。
2-2. 多項分布のパラメータ
多項分布を表すには、以下のパラメータが必要です。
- n(試行回数):試行の総数
- p₁, p₂, …, pₖ(カテゴリごとの確率):それぞれのカテゴリに属する確率(p₁ + p₂ + … + pₖ = 1)
- x₁, x₂, …, xₖ(各カテゴリの出現回数):各カテゴリに分類された回数(x₁ + x₂ + … + xₖ = n)
例えば、サイコロを10回振った場合、
- n = 10(振る回数)
- p₁ = p₂ = … = p₆ = 1/6(各目が出る確率)
- x₁, x₂, …, x₆(各目の出現回数)
となります。
3. 多項分布の適用例
多項分布は、さまざまな分野で利用されています。
3-1. マーケティングと消費者行動分析
マーケティングの分野では、顧客が異なるブランドや商品を選択する確率をモデル化する際に多項分布が使われます。
- 例:「A, B, C の3つのブランドのうち、消費者がどれを選ぶか」
- 各ブランドの市場シェアを確率 p₁, p₂, p₃ とし、購入数の分布を予測
3-2. 選挙分析
選挙で候補者が複数いる場合、得票数の分布を多項分布でモデル化できます。
- 例:「A, B, C の3候補がいる選挙で、それぞれの得票数がどのように分布するか」
- 各候補の支持率を p₁, p₂, p₃ とし、投票数の分布を分析
3-3. 自然言語処理(NLP)
テキストデータの分析では、単語の出現頻度を多項分布でモデル化することが多いです。
- 例:「文章内の単語が、事前に決めたカテゴリ(名詞、動詞、形容詞)にどれだけ出現するか」
- 自然言語処理では、トピックモデリングや文書分類に応用される
3-4. 遺伝学
生物学・遺伝学では、遺伝子の変異がどの種類に分かれるかを多項分布で表現します。
- 例:「特定の遺伝子が A, B, C の3種類の変異を持つ確率をモデル化」
- 各変異の発生確率を p₁, p₂, p₃ として考える
4. 多項分布と他の分布との関係
4-1. 二項分布との関係
多項分布は、二項分布の一般化と考えられます。
- 二項分布:成功 or 失敗の2カテゴリ(例:コイン投げ)
- 多項分布:3つ以上のカテゴリがある(例:サイコロの目、選挙の投票)
4-2. ポアソン分布との関係
ポアソン分布は、多項分布が試行回数 n → ∞ の極限で近似される場合に適用されます。これは、イベントの発生確率が小さいときによく見られる現象です。
4-3. ディリクレ分布との関係
多項分布の確率パラメータ(p₁, p₂, …, pₖ)が不確定な場合、ディリクレ分布を事前分布とすることで、ベイズ統計に応用できます。ディリクレ分布は多項分布の「確率の分布」と考えることができます。
5. まとめ
- 多項分布は、複数のカテゴリに分類される試行の結果をモデル化する確率分布。
- 二項分布の拡張版として、3つ以上のカテゴリがある場合に使用。
- マーケティング、選挙分析、自然言語処理、遺伝学など、さまざまな分野で活用される。
- ポアソン分布、ディリクレ分布といった他の確率分布とも関連が深い。
多項分布を理解することで、さまざまな分野でのデータ分析の幅が広がります。適切な場面で活用し、より精度の高いモデル構築に役立てましょう!