
01. 記述統計
記述統計(Descriptive Statistics)とは、データの特徴を統計量(平均・分散など)やグラフ(ヒストグラム・箱ひげ図など)を用いて整理・要約する手法です。
データ(Data)
一般に、何らかの対象を観測した結果として得られる事実や数値、文字列などの集合を指します。統計学では、観測対象となる「要素」(例:個人、企業、地域など)ごとに得られる一連の数値やカテゴリ情報のことをデータと呼びます。分析の際には、単なる数値の羅列ではなく、どのような性質を表しているのか、あるいはどのように得られたものかを明確にすることが重要です。
変数(Variable)
データの各要素が取りうる属性や特性を数値またはカテゴリとして表現したものを変数と呼びます。たとえば「身長」「体重」「都道府県」「職業」などが挙げられます。変数には、対象によって「取りうる値が変化する」データになります(値が定まっている「定数」との違いを意識すると理解しやすいです)。統計学では、この変数の種類や尺度を正しく把握することで、適切な分析手法を選択できるようになります。
表側 (Row Header)
データを表形式で示す際、縦方向の見出し部分を指します。たとえば、縦方向に都道府県の一覧やサンプル番号などをとり、横方向に各都道府県や各サンプル番号に対応するデータが整理された表の場合、各行に配置されるラベル(都道府県の場合、「北海道」、「青森県」…)が表側にあたります。
表頭 (Column Header)
同じく表形式において、横方向の最上部(各列の最上部)に配置される見出し部分を指します。一般に、各列が「どの変数を示しているのか」や「どのような項目か」を明示する役割を担います。たとえば「年齢」「性別」「身長」「体重」などの列名が表頭に該当します。
質的変数 (Qualitative Variable)
観測対象にラベルやカテゴリを与えるような変数であり、値の「大きさ」よりも「同じか異なるか」や「上位か下位か」といった区別に意味がある変数になります。具体例としては、性別(男・女など)、職業(会社員・自営業など)、地域名(北海道・東京都など)が挙げられます。尺度の分類としては「名義尺度」と「順序尺度」が質的変数に該当します。
量的変数 (Quantitative Variable)
観測対象を数値として測定し、その大きさを比較できる変数です。身長、体重、温度、売上額など、加減乗除が理論的に可能または間隔を検討できるものを指します。「間隔尺度」と「比例尺度」が量的変数に該当し、統計分析の手法の多くは量的変数を扱う前提をもつことが多いです。
名義尺度 (Nominal Scale)
質的変数のうち、「同じか異なるか」の区別のみが意味をもつ尺度です。分類・識別が主目的であり、値の大小や優劣を比較できるわけではありません。例として、血液型(A・B・O・AB)や職業分類(公務員・会社員・自営業など)があります。数値を割り当てる場合もありますが、その数値に計算上の意味はありません(例:男性=1、女性=2 など)。
順序尺度 (Ordinal Scale)
質的変数のうち、値の間に序列関係(大きい・小さい、優れている・劣っているなど)が存在する尺度。ただし、数値の差には厳密な意味がありません。例として、アンケートの回答(「満足」「やや満足」「普通」「やや不満」「不満」)や、A・B・C・D などのランクづけが挙げられます。あくまでも「並び順」に意味があり、その差の大きさを数量的に扱うことはできません。
間隔尺度 (Interval Scale)
量的変数のうち、値の差(間隔)に厳密な意味があるものの、比率(倍数)には必ずしも意味がない尺度です。代表的な例として「気温(摂氏や華氏)」があります。0度という値は恣意的な基準点であり、0度が「何も存在しない」ことを意味しないため、10度と20度で「2倍」という表現は妥当ではありません。一方、10度と15度では差が5度として扱えるなど、「差」には意味があります。
比例尺度 (Ratio Scale)
量的変数のうち、値の差だけでなく「比率」にも意味がある尺度です。これには「絶対的な 0」という基準点が存在し、0は「数量がまったくない」ことを示します。例として長さ、重さ、時間、価格などがあります。10cm は 5cm の 2倍の長さであり、200円は 100円の 2倍であるように、倍数関係が成り立つという特徴があります。
度数 (Frequency)
ある階級やカテゴリーに属するデータの件数を指します。たとえば、アンケート回答で「男性」が 30 人、「女性」が 20 人であれば、それぞれの度数は 30 と 20 になります。度数を把握することにより、どの分類にデータが集中しているかを一目で確認できるようになります。
度数分布表 (Frequency Distribution Table)
量的変数の場合、連続した数値をいくつかの階級(区間)に分割し、それぞれの階級に含まれるデータの度数を整理した表を指します。たとえば「0〜10」「10〜20」「20〜30」などの階級を設定し、各階級に該当するデータ数を列挙します。この度数分布表を用いることで、変数の分布形状や偏りを把握しやすくなるのが特徴です。
相対度数 (Relative Frequency)
度数を、全体の件数(サンプルサイズ)で割った値を指します。たとえば、全体が 100 件あるうち「男性」が 30 件であれば、その相対度数は 0.30(30%)となります。集計単位が異なるグループ間で度数を比較する際に、相対度数を用いると比較が容易になります。
相対度数分布表 (Relative Frequency Distribution Table)
度数分布表の各階級やカテゴリーについて、その度数を全体のサンプルサイズで割った相対度数を整理した表を指します。割合(百分率、%)として示されることが多く、データの分布状況をより直感的に把握できる利点がございます。
累積度数 (Cumulative Frequency)
ある階級やカテゴリーまでの度数を順番に合計したものを指します。たとえば、階級を「0〜10」「10〜20」「20〜30」などとした場合、20〜30 の累積度数は「0〜10 および 10〜20 の度数も含めた合計」となります。
累積相対度数 (Cumulative Relative Frequency)
累積度数を全体のサンプルサイズで割った値を指します。累積度数が「度数の合計」であったのに対し、累積相対度数は累積度数が「全体の何割(何%)」に相当するかを表します。ある階級までに全体のどの程度が含まれているかを視覚的に示す際に有用です。
ヒストグラム (Histogram)
主に量的変数の度数分布を可視化するために用いられるグラフで、横軸に階級(数値の区間)、縦軸に度数または相対度数をとります。連続した数値の分布形状や偏り、山の数などを把握するのに適しています。各階級は横に隣り合って描かれるため、棒同士の間に隙間を空けないことが一般的です。
棒グラフ (Bar Chart)
カテゴリ(質的変数)の度数などを可視化するためのグラフで、横軸にカテゴリ名、縦軸に度数または相対度数を配置することが多いです。カテゴリ同士を比較する場合に視覚的にわかりやすく、通常は棒と棒の間に一定の隙間を空けるのが特徴です。ヒストグラムと異なり、カテゴリ間の数値が連続的に変化するわけではない点に注意が必要です。
累積分布 (Cumulative Distribution)
各階級あるいは各値について、その値以下(または以上)であるデータの割合を示す指標を累積的に示したものを指します。量的変数の場合、ヒストグラムをもとに累積度数や累積相対度数を累積して描画した曲線を「累積分布図」と呼ぶことがあります。たとえば「全体の何%が 50 以下か」といった情報を容易に読み取ることができるため、分位点の把握などに便利です。
平均 (Mean)
ある量的変数 \( x \) について、その値をすべて合計し、観測数(サンプルサイズ)\( n \) で割った値を指します。記号としては \( \bar{x} \) (エックスバー)を用いることが一般的です。平均は「重心」に相当し、データ全体の代表的な値を表しているため、分布の中心を把握する際に重要な指標となります。$$\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i $$
平均偏差 (Mean Deviation)
各観測値から平均を引いた偏差(誤差)の絶対値の平均を指します。具体的には次の式で表されます。$$ \text{平均偏差} = \frac{1}{n} \sum_{i=1}^{n} \left| x_i – \bar{x} \right| $$のように計算されます。分散との違いとして、偏差を二乗せずに「絶対値」を取る点が特徴です。外れ値の影響などを分散ほど強く受けない一方、統計解析上の公式との親和性が分散ほど高くないため、しばしば分散や標準偏差より使用頻度は低くなりがちです。
標本分散 (Variance)
データのばらつきを表す代表的な尺度であり、各観測値の「平均からの偏差」を二乗して合計し、それをサンプルサイズで割った値です。記号では \( s^2 \) などが用いられます。式は$$ s^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i – \bar{x})^2 $$ となります。値が大きいほど、平均からのばらつきが大きいことを意味します。
標準偏差 (Standard Deviation)
分散の平方根を取ることで、元のデータの単位に合わせてスケールを戻した指標です。記号では\( s \)と表すことが多く、ばらつきの度合いを直感的に理解しやすい指標となります。たとえば、平均が 50、標準偏差が 10 であれば、多くのデータが平均 50 を中心にしてプラスマイナス 10 の範囲内に分布していると捉えることができます。
不偏分散 (Unbiased Variance)
母集団の分散を推定する目的で、サンプルから分散を計算する際に、\( (n−1) \)で割ることで偏りを補正した分散のことを一般に不偏分散と呼びます。不偏分散は以下の式により計算されます。$$ s^2_{\text{unbiased}} = \frac{1}{n – 1} \sum_{i=1}^{n} (x_i – \bar{x})^2 $$推測統計の文脈では、母分散を正しく推定するために不偏分散が用いることが一般的です。
標準化得点 (Standard Score, z-score)
各観測値\( x_i \)から平均\( bar{x} \)を引き、標準偏差\( s \)で割った値を標準化得点と呼び、以下の式で定義されます。$$ z_i = \frac{x_i – \bar{x}}{s} $$標準化得点を用いることで、平均や標準偏差が異なる変数間でも、同じ基準(平均 0、標準偏差 1)で比較が可能になります。たとえば、試験の点数や身体測定の結果など単位やスケールが異なる対象を同列に評価できる利点があります。
変動係数 (Coefficient of Variation, CV)
標準偏差を平均で割ることによって算出する、相対的なばらつきの指標です。式は以下のように書けます。$$ CV = \frac{s}{\bar{x}} $$ここで\( s \) は標準偏差、\( \bar{x} \) は平均を示します。変動係数は、平均の規模が異なる複数の変数において、そのばらつきが平均値と比較してどの程度大きいかを示す指標となります。たとえば、身長や体重など単位やスケールが異なるデータのばらつきを比較する際に有用です。
順序統計量 (Order Statistics)
標本を小さい順または大きい順に並べたとき、それぞれの順位に対応する値を指します。たとえば、最小値や中央値、四分位数などが順序統計量の代表例です。値そのものではなく、データを並べた「順位」に着目して定義されるため、外れ値の影響を抑えながら分布の特徴を把握できる利点があります。
中央値 (Median)
標本を大きさの順に並べたとき、ちょうど中央に位置する値を指します。観測数\( n \)が奇数の場合は、\( \frac{n+1}{2} \)番目の値が中央値となります。一方で\( n \)が偶数の場合は、\( \frac{n}{2} \)番目の値と、\( \frac{n}{2} + 1 \)番目の値の平均が中央値となります。平均と異なり、極端に大きい値や小さい値(外れ値)の影響を受けにくいという特徴があります。
最小値 (Minimum) ・最大値 (Maximum)・範囲 (Range)
標本を小さい順に並べたとき、最初にくる最も小さい値が最小値、最後にくる最も大きい値が最大値です。それぞれの値を明示することで、データがどのような値の間に収まっているかを一目で把握することができます。最大値と最小値の差を「範囲」と呼び、分布のばらつきを簡易的に示す指標として用いることが多いです。
四分位数 (Quartiles)
標本を値の大きさ順に並べたとき、小さい方から 25%(第 1 四分位数、\( Q1 \))と 50%(中央値、\( Q2 \))、および 75%(第 3 四分位数、\( Q3 \))の位置にある値を四分位数と呼びます。これらを用いると、データ分布の「下位 25%」「下位 50%」「下位 75%」などの位置関係を把握しやすくなります。
四分位範囲 (Interquartile Range, IQR)
第 3 四分位数 (\( Q3 \)) と第 1 四分位数 (\( Q1 \)) の差 (\( Q3−Q1 \))を指します。データ全体の中間 50%に相当するデータがどの程度の幅に分布しているかを表す指標として用いられます。外れ値の影響を受けにくいため、分布の中央値を中心としたデータの散らばりを把握するうえで有用です。
箱ひげ図 (Box Plot)
四分位数や最小値・最大値、外れ値などを一つの図で表し、データの分布を視覚的に把握できるグラフです。通常、箱の上下は\( Q1 \)と\( Q3 \)、箱の中の線が中央値を示し、箱の外側に伸びる「ひげ」部分が一定ルールで定義された範囲(一般的には、\( 「Q1 – 1.5 \times \text{四分位範囲}」 \)や\( 「Q3 + 1.5 \times \text{四分位範囲}」 \)までとすることが多いです)を表します。ひげの外に位置する値は外れ値として点などでプロットされることが一般的です。箱ひげ図により、分布の偏りや外れ値の有無を一目で確認しやすくなります。
散布図 (Scatter Plot)
2 つの量的変数(\( x \)と\( y \)など)の対応関係を、縦軸と横軸にプロットして可視化するグラフを指します。各観測単位が点として描かれ、変数間の連動やばらつき、外れ値の有無などを直観的に把握しやすい手法です。散布図を用いると、変数間に正の相関関係があるのか、負の相関関係があるのか、あるいは相関関係がほとんどないのかを一目で推察することができ、相関分析や回帰分析への導入としてしばしば利用されます。
共分散 (Covariance)
2 つの変数\( x \)と\( y \)が同時にどの程度変動するか(共に増減するか)を数値化した指標を指します。通常、サンプルに基づく共分散は以下の式で与えられます。$$ s_{xy} = \frac{1}{n} \sum_{i=1}^n (x_i – \bar{x})(y_i – \bar{y}) $$正の値であれば「\( x \)が大きいほど\( y \)も大きくなる傾向」を示し、負の値であれば「\( x \)が大きいほど\( y \)は小さくなる傾向」を示すことになります。ただし、共分散は変数の尺度(単位)の影響を受けるため、異なる単位同士を直接比較しづらい面があります。
相関係数 (Correlation Coefficient)
2 つの変数の線形的な関係の強さを示す指標であり、共分散をそれぞれの標準偏差で割った形で定義されます。通常、ピアソンの積率相関係数は以下のように与えられます。$$ r_{xy} = \frac{s_{xy}}{s_x \, s_y} $$ここで \( s_{xy} \)は共分散、\( s_x \)および\( s_y \)はそれぞれの標準偏差です。値の範囲は\( -1 \)から\( +1 \)の間に収まり、\( +1 \)に近いほど強い正の相関、\( -1 \)に近いほど強い負の相関、\( 0 \)付近であれば無相関を意味します。
相関係数の解釈
相関係数\( r_{xy}\) が正の場合は「片方の変数が大きいほど、もう片方も大きい(正の傾向)」、負の場合は「片方が大きいほど、もう片方が小さい(負の傾向)」を示唆します。値が 0 に近いと「線形的な関連性は薄い」ことを示しますが、必ずしも「まったく関連がない」ことを意味するわけではありません。なお、相関係数はあくまで「線形の関係性」を測る指標であり、曲線的な関係や外部要因の影響などは含意しない点に注意が必要です。また、相関の高さが必ずしも因果関係を示すわけではない点も強調されることが多いです。
擬相関 (Spurious Correlation)
2 つの変数の間に、高い相関係数が観測されているにもかかわらず、その背後に別の要因や第三の変数が存在し、実際には直接の因果や関連がない現象を指します。統計分析の場面では、相関が見られたからといってただちに両変数間の因果関係を結論づけてはいけないことを示す代表的な概念です。たとえば、「アイスクリームの売上」と「日焼け止めの使用量」が共に気温という隠れた要因によって左右される場合、高い相関が観測されても両者に直接的な因果関係があるとは限りません。
交絡 (Confounding)
2 つの変数\( x \)と\( y \)の関係を調べる際、実際には第三の変数\( z \)が存在して\( x \)と\( y \)の両方に影響を与え、見かけ上の相関や因果関係を混乱させる現象を指します。医療分野などでは「交絡因子」と呼ばれる要素が分析の結果を歪める場合が多いため、しばしば注意が払われます。たとえば、喫煙の有無と肺がんの発生率の関係を調べる際、職業や居住地など別の要因も肺がんに影響しているとしたら、それらを考慮せずに単純な集計だけを行うと交絡が生じる可能性があります。
偏相関係数 (Partial Correlation Coefficient)
特定の第三の変数\( z \)(あるいは複数の変数)の影響を取り除いたうえで、2 つの変数\( x \)と\( y \)の間の線形的な関連性を示す指標を指します。ピアソンの相関係数\( r_{xy} \)から、\( z \)との相関成分を排除することで算出され、式としては以下のように与えられます。$$ r_{xy \cdot z} = \frac{r_{xy} – r_{xz} \, r_{yz}}{\sqrt{(1 – r_{xz}^2)(1 – r_{yz}^2)}} $$この指標を用いると、表面上の相関ではなく、特定の交絡変数の影響を統制したうえでの関連性を評価できる利点があります。
偏相関係数の解釈
偏相関係数\( r_{xy \cdot z} \)が大きいほど、第三の変数\( z \)を取り除いたあとでも\( x \)と\( y \)が強く関連していることを示します。逆に、偏相関係数が 0 に近い場合は、\( z \)を統制したうえでは\( x \)と\( y \)の関連が弱いことを意味します。たとえば、単純な相関係数では高い値を示していたとしても、実はその相関のほとんどが第三の変数によって説明される場合、偏相関係数を計算すると値が小さくなることがあります。したがって、見かけ上の強い相関に惑わされず、重要な交絡要因を考慮できるかどうかが、適切な結論に至るうえで重要といえます。
単回帰直線 (Simple Linear Regression)
1 つの説明変数(独立変数)を用いて、1 つの被説明変数(従属変数)を直線で近似・説明するモデルを指します。具体的には、被説明変数\( y \)を、説明変数\( x \)の線形関数\( y = \alpha + \beta x \)として捉え、最小二乗法などの手法によって係数を推定します。データの散布図上で「どのような傾きと切片の直線が最も当てはまるか」を探る基本的な分析手法です。
説明変数 (Explanatory Variable) / 独立変数 (Independent Variable)
回帰分析において、被説明変数を「説明」する要因として扱われる変数を指します。縦軸に被説明変数\( y \)、横軸に説明変数\( x \)を置いて散布図を描き、\( x \)が増減したときに\( y \)がどのように変化するかを探求します。統計的には、原因または影響を与える側の変数として考えられる場合が多いですが、あくまで分析の立場としての捉え方であり、必ずしも真の因果関係を表すとは限らない点に注意が必要です。
被説明変数 (Explained Variable) / 従属変数 (Dependent Variable)
回帰分析の文脈において、説明変数によって説明・予測される対象となる変数を指します。単回帰直線であれば、\( y = \alpha + \beta x \)の形における\( y \)が被説明変数に相当します。被説明変数が説明変数によってどの程度説明できるかを評価するために、決定係数や残差平方和などの指標が活用されます。
回帰係数 (Regression Coefficient)・定数項 (Intercept)
単回帰モデル\( y = \alpha + \beta x \)において、\( \beta \)を回帰係数、\( \alpha \)を定数項(切片)と呼びます。回帰係数\( \beta \)は「\( x \)が 1 単位増加したとき、\( y \)が何単位増加(または減少)するか」を表し、定数項\( \alpha \)は「\(x = 0 \)のときの\( y \)の推定値」を意味します。
回帰係数の推定量 (Regression Coefficient Estimator)
サンプルデータから最小二乗法などを用いて求められる回帰係数\( \betaβ \)の推定量を指します。具体的な値(推定値)は、説明変数と被説明変数の共分散や標準偏差などを用いて計算され、単回帰モデルの場合は$$ \hat{\beta} = r_{xy} \times \frac{s_y}{s_x} $$のように相関係数\( r_{xy} \)と標準偏差\( s_x, s_y \)を用いて簡潔に表されることがあります。ここでハット記号\( 「\hat{\beta}」 \)は推定量であることを示しています。
最小二乗法 (Least Squares Method)
回帰モデルをフィットさせる際、残差の二乗和(平方和、RSS)を最小にするようにパラメータ(回帰係数や定数項)を推定する手法を指します。単回帰モデルでは、解析的に求めることができ、結果として「観測データの重心\( (\bar{x}, \bar{y}) \)を必ず通る直線」が得られます。多くの統計分析や機械学習手法の基礎となる重要な推定方法です。
残差 (Residual)
観測値\( y_i \)と回帰モデルによる予測値\( \hat{y}_i \)の差\( y_i – \hat{y}_i \)を指します。回帰分析においては、残差が小さいほどモデルの当てはまりが良いと考えます。また、残差の分布を調べることで、線形性の仮定や外れ値の有無など、モデルの妥当性を評価する手がかりを得られます。
残差平方和 (Residual Sum of Squares, RSS)
全ての観測値における残差を二乗して合計したものを指します。単回帰直線の場合は以下の式で計算されます。$$ \text{RSS} = \sum_{i=1}^{n} (y_i – \hat{y}_i)^2 \) $$残差平方和が小さいほど、モデルがデータをよく説明していると考えられます。最小二乗法では、この残差平方和が最小となるように回帰係数と定数項を推定します。回帰平方和を\( \text{SSR} \)(Sum of Squares due to Regression)と表記する場合に、これと区別するために残差平方和を\( \text{SSE} \)(Sum of Squared Errors)と表記することもあります。
回帰平方和 (Sum of Squares due to Regression, SSR)
回帰モデルによって説明できる変動の大きさを示す指標です。被説明変数の平均値\( \bar{y} \)と回帰モデルの予測値\( \hat{y}_i \)のずれを二乗して合計したもので、以下の式で計算されます。$$ \( \text{回帰平方和} = \sum_{i=1}^{n} (\hat{y}_i – \bar{y})^2 $$回帰平方和が大きいほど、モデルが被説明変数のばらつきの多くを説明していることを意味します。
全体平方和 (Total Sum of Squares, TSS)
被説明変数\( y_i \)の値が、その平均値\( \bar{y} \)からどれほどばらついているかを測る指標です。具体的には、以下の式で計算されます。$$ \text{TSS} = \sum_{i=1}^{n} (y_i – \bar{y})^2 $$データ全体の変動量を表す指標であり、最小二乗法による解析では、回帰平方和と残差平方和の合計が全体平方和に等しくなる関係が重視されます。
平方和の分解
最小二乗法を用いた回帰分析において、全体平方和(TSS)が回帰平方和(SSR)と残差平方和(RSS)に分解されることを指します。式としては以下のように表現されます。$$ \text{TSS} = \text{SSR} + \text{RSS} $$これは「データ全体のばらつき = 回帰モデルで説明できるばらつき + モデルでは説明できずに残ったばらつき」であることを意味します。統計学では、この分解をもとに決定係数などの指標を算出します。
決定係数 (Coefficient of Determination, R-squared)
回帰分析において、モデルがデータの変動をどれだけ説明できているかを示す指標です。単回帰分析では以下のように定義されます。$$ R^2 = \frac{\text{RegSS}}{\text{TSS}} = 1 – \frac{\text{RSS}}{\text{TSS}} $$値の範囲は\( 0 \)から\( 1 \)の間であり、\( 1 \)に近いほどモデルの説明力が高いと解釈します。寄与率や分散説明率とも呼ばれるもので、線形モデルにおける「ばらつきの説明割合」をシンプルに表現するものになります。
外挿 (Extrapolation) / 内挿 (Interpolation)
回帰モデルなどで得られた関係式を用いて、未観測の\( x \)の値に対する\( y \)を予測する際の概念を指します。内挿とは、既に観測された範囲内での予測(例:\( x \)が 10 から 20 の間にデータがあるとき、10から20までの値を用いた予測)をいい、比較的妥当性が高いとみなされる場合が多いです。一方、外挿とは、観測された範囲を超えた領域での予測(例:\( x \)が 10 から 20 のデータしかないにもかかわらず、\( x = 30 \)のときの\( y \)を予測)を指し、データの範囲外において回帰式を安易に適用すると誤差が大きくなるリスクが高いとされています。
時系列データ (Time Series Data)
一定の時間間隔(年、月、日、分など)で観測された数値(あるいはカテゴリ情報)の連続的な集合を指します。経済指標、気温、人口動態、株価などが代表例であり、横軸に「時間」を取ることでデータの推移や変動パターンを捉えることが可能となります。
差分 (Difference)
ある時点\( t \)の値を\( y_t \)とし、次の時点\( t+1 \)の値を\( y_{t+1} \)とした場合、\( \Delta y_t = y_{t+1} – y_t \)で表される値の変化分を「差分」と呼びます。時系列データにおいて、どの程度増加または減少したかをシンプルに示す指標となります。
変化率 (Rate of Change)
同様に、\( \frac{y_{t+1} – y_t}{y_t} \)という形で、ある時点から次の時点までに値がどれほどの割合で変動したかを示す指標です。例えば 変化率が0.05(5%)であれば、前時点に比べて 5% 増加したことを意味します。
幾何平均 (Geometric Mean)
複数の割合(あるいは比率)を積み上げて平均化するときに用いられる平均の一種です。年ごとの成長率が\( r_1, r_2, \dots, r_n \)であった場合、一般に以下の式により成長率の幾何平均、すなわち、平均成長率を把握できます。$$ \sqrt[n]{(1 + r_1)\,(1 + r_2)\,\cdots\,(1 + r_n)} \hspace{4pt} – 1 $$算術平均ではなく幾何平均を用いることで、累積効果を踏まえた実質的な「変化率の平均」を得られる利点があります。
指数化 (Indexing)
ある基準時点の値を 100(または 1)と定め、他の時点の値が基準時点と比較して何倍・何%であるかを示す手法を指します。たとえば、ある商品の価格が基準時点では 200 円、比較時点では 220 円であれば、「指数 110(=220/200 × 100)」と表すことが可能です。指数化することで、複数のデータを同じ目盛り上で比較しやすくなります。
ラスパイレス式価格指数 (Laspeyres Price Index)
複数の品目がある場合に、その価格水準が基準時点と比較してどの程度変化したかを測る指数の一種です。基準時点の数量(ウェイト)を固定し、その数量を用いて比較時点の価格を加重平均する方法で算出します。式で示すと、品目\( i=1,\dots,n \)について$$ \text{Laspeyres} = \frac{\sum_{i=1}^{n} p_{t,i} \, q_{0,i}}{\sum_{i=1}^{n} p_{0,i} \, q_{0,i}} \times 100 $$のように表されます(基準時点を\( 0 \)、比較時点を\( t \)とした場合)。基準時点の数量を変えないため(比較時点の数量を計算に用いないため)、ウェイトを頻繁に更新しなくてよい利点がある反面、消費構造の変化を捉えきれない場合があると指摘されることもあります。
パーシェ式価格指数 (Paasche Price Index)
ラスパイレス式とは逆に、比較時点の数量をウェイトとして、価格の変化を加重平均する方法です(厳密には「現在時点の支出構成比を重みとした価格比の調和平均」により計算されます)。品目\( i=1,\dots,n \)について$$ \text{Paasche} = \frac{\sum_{i=1}^{n} p_{t,i} \, q_{t,i}}{\sum_{i=1}^{n} p_{0,i} \, q_{t,i}} \times 100 $$で計算されます。消費動向や数量が変化した後の実態をより反映しやすい反面、比較時点の数量データが必要になるため、実務面での算出がやや複雑になる傾向があります。
時系列変動 (Time Series Variation)
時系列データに見られる特徴的な変動要素を総称して指す語です。一般には、以下のような 4 つの要素に分解されると考えられます。
- 傾向変動(Trend)
- 季節変動(Seasonal Variation)
- 循環変動(Cyclical Variation)
- 不規則変動(Irregular Variation)
これらを組み合わせて時系列データのパターンを把握することで、将来的な予測や異常値検知などに活用できます。
傾向変動 (Trend)
長期的な上昇傾向や下降傾向など、一定の方向性を持って変化する成分を指します。数年〜数十年といった比較的長期スパンで観察され、景気や人口動態などの緩やかな動きが典型例です。
季節変動 (Seasonal Variation)
1 年を周期とする周期的な変動を指します。たとえば、季節性のある商品の売上(夏の冷たい飲料、冬の暖房機器など)や観光客数などが挙げられます。時系列分析では、季節調整を行うことで、この季節変動要素を取り除いたトレンドを把握することがしばしば行われます。
循環変動 (Cyclical Variation)
季節変動ほど明確に「1 年周期」と定義できないものの、3〜15 年といった中長期の周期を持つ景気循環などを指すことが一般的です。ビジネスサイクルなど、経済全体の盛衰に伴う波を分析する際に注目される要素であり、季節変動や不規則変動と区別して考えられることが多いです。
不規則変動 (Irregular Variation)
傾向変動や季節変動・循環変動だけでは説明できない残余の変動成分を指します。天災や突発的な事故、政治的イベントなど予測が困難な外部要因によって生じるランダムな変動が該当します。分析対象によっては、この不規則変動をできるだけ抽出して他の要素と切り分けることで、より正確な予測や要因分析が可能になると考えられます。
自己相関 (Autocorrelation)
時系列データにおいて、同じ系列の異なる時点同士の間に生じる相関関係を指します。たとえば、過去の売上高が現在の売上高に影響を与えている場合、自己相関係数が大きな値を示す可能性があります。自己相関が強いときは、一般的な独立性を仮定する手法が適用しにくくなるため、適切な時系列モデル(AR, MA, ARIMA など)を用いることが検討されます。
偏自己相関 (Partial Autocorrelation)
自己相関を考える際、ある時点の値が直接的に影響を及ぼすのか、それとも中間の時点を経由した間接的な影響なのかを区別するための指標です。偏自己相関係数は、「特定のラグ(時差)以外の自己相関成分を制御したうえでの自己相関」を表します。時系列モデルの構築では、自己相関関数 (ACF) と偏自己相関関数 (PACF) を組み合わせて、どの程度のラグまでモデル化すべきかを検討することが多いです。
コレログラム (Correlogram)
自己相関あるいは偏自己相関をラグ(時差)の関数としてグラフ化したものを指します。横軸にラグ(1 期遅れ、2 期遅れ、…)をとり、縦軸に対応する自己相関係数や偏自己相関係数をプロットすることで、どのラグに強い相関があるかを一目で把握できます。時系列モデルの選定に際して、コレログラムの形状を参考にすることがよく行われます。
クロス集計表 (Contingency Table)
質的変数が 2 つ(あるいはそれ以上)ある場合、それぞれのカテゴリの組み合わせごとにデータ数(度数)をまとめた表を指します。たとえば、「性別(男・女)」と「職業(会社員・自営業・学生など)」の 2 変数の組み合わせについて、各カテゴリペアに対応する件数を表に整理したものになります。クロス集計表を参照することで、質的変数同士の関係性を概観しやすくなります。
行パーセント表 (Row Percentage Table)
クロス集計表において、各行を 100% とみなし、その行に属する度数の割合を算出した表を指します。たとえば、行見出しが「運動習慣あり」「運動習慣なし」で、列見出しが「病気あり」「病気なし」であれば、「運動習慣あり」の行を 100% として、そのうち何%が「病気あり」かを示します。行変数が列変数に与える影響を直感的に把握しやすい利点があります。
列パーセント表 (Column Percentage Table)
クロス集計表の各列を 100% とみなし、その列に属する度数の割合を算出した表を指します。たとえば、列見出しが「病気あり」「病気なし」で、行見出しが「運動習慣あり」「運動習慣なし」であれば、「病気あり」列を 100% として、そのうち何%が「運動習慣あり」かを示します。列変数が行変数に与える影響を直感的に確認するときに有用です。
オッズ (Odds)
あるイベント(事象)が起こる確率を\( p \)、起こらない確率を\( 1-p \)としたときに、その比\( \frac{p}{1 – p} \)で表される指標を指します。たとえば「病気である」確率が 0.2 であれば、そのオッズは\( \frac{0.2}{0.8} = 0.25 \)となり、「病気でない」事象に対して 1 対 4 の割合であると解釈されます。
オッズ比 (Odds Ratio, OR)
2 つのグループ(例:暴露群・非暴露群)でのオッズの比を指します。たとえば、暴露群での「イベントが起こる」オッズを\( \mathrm{Odds}_1 \)、非暴露群でのオッズを\( \mathrm{Odds}_0 \)としたとき、$$ \mathrm{OR} = \frac{\mathrm{Odds}_1}{\mathrm{Odds}_0} $$で定義されます。もし\( OR \)が\( 1 \)より大きければ、暴露群のほうがその事象に対して高いオッズ(より起きやすい可能性)をもつと解釈されます。
相対リスク (Relative Risk, RR)
ある 2 グループ(例:暴露群・非暴露群)における「事象が起こる確率」の比を指します。暴露群での発生確率を\( p_1 \)、非暴露群での発生確率を\( p_0 \)とすると、以下の式で定義されます。$$ \mathrm{RR} = \frac{p_1}{p_0} $$相対リスクが 1 より大きければ、暴露群の発生確率が非暴露群より高いと読み取ります。特に医療・疫学の分野で「治療を受けた群」と「受けない群」の間でのリスク比較などに用いられます。
リスク差 (Risk Difference, RD)
2 グループ(例:暴露群・非暴露群)における確率の差を指します。暴露群の発生確率を\( p_1 \)、非暴露群の発生確率を\( p_0 \)とすると、以下の式で定義されます。$$ \mathrm{RD} = p_1 – p_0 $$もし 0 より大きければ、暴露群の発生確率が非暴露群より高いことを示唆します。相対リスクやオッズ比は「比」として示される一方、リスク差は「どれだけ差があるか」を直接示します。
Φ係数 (Phi Coefficient)
クロス集計表が 2×2 の場合に、質的変数同士の関連の強さを相関係数の形式で測る指標を指します。2×2 表のセルを\( a, b, c, d \)としたとき、以下の式で計算されます。$$ \Phi = \frac{ad – bc}{\sqrt{(a + b)(c + d)(a + c)(b + d)}} $$値は\( -1 \)から\( +1 \)の範囲に入り、絶対値が大きいほど 2 変数の関係が強いと解釈されます。2×2 のクロス表における「ピアソンの相関係数」とも言われることがあります。