本記事「確率・統計入門~基礎から応用まで徹底解説~」では、確率統計の基礎から応用まで、例を豊富に取り入れながら、丁寧に解説しています。本記事を通じて、確率統計の全体像をわかりやすく紹介します。

今回は確率・統計について学習しよう!
確率の基礎
この章では、確率論の基本概念について、初心者にもわかりやすく解説します。確率とは、「何かが起こる可能性」を定量的に捉えるための数学的な手法です。確率の定義や用語の意味について学び、具体的な例を挙げて説明します。
確率の定義と基本概念
確率とは?
確率とは、ある「事象」が起こる可能性の度合いを数値で表現したもので、\(0\) から \(1\) までの実数で表されます。
\(P(A) = 0\) であれば、事象 \(A\) は「絶対に起こらない」
\(P(A) = 1\) であれば、事象 \(A\) は「必ず起こる」
例えば、公平なコインを投げたときに「表」が出る確率は、\(P(\text{表}) = 0.5\) 、サイコロの目が \(6\) になる確率は \(\frac{1}{6}\) となります。
古典的確率の定義
古典的な確率の定義は、すべての結果が同じ確率で起こると仮定できる場合に、ある事象 \(A\) の確率は、次のように定義されます。
$$P(A) = \frac{\text{事象} A \text{が起こる場合の数}}{\text{全ての場合の数}}$$
この定義は各結果が同様に確からしく起こるときに、「起こりやすさ」を数値化するものなります。
例:サイコロを1回振って偶数(2,4,6)が出る確率 \(P(\text{偶数}\)) は $$P(\text{偶数}) = \frac{3}{6} = 0.5$$と計算できます。
公理的確率の定義
アンドレイ・コルモゴロフによって提唱された、より一般的な「公理的確率の定義」が近代確率論の基礎となっています。これは確率空間 \((\Omega, \mathcal{F}, P)\) を導入し、以下のような公理を課すことで、広い範囲における確率を扱うことを可能にしたものです。
- (確率は非負)\(P(A) \ge 0\)
- (全事象の確率は1)\(P(\Omega) = 1\)
- (可算加法性)互いに排反な集合 \(A_i\) に対し、$$P\Bigl(\bigcup_{i=1}^{\infty} A_i\Bigr) = \sum_{i=1}^{\infty} P(A_i)$$
場合の数
この章では、確率や統計の問題を解く上で不可欠な「場合の数」について解説します。
順列と組み合わせ
順列
順列とは、ある集合から選んだ要素の並べ方の総数を指します。順序が重要な場合に使われ、たとえば並び替え問題などで利用されます。
全体の要素数 \(n\) から、順序を考慮して \(r\) 個を選んで並べる方法の数は、
$${}_n\mathrm{P}_r = \frac{n!}{(n-r)!}$$
で表されます。
組み合わせ
組み合わせは、順序を考慮せずに、ある集合から選んだ要素の集まりの総数を指します。順番が関係ない場合、例えばグループ分けやチーム選びで用いられます。
全体の要素数 \(n\) から、順序を無視して \(r\) 個を選ぶ場合の数は、
$${}_n\mathrm{C}_r = \frac{n!}{r!(n-r)!}$$
と表されます。
条件付き確率と独立性
この章では、確率論の応用で頻出する「条件付き確率」と「独立性」について詳しく解説します。
条件付き確率
条件付き確率は、ある事象 \(B\) が起こったという情報を前提に、別の事象 \(A\) が起こる確率を求めるものです。記号で表すと、\(P(A \mid B)\) となり、「Bが起こったという条件の下でのAの確率」を意味します。
条件付き確率は、以下の公式で定義されます。
$$P(A \mid B) = \frac{P(A \cap B)}{P(B)}$$
ベイズの定理
条件付き確率の考え方をさらに発展させたのがベイズの定理です。ベイズの定理は、次のように表されます。
$$P(A \mid B) = \frac{P(B \mid A) \, P(A)}{P(B)}$$
独立性
二つの事象 \(A\) と \(B\) が独立であるとは、ある事象が起こるかどうかがもう一方に全く影響を与えない場合を指します。
二つの事象 \(A\) と \(B\) に対して次が成り立つ時に独立と呼びます。
$$P(A \cap B) = P(A)P(B)$$
例:複数回サイコロを振るときの各回の出目の数は独立になります。
期待値と分散
確率論において最も重要な量のひとつが期待値(平均) と 分散(ばらつき) です。ここでは離散型と連続型の確率変数に分けて定義を示し、さらに期待値と分散の性質についても解説します。
期待値とは?
期待値 \(E[X]\) とは、確率変数が取りうる値の「平均」を表す量です。「平均」といっても日常的な算術平均とは少し違う場面もありますが、確率論において「確率変数の中心をどこに持つのか」という目安となる値です。
離散型確率変数の場合
確率変数 \(X\) が離散的な値 \(\{x_1, x_2, \dots\}\) をそれぞれの確率 \(P(X = x_i)\) でとるとき、期待値は
$$E[X] = \sum_{i} x_i \cdot P(X = x_i)$$
で定義されます。
例:サイコロを振って出た目の値を確率変数 \(X\) とすると、\( X \in \{1,2,3,4,5,6\}\) で、\( P(X = k) = \frac{1}{6}\) \((k=1,\dots,6)\) となるので $$E[X] = \frac{1}{6}(1 + 2 + 3 + 4 + 5 + 6) = \frac{21}{6} = 3.5$$となり、サイコロの出る目の期待値は \(3.5\) になります。
連続型確率変数の場合
\(X\) が連続的に変化する確率変数で、確率密度関数を \(f(x)\) とするとき、期待値は
$$E[X] = \int_{-\infty}^{\infty} x\cdot f(x) dx$$
で定義されます。
期待値の線形性
期待値は線形性という重要な性質を持っており、定数倍や和に関して次のように表すことができます。
- \(E[cX] = c E[X]\)(定数倍が外に出せる)
- \(E[X + Y] = E[X] + E[Y]\)(和の期待値は期待値の和に等しい)
分散とは?
分散 \(Var(X)\) は、確率変数の値が期待値からどれだけ散らばっているかを表す指標です。
$$Var(X) = E[(X – E[X])^2]$$
また、この定義から次の式が導けます。
$$Var(X) = E[X^2] – \left(E[X]\right)^2$$
分散の性質
定数倍に対する分散: \(Var(cX) = c^2 Var(X)\)
和に対する分散: もし確率変数 \(X\) と \(Y\) が独立なら、\(Var(X + Y) = Var(X) + Var(Y)\)
標準偏差: 分散の平方根を標準偏差(\(\sigma = \sqrt{Var(X)}\))と呼びます。
確率分布
この章では、具体的な確率分布をいくつか紹介します。大きく分けて「離散型分布」と「連続型分布」に分けられます。どの分布がどんな場面で使われ、どんな性質を持つのかを理解することが大切です。
離散型分布
確率変数の取り得る値の集合が離散的である場合、離散型分布を用います。
二項分布
もっとも代表的な離散分布の1つが「二項分布」です。
「試行を \(n\) 回行い、それぞれの試行で『成功』となる確率が \(p\) であるとき、成功回数を確率変数 \(X\) とする」と、この \(X\) は二項分布 \(B(n, p)\) に従います。
確率質量関数は $$P(X = k) = {}_nC_k \, p^k (1-p)^{n-k}, \quad k=0,1,\dots,n$$
期待値と分散はそれぞれ $$E[X] = np,\quad Var(X) = np(1-p)$$
となります。
使用例: コイン投げを10回したときに「表」が出る回数
ポアソン分布
ポアソン分布 は「単位時間あたりに一定の確率で独立に事象が発生する」という状況をモデル化するときに便利です。確率質量関数は $$P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k=0,1,2,\dots$$
で与えられます。ここで \(\lambda\) は「平均発生回数」を表すパラメータで、期待値と分散はどちらも \(\lambda\) となります。
例: あるコールセンターへの電話がかかってくる回数(1時間あたり\(\lambda\) 件)、ある場所を通過する自動車の台数。
連続型分布
確率変数が連続的に変化する量を扱うときには、確率密度関数 (PDF) を用いた連続型分布を考えます。
正規分布
最も有名な連続型分布は正規分布(ガウス分布)です。平均 \(\mu\)、分散\(\sigma^2\) の正規分布を \(N(\mu, \sigma^2)\) と書きます。確率密度関数は $$f(x) = \frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$$
で与えられます。
正規分布は「中心極限定理」により、独立な確率変数の平均は大きなサンプル数になるほど正規分布に近づくという性質があるため、統計学で頻繁に利用されます。
指数分布
パラメータ\(\lambda\) によって定義される指数分布は $$f(x) = \lambda e^{-\lambda x}, \quad x \ge 0$$
として与えられます\((x<0 では 0)\)。期待値は \(\frac{1}{\lambda}\)、分散は \(\frac{1}{\lambda^2}\) です。
「ある事象が起きるまでの待ち時間」を表す分布としてしばしば用いられます。ポアソン分布と関連が深く、「1時間あた\(\lambda\) 件起こる」と仮定したときに、「次の1件が起こるまでの時間」は指数分布に従います。
大数の法則と中心極限定理
確率論の根幹をなす定理として、大数の法則 と 中心極限定理 は必ず押さえておきましょう。
大数の法則
大数の法則は「同じ確率分布に従う独立な試行を多数回繰り返すと、その平均値は理論的な期待値に近づく」という定理です。例えば、サイコロをたくさん振るほど、出目の平均値は \(3.5\) に近づいていくということを数学的に保証してくれます。
実際には、強大数の法則や弱大数の法則などの細かいバージョンがありますが、要点は「試行回数を増やせば経験平均が理論的期待値に収束していく」ということです。
中心極限定理
中心極限定理は「独立な確率変数の平均は、元の分布が何であっても、サンプルサイズが十分大きければ正規分布に近似できる」という強力な定理です。
例えば、二項分布 \(B(n,p)\) は、\(n\) が大きいときに平均 \(np\)、分散 \(np(1-p)\) の正規分布で近似できます。同様にポアソン分布も \(\lambda\) が大きい場合は正規分布で近似可能です。
この定理があるからこそ、「母集団が正規分布に従うとは限らないけど、サンプル数が大きければ平均は正規分布を仮定できる」という利用が広く行われ、統計的手法が大変扱いやすくなります。
相関と回帰分析
相関係数
2つの変数 \(X\) と \(Y\) の間の線形的な関係の強さを数値化したものが相関係数 です。
相関係数 \(r\) は、共分散 \(s_{XY}s\) を標本標準偏差 \(s_X, s_Y\) で割ったものです。
$$ r = \frac{s_{XY}}{s_X s_Y} = \frac{\sum_{i=1}^n (x_i – \bar{x})(y_i – \bar{y})}{\sqrt{\sum_{i=1}^n (x_i – \bar{x})^2} \sqrt{\sum_{i=1}^n (y_i – \bar{y})^2}}$$
\(r\) が \(1\) に近いほど強い正の相関、\(-1\) に近いほど強い負の相関、\(0\) 付近なら相関が弱いか、線形関係がない。
単回帰分析
「説明変数」が1つで、「目的変数」との関係を直線(1次式)でモデル化しようとする手法です。
回帰式を $$y = \beta_0 + \beta_1 x + \varepsilon $$
とし、\(\beta_0\)(切片)と \(\beta_1\)(傾き)をデータから推定します。通常は最小二乗法を用いて、残差の二乗和を最小にするように \(\beta_0, \beta_1\)を求めます。
重回帰分析
「説明変数」が2つ以上ある場合の回帰分析を重回帰分析(多重回帰分析)といいます。回帰式は $$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_k x_k + \varepsilon$$
のように拡張されます。複数の要因が影響を与える場合に重回帰分析が用いられます。