AlphaInsiders｜統計

大数法則と中心極限定理

AlphaInsiders 編集部 — Mon, 25 May 2026 09:37:04 GMT

stats-07 では「情報を受け取って確率を更新する」操作を扱いました。本記事が扱うのは「N 個の観測値を平均した結果がどう振る舞うか」です。コインを 10 回投げて表が 6 回出ても、10,000 回投げれば表の割合は 0.5 に張り付きます。この「大量に集めると秩序が生まれる」現象を数学的に保証するのが大数の法則 (LLN) と中心極限定理 (CLT) で、保険業界・モンテカルロ法・ポートフォリオ理論はすべてこの保証の上に立っています。

はじめに

本記事は Part 2「確率と期待値」の最終回です。stats-05 で確率の基礎、stats-06 で期待値、stats-07 でベイズ更新を扱い、本記事では「標本平均」という確率変数の振る舞いに集中します。

Part 3 では標準誤差（stats-09）、信頼区間（stats-10）、仮説検定（stats-11）へ進みます。

コインを 100 回投げると表の割合はどう動くか

コインを 1 枚ずつ投げ続け、「これまでの表の回数 ÷ 投げた回数」を累積平均として記録していきます。下の表は 1 系列の実例です（seed=42 で固定した決定的な系列）。

投げた回数 n	累積表数	累積平均
1	0	0.0000
10	6	0.6000
50	25	0.5000
100	50	0.5000
200	103	0.5150
1000	480	0.4800
5000	2472	0.4944
10000	4990	0.4990

n=1 の時点では表が 1 回も出ず累積平均 0.0000 です。n=10 では 0.6000 と 0.5 から 0.1 ずれています。n=100 になると累積表数がちょうど 50 回で 0.5000 になりました。ただしこれは偶然の一致にすぎず、収束の保証ではありません。n=1000 では 0.4800、n=10000 では 0.4990、0.5 との差は 0.001 まで縮みました。

n を 10 倍にして 1000 から 10000 にしたとき、0.5 からのズレは 0.02 から 0.001 に縮みました。この系列では 20 倍の改善になっていますが、これは 1 系列の偶然です。多数の系列で平均すると改善倍率は √(10) ≈ 3.2 倍程度に収束します。その理由は節 6 で導きます。

大数の法則: 標本平均は期待値に確率収束する

コイン投げで表の割合が 0.5 に収束していくのは、「N 個のコイン表裏の平均が期待値（0.5）に近づいていく」現象です。大数の弱法則 (Weak Law of Large Numbers, WLLN) はこれを一般的に保証します。

X_1, X_2, …, X_n が i.i.d.（独立同分布）で期待値 μ、分散 σ^2（ともに有限）のとき、標本平均

X_n = (1)/(n) Σ_i=1^n X_i

は n ∞ で母平均 μ に「確率収束」します。記号で書くと

X_n p μ

です。p は確率収束（convergence in probability）の記号で、「N を大きくすると、X_n が μ から以上ずれる確率が 0 に近づく」ことを意味します。正式な表記は次のようになります。

_n ∞ P(|X_n - μ| ≥ ) = 0 ( > 0 は任意)

は「許容するズレ幅」です。どんなに小さいを設定しても、n を十分大きくすればそのズレを超える確率は 0 に近づく、という強い主張です。この式の証明は分散加法性と Chebyshev の不等式を使えばほぼ 1 行で導かれます。

Chebyshev の不等式を使った WLLN の証明概略

V[X_n] = σ^2/n を使い（節 6 で改めて導きます）、Chebyshev の不等式

P(|X_n - μ| ≥ ) ≤ (V[X_n])/(^2) = (σ^2)/(n^2)

を適用すると、右辺は n ∞ で 0 に収束します。をどう小さく固定しても同じです。

下の図は横軸を n（対数スケール）、縦軸を累積平均 X_n にとったコイン系列です。

コイン累積平均の収束（n=1 〜 10000）

青い折れ線が累積平均 X_n、赤い破線が母平均 μ = 0.5 です。n が小さい左端では青線が大きく揺れていますが、右に行くほど赤い破線に張り付いていく様子が見えます。揺らぎの帯が √(n) オーダーで縮んでいます。

1 件あたりの損害額は平均 μ、標準偏差 σ = 300,000 円（30 万円）のランダムな量です。契約件数 N = 100,000 件のとき、集団全体の 1 件あたり平均損害額のばらつきは

SE = 300,000√(100,000) = (300,000)/(316.2) ≈ 948 円

です。個別ではばらつき 300,000 円だったものが、10 万件集まると集団平均のばらつきは 948 円まで縮みます。保険会社が集団として成立するのはこの数字が根拠です。詳細な保険数理のシミュレーションは stats-practice-insurance-lln で扱います。

ガンブラーの錯誤

大数の弱法則（WLLN）を「LLN がある種の補正をしてくれる」と読むのは間違いです。

コインで 5 回連続で裏が出たとき、「次は表が来やすい」という直感が生まれます。しかし X_6 の確率は変わらず 0.5 です。LLN が保証するのは「平均の収束」であって「個別試行の補正」ではありません。X_5 が連続裏でも X_6 は独立した試行で、過去の結果を記憶しません。Tversky & Kahneman (1971) はこの誤信念を「ガンブラーの錯誤」として心理学的に分析し、人間が「小数の法則」を信じやすいことを示しました。

LLN には弱法則（WLLN、確率収束）と強法則（SLLN、概収束）の 2 種類があり、SLLN の方がより強い保証（全確率 1 での収束）を与えます。本記事では WLLN を扱い、SLLN の概収束の厳密議論は stats-supplement-lln-strong-vs-weak に委ねます。

中心極限定理: 標本平均の分布は正規分布に分布収束する

LLN は「X_n が μ に収束する」ことを保証しました。CLT はまったく別の問いに答えます。「X_n がどんな形の分布を持つか」です。

X_n そのものは n ∞ で 1 点 μ に集約されます（LLN）。その集約が起きる前の「揺らぎの形」を見るには拡大が必要です。どんな拡大率が適切か。節 6 で詳しく導きますが、X_n の標準偏差は σ/√(n) です。つまり V[X_n] = σ^2/n で、これを 0 でなく σ^2 に保つには √(n) 倍で十分です。√(n)(X_n - μ) という量は分散が σ^2 で n によらず一定です。

V[√(n)(X_n - μ)] = n · V[X_n] = n · (σ^2)/(n) = σ^2

「正しい拡大率」が √(n) である理由は、分散計算から逆算で決まります。

Lindeberg-Lévy の中心極限定理は次のように述べます。X_1, X_2, …, X_n が i.i.d.、期待値 μ、分散 σ^2 < ∞ のとき、

√(n)(X_n - μ) d N(0, σ^2)

両辺を σ で割った標準化版は

(X_n - μ)/(σ/√(n)) d N(0, 1)

です。d は分布収束（convergence in distribution）の記号で、「累積分布関数の値が各点で標準正規分布のそれに収束する」ことを意味します。分母 σ/√(n) は標本平均の標準偏差で、節 6 で「標準誤差 (SE)」として正式に扱います。

CLT の最も意外な主張は 「元の分布によらず」 という部分です。X_i が一様分布でも指数分布でも Bernoulli 分布でも、i.i.d. かつ分散が有限であれば、X_n の分布は正規分布に収束します。

下の図で確認します。元の分布を指数分布（rate=1）に固定し、n=1, 5, 30, 100 の 4 段階で「10,000 系列のシミュレーションによる標本平均のヒストグラム」を並べました。

指数分布からの標本平均（n=1, 5, 30, 100）

横軸は標本平均の値、縦軸はその標本平均が観測される頻度（密度）です。n=1 の青い線は指数分布そのままで右裾が長く歪んでいます。n=5 になると右裾が縮み始め、n=30 では両裾がほぼ対称な釣り鐘型に近づきます。n=100 の赤い線は鋭い正規分布の形です。横軸の広がり（標準偏差）も n=1 の 1.0 から n=100 の 0.1 まで 1/√(n) で縮んでいます。

「元の分布によらない」普遍性の背景として、多数の独立な確率変数の和の特性関数を解析すると極限で正規分布の特性関数に収束するという事実があります。詳細は補足記事（stats-supplement-clt-proof-sketch）で扱います。

n の経験的な目安として、東大出版会『統計学入門』は「n ≥ 30」を挙げています。ただしこれは元の分布が対称に近い場合の目安です。指数分布（rate=1）のように右に強く歪んだ分布では n=30 でおおむね正規近似が成立しますが、より強い歪みの場合は n=100 が必要になることもあります。

中心極限定理の核心

CLT の主張は次の 3 条件が揃うことで成立します。

元の分布によらない: X_i が一様でも指数でも Bernoulli でも成立します。ただし i.i.d. と有限分散が条件
分布の形が収束する: 値（μ への収束）ではなく、X_n の分布全体の形が正規分布に近づく
√(n) スケールで見る: X_n そのものは μ に潰れるので、√(n) 倍に拡大してから形を観察する

この 3 条件が揃うことで、「身長も測定誤差も観測ノイズも正規分布に近い」という現実が説明できます。

LLN と CLT の違い: 中心への収束 vs 分布形の収束

LLN と CLT は同じ標本平均 X_n について全く別の軸を語ります。LLN は「値そのものが μ に収束する」（1 次元の収束）、CLT は「分布の形が正規分布に収束する」（分布全体の収束）です。両者は競合しているのではなく相補的で、どちらか一方だけでは信頼区間も検定も構築できません。

	大数の弱法則 (LLN)	中心極限定理 (CLT)
主張	X_n の値が μ に近づく	X_n の分布が正規分布の形になる
収束のタイプ	確率収束 p	分布収束 d
見ているもの	1 系列の X_n の値	多数系列を集めた X_n の分布
n が増えると	X_n が μ から離れる確率が 0 へ	ヒストグラムの形が釣り鐘型に近づく
必要な条件	i.i.d. + 有限期待値	i.i.d. + 有限分散
金融応用	保険の集団損害管理、長期投資	VaR 計算、信頼区間構築

LLN は X_n が μ に近いことを保証しますが、「どれだけ近いか」の確率的評価はできません。CLT が X_n ≈ N(μ, σ^2/n) という分布の形を与えることで初めて、k 標準誤差以内に収まる確率が語れるようになります。

コイン 100 回投げで n=100 のとき、LLN は「X_100 が 0.5 に近い」ことを保証します。しかし「X_100 が 0.5 から ±0.06 以上ずれる確率は何%か」は LLN からは答えが出ません。CLT により X_100 ≈ N(0.5, 0.0025)（標準偏差 0.05）が分かると、P(|X_100 - 0.5| ≥ 0.06) = P(|Z| ≥ 1.2) ≈ 23\% と計算できます。LLN だけでは「近い」とは言えても、「どのくらいの確率で近い」とは言えません。CLT があって初めてその確率が定まります。

保険の例に戻ると、LLN だけでは「10 万件集めれば集団損害の平均が安定する」までしか言えません。CLT があって初めて、SE ≈ 948 円が ± 1σ 範囲（68.3% の確率で集団平均損害額がこの帯に収まる）、± 2σ = ± 1,896 円範囲（95.4% の確率で収まる）という確率評価が経営判断に乗る形になります。「SE ≈ 948 円以内に 95.4%」ではありません。95.4% が対応するのは ±1,896 円の範囲です。

この相補性は Part 3 全体の構造を決めます。stats-09 で標準誤差 σ/√(n) を推定し、stats-10 で信頼区間 X_n ± zσ/√(n) を構築し、stats-11 で検定統計量の分布を特定します。LLN がなければ X_n が μ に近づく保証がなく、CLT がなければその近さを確率で語れません。2 つの定理が揃って初めて推測統計が成立します。

LLN は個別試行を「補正」するのではなく平均の収束を保証します。1 回 1 回の試行は独立のままで、過去の結果を記憶しません。コインを 5 回連続で裏が出た後でも、次の表の確率は 0.5 のままです。

LLN は X_n がどこに行くか、CLT はどんなばらつきで行くかを答えます。

ばらつきの縮み方: 1/√(n) オーダー

標本平均の標準偏差は σ/√(n) です。n を 100 倍にしても精度は 10 倍しか上がりません。

この式は分散加法性（stats-02 で扱った和の分散）から 2 行で導けます。X_1, …, X_n が i.i.d. で分散 σ^2 のとき、

V[Σ_i=1^n X_i] = nσ^2

X_n = (1/n) Σ X_i なので定数 1/n の二乗が前に出て、

V[X_n] = (1)/(n^2) · nσ^2 = (σ^2)/(n)

標準偏差は

SD(X_n) = (σ)/(√(n))

コイン投げ（σ^2 = 0.25、σ = 0.5）で確認すると、n=100 のとき SD(X_100) = 0.5/√(100) = 0.05 です。CLT により X_100 ≈ N(0.5, 0.0025) の近似が成立します。

モンテカルロ法では 1/√(N) オーダーが直接コストに跳ね返ります。ATM のヨーロピアン・コール（S=100, K=100, r=5\%, σ=20\%, T=1）のシミュレーションでは、ペイオフの SD が約 9.5 なので、N=1,000 で SE ≈ 0.30（価格の 2.9%）、N=100,000 で SE ≈ 0.030（0.29%）です。精度を 10 倍にするには N を 100 倍にする必要があります。詳細は stats-practice-monte-carlo で扱います。

この σ/√(n) は stats-09 で正式に「標準誤差 (SE)」と命名します。CLT の式（節 4）の分母にも σ/√(n) が入っていたことを思い出すと、「CLT と 1/√(n) オーダー」は同じ事実の別表現です。

CLT が成り立たない場面: 前提が崩れると何が壊れるか

ここは日次リターンの金融慣習表記を使う節で、節 6 までの累積平均・小数表記とは別の量を扱います。Lindeberg-Lévy CLT は「i.i.d. + 有限分散」の両方を要求します。どちらが崩れても破綻します。1987 年 10 月 19 日、S&P500 は 1 日で -20.5% 下落しました（ブラックマンデー）。クラッシュ前の日次リターン標準偏差は 0.809% で、この下落は 20.5 ÷ 0.809 ≈ 約 25σ イベントに相当します。正規分布仮定では事実上ゼロ確率です。

Cauchy 分布の反例。stats-06 節 9 で「Cauchy 分布の期待値は存在しない」と述べました。その理由を特性関数で確認します。標準 Cauchy 分布の特性関数は (t) = e^-|t| です。n 個の i.i.d. Cauchy 変数の和の特性関数は (e^-|t|)^n = e^-n|t| となり、X_n = (1/n)Σ X_i の特性関数は e^-n|t/n| = e^-|t| です。n を大きくしても特性関数が変わりません。つまり X_n は何個足しても Cauchy 分布のままで、平均も分散も未定義なので WLLN も CLT も成立しません。

CLT が前提を失う場面

実務で CLT が崩れる状況は次の通りです。

有限分散の崩壊（Cauchy・べき分布）: 分散が無限大または未定義。標本平均が何個足しても収束しない
fat tail の問題（株式リターン）: 分散は有限だが正規分布より裾が太い（t 分布的）。CLT は形式上成立しますが収束が極めて遅く、VaR を正規分布で計算すると極端な下落の確率を著しく過小評価します。ブラックマンデー S&P500 -20.5% はその典型例です
独立性の崩壊（金融危機）: 金融危機時には「全資産が同時に下落」する相関爆発が起きます。「分散投資すれば LLN で守られる」という前提が崩壊します。LTCM 1998 年のデフォルト、2008 年リーマン・ショック、2020 年コロナショック（S&P500 単日 -12.0%）はすべてこの構造です

安定分布や CLT が成り立たない分布の詳細は stats-supplement-stable-distributions で扱います。

ガウス分布が世界に偏在する理由

身長・測定誤差・観測ノイズが正規分布に近い形を示す根本理由は CLT です。それらが「多数の独立な要因の和」だからです。

身長を例にとると、「遺伝子座の効果 × 数百個 + 環境要因 × 数十個」の和として身長が決まります（遺伝的な面では数百の独立な遺伝子座が各々に少しずつ寄与する、という多遺伝子モデル）。測定誤差は「温度変動・機械の振動・読み取り誤差」などランダムな小さな擾乱の和です。それぞれの要因が独立で有限分散を持つとき、CLT が正規分布への収束を保証します。Francis Galton が 1874 年に英国王立研究所の講演で示した「Galton ボード」（quincunx）は多数の独立なバイナリ分岐の和が正規分布に収束する様子を物理的に示す装置で、CLT の視覚的デモとして現代でも使われています。

正規分布が「和の分布」であることを踏まえると、分布の種類は生成メカニズムで分類できます。

和が支配: 正規分布（独立な多数の要因の加算的合成）
積が支配: 対数正規分布（株価の複利成長、細菌の増殖）
1 要因が支配: べき分布（地震規模・所得・都市人口）

株式収益率の長期分布、地震規模の分布、所得分布は有限分散の仮定を満たさないか独立性が崩れているため、正規分布では近似できません。「和なら正規」が成り立つのは独立・有限分散の条件が満たされる場合に限られます。安定分布の詳細は stats-supplement-stable-distributions で扱います。

CLT 収束のデモ（静的版）

下の図は指数分布（rate=1）を元の分布に固定し、n=30 の場合に 10,000 系列をシミュレートした標本平均のヒストグラムと、理論的な正規分布近似を重ねたものです。節 4 の 4 枚スナップショットを補完する形で、元の分布の歪みによって CLT 収束の速さが違うことを確認します。

CLT 収束デモ（指数分布 rate=1、n=30）

青い実線が指数分布（rate=1）から n=30 で 10,000 系列をシミュレートした標本平均のヒストグラム、赤い破線が理論的な正規分布近似 N(1.0, 0.1826^2) です。n=30 の時点で両者はおおむね一致しており、CLT が機能していることが確認できます。元の分布が何であっても n を増やすとヒストグラムが正規分布に近づき、n を 4 倍にするとヒストグラムの横軸の広がり（標準偏差）が 1/2 になる（√(n) オーダー）という節 4 の観察と整合しています。

上の静的版は母分布も n も固定でした。下の図では母分布（一様・指数・右歪み・U字）と標本サイズ n を自分で変えられます。「10 回引く／100 回引く」で標本平均を積み上げると、ヒストグラムが赤い理論正規曲線 N(μ, σ^2/n) に重なっていきます。指数分布や U字のように歪んだ母分布から始めても、n を上げれば正規に近づくのが中心極限定理です。

金融現場での使われ方 / 次に学ぶこと

LLN と CLT が金融現場に登場する場面を示します。保険会社の集団損害管理（節 3 で確認）、ポートフォリオ理論での CLT（多数の独立な銘柄の収益率の平均は正規分布に近づくという前提、ただし節 7 の限界を忘れてはなりません）、モンテカルロ法でのオプション価格計算（1/√(N) オーダーで標準誤差が縮む、節 6 で確認）の 3 例です。詳細実装は stats-practice-portfolio-clt と stats-practice-monte-carlo で扱います。

stats-09 では σ/√(n) を「標準誤差 (SE)」として正式に定義し、データから SE を推定する方法を扱います。Part 3 では標準誤差・信頼区間・検定・最尤推定の順に進みます。

サンクトペテルブルクのパラドックス

AlphaInsiders 編集部 — Mon, 25 May 2026 06:01:03 GMT

期待値を計算すると +∞ に発散します。それでも実際の人間がこの賭けに支払う参加費は数円です。この極端な乖離が、経済学の期待効用理論を生んだ原点となりました。

> 親記事: 期待値

なぜこの補足が必要か

コインを投げ続け、n 回目に初めて裏が出ると 2^n 円を受け取るゲームがあります（表が出るたびに賞金が倍増する構造です）。期待値の定義（E[X] = Σ_i x_i · P(X = x_i)）に従って計算すると、答えは +∞ に発散します。「期待値が無限大なら参加費がいくらでも正当化される」というのが古典的期待値原理の結論ですが、歴史上の数学者も現実の人間も、このゲームに高額を払おうとしませんでした。

Nicolaus Bernoulli が 1713 年にフランスの数学者 Pierre Rémond de Montmort 宛の書簡でこの問題を提起し、その従兄弟 Daniel Bernoulli が 1738 年にサンクトペテルブルク帝室科学アカデミー紀要（*Commentarii Academiae Scientiarum Imperialis Petropolitanae* 第 5 巻）で対数効用による解決を発表しました。ゲームの名前はこの発表の場所に由来します。

この反例が経済学にもたらした影響は 2 つあります。第 1 に、「期待値の最大化」は合理的意思決定の唯一の基準ではないという認識。第 2 に、お金の額そのものではなく「お金から得られる満足度の期待値」で判断するという期待効用理論の誕生です。限界効用逓減・リスク回避・ポートフォリオ最適化など、現代金融理論の基礎概念はこの問題から系譜が続いています。stats-06 の本筋（期待値の線形性・二項分布）を止めずに別記事に切り出したのは、この系譜を追うには相当の紙幅が必要だからです。

賭けのルールと期待値の発散

ゲームのルール

コインを 1 枚用意します。コインを繰り返し投げ、初めて裏が出た時点でゲームが終了し、賞金を受け取ります。賞金の額は、終了したときの投擲回数に応じて決まります。

具体的に追ってみましょう。コインを 3 回投げて「表・表・裏」となった場合、N = 3（初めて裏が出るまでの回数）で、受け取る賞金は 2^3 = 8 円です。N = 1 なら 1 回目で裏が出たので賞金は 2^1 = 2 円。N = 10 なら賞金は 2^10 = 1024 円になります。表が続けば続くほど賞金が指数的に大きくなる構造です。

P(N = n) の導出

N = n となる（n 回目に初めて裏が出る）確率を求めます。条件は「1 回目から n-1 回目まで連続して表が出て、n 回目だけ裏が出る」ことです。各回の投擲は独立で、表の確率・裏の確率ともに 1/2 だから

P(N = n) = (1)/(2) × … × (1)/(2)_n-1 回表 × (1)/(2) = (1)/(2^n)

n = 1 のとき P(N = 1) = 1/2、n = 2 のとき P(N = 2) = 1/4、と指数的に減少していきます。賞金額を X_n と置くと X_n = 2^n です。

各 n の期待値への寄与

賞金 X_n = 2^n と確率 P(N = n) = 1/2^n の積が各 n の「期待値への寄与」になります。

投擲回数 n	賞金 X_n = 2^n（円）	確率 P(N = n) = 1/2^n	期待値への寄与 X_n · P(N = n)
1	2	1/2	1
2	4	1/4	1
3	8	1/8	1
4	16	1/16	1
5	32	1/32	1
n	2^n	1/2^n	1

2^n と 1/2^n がちょうど打ち消し合い、積は 1 で一定です。「賞金は増えているが確率はそれと全く同じ速度で減る」という構造が、この表で一目でわかります。

期待値が +∞ に発散する

stats-06 の期待値の定義（E[X] = Σ_i x_i · P(X = x_i)）をそのまま適用します。

E[X] = Σ_n=1^∞ X_n · P(N = n) = Σ_n=1^∞ 2^n · (1)/(2^n) = Σ_n=1^∞ 1 = +∞

各項が 1 なので、項の数が無限になるにつれて和は際限なく増えていきます。「期待値が無限大」とはこの和が有限の値に収束しない、という意味です。

よくある誤解

+∞ と「未定義」は別物です。Σ_n=1^∞ 1 は +∞ へ発散するので値は明確に「正の無限大」です。値が存在しない（+∞ と -∞ が混ざる不定形）のとは異なります。Cauchy 分布の期待値が未定義になるのは後者の状況で、stats-06 節 9 で別途言及しています。

反直感

期待値原理が「期待値を最大化するように行動せよ」という規範なら、このゲームへの参加費は +∞ まで払う価値があることになります。1 億円の参加費でも払うべきだ、という結論が出ます。しかし実験でも歴史的な記録でも、実際の人間はこのゲームに数十円から数百円しか払いません。期待値原理だけでは人間の意思決定を記述できない、という強い反証です。

Daniel Bernoulli 1738 の解決: 期待効用

発想の転換

Daniel Bernoulli の提案は「賞金額 X_n の期待値を見るのではなく、賞金額から得られる満足度（効用）の期待値で意思決定する」という主張です。

効用関数 u(W) は「お金 W から得られる満足度を数値化した関数」です。Bernoulli が選んだのは自然対数 u(W) = W（経済学の慣例で底はネイピア数 e（e ≈ 2.718）、すなわち =）です。期待効用 E[u(W)] は「もらえる満足度の期待値」と読みます。

E[ X] の計算

初期所持金 W_0 = 0（単純化）の場合、N = n のときの賞金は X_n = 2^n 円なので

E[ X] = Σ_n=1^∞ (1)/(2^n) (2^n)

(2^n) = n 2 だから

E[ X] = 2 · Σ_n=1^∞ (n)/(2^n)

ここで Σ_n=1^∞ (n)/(2^n) = 2 という事実を使います（導出は以下の折り畳みを参照）。

Σ_n=1^∞ n/2^n = 2 の導出（等比級数の微分）

等比級数の公式 Σ_n=0^∞ x^n = (1)/(1-x)（|x| < 1）の両辺を x で微分すると、次の式が得られます。

Σ_n=1^∞ n x^n-1 = (1)/((1-x)^2)

両辺に x を掛けると、次のようになります。

Σ_n=1^∞ n x^n = (x)/((1-x)^2)

x = 1/2 を代入すると、次の値が得られます。

Σ_n=1^∞ (n)/(2^n) = (1/2)/((1 - 1/2)^2) = (1/2)/(1/4) = 2

したがって

E[ X] = 2 · 2 = 2 2 ≈ 1.386

この和は有限の値に収まりました。対数効用で見ると、このゲームの「平均的な満足度」は 2 2 という有限の数値です。

確実等価額 C = 4 円

期待効用 E[ X] = 2 2 と同じ満足度を確実に与える金額 C（確実等価額）は、C = 2 2 を解けば求まります。

C = e^2 2 = (e^ 2)^2 = 2^2 = 4 （円）

対数効用で測れば、このゲームと等価な確実金額は 4 円です。

核心

期待値原理では参加費 +∞ まで正当化されます。対数効用の期待効用原理では、このゲームと等価な確実金額は 4 円にすぎません。「+∞ 対 4 円」という極端な対比が、期待値だけを意思決定の指標にすることの限界を示しています。

数字が持つ意味

n = 10 のとき賞金は 1024 円ですが、その確率は 1/1024 ≈ 0.001 です。n = 20 なら賞金は 1048576 円（約 100 万円）ですが確率は 1/1048576 ≈ 0.000001。「億円を超える賞金も確率は天文学的に低い」という現実のゲームとして考えれば、4 円という確実等価額は直感とそれほどかけ離れていません。期待値計算は確率の低い高額賞金の寄与を均等に加算し続けますが、対数効用は高額になるほど満足度の増加が鈍るため、天文学的に低確率の高額賞金の寄与が圧縮されます。

なぜ凹関数なのか: 限界効用逓減とリスク回避

限界効用逓減

対数は Bernoulli が例として選んだ関数にすぎません。解決を支えているのはの特定の性質です。

1 万円もらう嬉しさを考えてみましょう。所持金が 1 万円のときの 1 万円の追加と、所持金が 1 億円のときの 1 万円の追加では、嬉しさが違います。前者の方が大きいです。「追加的なお金から得られる満足度の増加分（限界効用）が、所持金が増えるほど小さくなる」という性質が限界効用逓減です。これを関数で表すと、傾きが右に行くほど減少する形になります。つまり関数の形が「上に凸（凹関数）」になります。u''(W) < 0 が数式での表現です。

u(W) = W のグラフを描くと、右上がりですが傾きが減少していきます。W = 1 から W = 2 への変化では 2 - 1 = 2 ≈ 0.693 ですが、W = 100 から W = 101 への変化では 101 - 100 = (101/100) ≈ 0.01 にすぎません。これが対数が「限界効用逓減を表す凹関数」として機能する理由です。

Jensen の不等式とリスク回避

凹関数 u に対して一般に成り立つ不等式があります。

E[u(X)] ≤ u(E[X])

Jensen の不等式

u が凹関数のとき、E[u(X)] ≤ u(E[X]) が成り立ちます。これがリスク回避の数学的表現です。「期待値の効用より効用の期待値の方が小さい」は「同じ期待値なら確実な方が好ましい」と言い換えられます。St. Petersburg の確実等価額 4 円は、この不等式の特殊例として導かれます。

Jensen の不等式の証明（凹関数の定義から）

u が凹関数であることの定義は、任意の 2 点 a, b と任意の λ [0, 1] に対して、次の不等式が成り立つことです。

u(λ a + (1-λ) b) ≥ λ u(a) + (1-λ) u(b)

これを離散確率変数に拡張すると、P(X = x_i) = p_i のとき、次の式が成り立ちます。

u(Σ_i p_i x_i) ≥ Σ_i p_i u(x_i)

つまり u(E[X]) ≥ E[u(X)]、移項して E[u(X)] ≤ u(E[X]) が得られます。

このリスク回避性が出る条件は「u が凹関数」だけで、でなくても構いません。CRRA（一定の相対的リスク回避度）と呼ばれる効用関数族 u(W) = W^1-γ / (1-γ)（γ > 0、γ 1）も凹関数で、γ = 1 の極限が W に一致します。CRRA 族の任意の γ > 0 でサンクトペテルブルクのゲームに対する確実等価額は有限の値になります。これが「対数を取ったから解決した」のではなく「凹関数で測ったから解決した」という結論です。

alphaviz で確認する: 賞金と期待値寄与

各 n での賞金 X_n = 2^n（青）と期待値への寄与 X_n · P(N = n) = 1（赤）を n = 1 から n = 10 まで並べた図です。縦軸は円単位の線形スケールで、賞金が n とともに指数的に増大する様子と、寄与が一定のまま横並びになる対比を直接確認できます。

賞金と期待値寄与（n = 1〜10）

青いドット（賞金）は n = 1 の 2 円から n = 10 の 1024 円まで、n が 1 増えるごとに前の 2 倍の高さへ跳び上がります。賞金は指数的に増大します。

赤いドット（期待値への寄与）は n = 1 から n = 10 まで一貫して y = 1 のまま横一直線に並びます。賞金が 2 倍に増えても、確率がちょうど半分になるため積は常に 1 になります。各項が 1 なので、n = 1 から n = ∞ まで足し続ければ和は際限なく大きくなります。「なぜ期待値が発散するか」が、この横一直線の赤いドットの無限の積み重ねとして見えます。

確率系列（P(N=n) = 1/2^n）は n=1 の 0.5 から n=10 の ≈ 0.001 まで急激に小さくなります。この系列は線形スケールでは y ≈ 0 近傍に密集して視覚的に区別できないため、図には含めていません。確率の数値は前掲の表を参照してください。

現代の解釈: パラドックスは解決されたのか

Super St. Petersburg の反例

Bernoulli の対数効用は完全な解決ではありません。Karl Menger が 1934 年に *Zeitschrift für Nationalökonomie* 第 5 巻で示したのは、賞金を X_n = 2^2^n（2 の 2^n 乗）に変えた「Super St. Petersburg」では対数効用でも期待効用が発散するという事実です。

E[ X] = Σ_n=1^∞ (1)/(2^n) (2^2^n) = 2 · Σ_n=1^∞ (2^n)/(2^n) = 2 · Σ_n=1^∞ 1 = +∞

賞金の増え方が速すぎると、対数による圧縮でも追いつきません。この結果は「どんな単調増加の効用関数でも、賞金の増え方を速くすれば同じ問題が再発する」という一般化を示唆しており、「対数効用で解決」という主張が効用関数の選び方に依存している点を露わにしました。

歴史的経緯

Menger (1934) の指摘後、パラドックスへの対応として大きく 2 つの立場に分かれました。(1) 有界効用関数: 効用 u に上限を設けることでどんな賞金体系でも期待効用を有限に収めます。(2) 現実的な打ち切り: 銀行の支払い能力有限・プレイヤーの寿命有限を前提とすると項が実質的に打ち切られ期待値も有限になります。現代経済学ではいずれの立場も支持者を持ち、「どちらが正しいか」よりも「どの仮定の下で議論するか」という枠組みの選択として扱われます。Aumann (1977) や Samuelson (1977) の 20 世紀後半の発展は本記事の紙幅外です。

親記事に戻る・関連リンク

stats-06 に戻るときは、節 9「期待値が定義できない例」以降から再開してください。本補足で扱った「対数効用」「リスク回避」の概念は、stats-06 の期待値定義（E[X] = Σ_i x_i · P(X = x_i)）を土台として、その上に積み重なる理論です。

この記事で初出した用語（期待効用・効用関数・リスク回避・Jensen の不等式・限界効用逓減）は以下の用語辞典に個別項目があります。Kelly 基準入門は期待効用理論の金融応用として本補足の延長線上にあります。

期待値の線形性が独立性なしで成り立つ理由

AlphaInsiders 編集部 — Mon, 25 May 2026 06:01:03 GMT

独立でない確率変数でも「和の期待値は期待値の和」は成り立ちます。同時確率の行と列を合計するだけで証明でき、独立性を仮定する必要がありません。一方、分散の加法には共分散項が残るため独立性が要ります。この非対称の理由を式で確かめます。

stats-06 の「期待値の線形性」節では、E[X+Y] = E[X]+E[Y] が X と Y の独立性を要求しないという事実を述べ、証明を

の折りたたみで 4 行にまとめました。本補足ではその 4 行を展開し、「なぜ独立性が要らないのか」「完全従属の極端例でも式が崩れないか」「分散の線形性は独立性を要求するのに期待値だけが要らないのはなぜか」という 3 点を式で確かめます。

> 親記事: 期待値

なぜこの補足が必要か

E[X+Y] = E[X]+E[Y] に「独立でなくても成り立つ」という注記が添えられていると、直感に反します。X と Y が絡み合っていれば、その関係が和の期待値に影響しそうに見えるからです。独立な場合は P(X=x_i, Y=y_j) = P(X=x_i) · P(Y=y_j) という式が成り立ち、計算が単純になると知っている分、「独立性がないと計算が崩れるのでは」という直感が働きます。

独立性は不要です。その理由は式変形の構造にあります。証明のどこにも独立性を使う余地がなく、同時確率を周辺分布に集約する操作だけで E[X]+E[Y] に到達します。以下の節でこの構造を式で追います。

同時分布から周辺分布への集約で示す

X が取りうる値を x_i（i = 1, 2, …）、Y が取りうる値を y_j（j = 1, 2, …）とします。P(X=x_i, Y=y_j) は X = x_i かつ Y = y_j が同時に起きる確率で、「同時確率」と呼びます。これは 2 次元の確率の表で、X の値を行、Y の値を列に並べると全マスの和が 1 になります。

まず X + Y の期待値の定義式を書きます。確率変数 X + Y が取りうる値は x_i + y_j で、その確率は P(X=x_i, Y=y_j) ですから

E[X+Y] = Σ_i Σ_j (x_i + y_j) P(X=x_i, Y=y_j)

となります。i と j の二重和は「すべての (x_i, y_j) の組み合わせ」について足し合わせることを意味します。

括弧の中 (x_i + y_j) を分配すると、和を 2 つに分けられます。

= Σ_i Σ_j x_i P(X=x_i, Y=y_j) + Σ_i Σ_j y_j P(X=x_i, Y=y_j)

左の塊は x_i と P(·) の積を全 (i, j) ペアで足し合わせています。右の塊は y_j と P(·) の積を同じ範囲で足し合わせています。この分配は確率の大小や X と Y の関係によらず成立します。

左の塊に注目します。x_i は j に依存しないので Σ_j の外に出せます。

Σ_i Σ_j x_i P(X=x_i, Y=y_j) = Σ_i x_i Σ_j P(X=x_i, Y=y_j)

内側の和 Σ_j P(X=x_i, Y=y_j) は「X = x_i という条件のもとで、Y がどんな値を取ろうと全部足す」操作です。Y の値によらず足し合わせると Y の添字が消え、X = x_i の確率だけが残ります。これが周辺化で、数学的には

Σ_j P(X=x_i, Y=y_j) = P(X=x_i)

となります。同時確率の表で「X = x_i の行を横に合計する」だけの操作であり、X と Y がどんな関係を持っていようと、行の合計は X = x_i の確率に等しくなります。独立性を使う余地はここにありません。

右の塊も対称的に処理できます。y_j は i に依存しないので

Σ_i Σ_j y_j P(X=x_i, Y=y_j) = Σ_j y_j Σ_i P(X=x_i, Y=y_j) = Σ_j y_j P(Y=y_j)

Σ_i P(X=x_i, Y=y_j) = P(Y=y_j) は「Y = y_j の列を縦に合計する」周辺化です。これも独立性と無関係です。

2 つの塊を合わせると

E[X+Y] = Σ_i x_i P(X=x_i) + Σ_j y_j P(Y=y_j) = E[X] + E[Y]

に到達します。証明の中で P(X=x_i, Y=y_j) = P(X=x_i) P(Y=y_j)（独立性の定義式）を一度も使っていません。使ったのは「分配則」「j に依存しない量を Σ_j の外に出す」「行を合計すると周辺確率になる」の 3 つだけです。

核心

E[X+Y] = E[X]+E[Y] の証明で使うのは「周辺化」だけです。同時確率 P(X=x_i, Y=y_j) の行を横に合計すれば X の周辺確率が出ます。列を縦に合計すれば Y の周辺確率が出ます。関係構造（独立か従属か）は和の計算に入り込みません。

完全従属の極端例で確かめる

「独立性なしで成り立つ」を最も鋭く試す状況は、完全従属の場合です。X の値が決まれば Y が完全に決まる関係、つまり片方を知れば他方が 100% 予測できる状況で、線形性が保たれるかを確認します。

例 1: Y = X（完全正従属）

サイコロを 1 個振り、出た目を X とします。Y = X と定義すると、X が 3 なら Y も 3 で、X と Y は完全に一致します。この場合の同時確率は

Y X	1	2	3	4	5	6
1	1/6	0	0	0	0	0
2	0	1/6	0	0	0	0
3	0	0	1/6	0	0	0
4	0	0	0	1/6	0	0
5	0	0	0	0	1/6	0
6	0	0	0	0	0	1/6

確率が対角線にだけ並んでいます。行を横に合計すると各行が 1/6（X の周辺確率）、列を縦に合計すると各列が 1/6（Y の周辺確率）になります。

Y=X の同時確率分布（6×6グリッド）

図の読み方

横軸が X（1〜6）、縦軸が Y（1〜6）です。青い円は確率 1/6 の組み合わせで、対角線上の 6 マスにのみ存在します。行を横に合計すると各行の和が 1/6（X の周辺確率）になり、列を縦に合計すると各列の和が 1/6（Y の周辺確率）になります。対角線以外の 30 マスは確率 0 です。

直接計算すると：X + Y = 2X なので E[X+Y] = E[2X] = 2 × 3.5 = 7 です。

線形性で計算すると：E[X] = 3.5、E[Y] = E[X] = 3.5 なので E[X]+E[Y] = 7 となります。一致します。

例 2: Y = -X（完全負従属）

X を +1 と -1 を各確率 1/2 で取る確率変数とし、Y = -X と定義します。X = +1 なら Y = -1 になり、X = -1 なら Y = +1 になります。E[X] = (+1) × 1/2 + (-1) × 1/2 = 0、E[Y] = E[-X] = -E[X] = 0 です。

X + Y = X + (-X) = 0 で、X+Y は常に 0 になります。したがって E[X+Y] = E[0] = 0 です。

線形性で計算すると：E[X]+E[Y] = 0 + 0 = 0 となります。こちらも一致します。

ここで一歩踏み込みます。X+Y = 0 は定数で、その分散は Var[X+Y] = Var[0] = 0 です。一方、Var[X] = E[X^2] - (E[X])^2 = 1 - 0 = 1 なので、単純に足すと Var[X]+Var[Y] = 1 + 1 = 2 になります。Var[X+Y] = 0 なのに Var[X]+Var[Y] = 2 という状況です。

よくある誤解

期待値の線形性が独立性なしで成り立つからといって、分散の線形性も独立性なしで成り立つわけではありません。Y = -X の例で Var[X+Y] = 0 ですが Var[X]+Var[Y] = 2 で、2 つは一致しません。この非対称が次の節の主題です。

分散の線形性は独立性を要求する

分散の定義から出発します。_X = E[X]、_Y = E[Y] として

Var[X+Y] = E[(X+Y-_X-_Y)^2]

括弧の中を (X - _X) + (Y - _Y) と書き直し、二乗を展開すると

= E[(X-_X)^2] + E[(Y-_Y)^2] + 2 E[(X-_X)(Y-_Y)]

最初の 2 項は Var[X] と Var[Y] です。第 3 項に出てくる E[(X-_X)(Y-_Y)] を共分散と呼び、Cov(X, Y) と書きます。整理すると

Var[X+Y] = Var[X] + Var[Y] + 2 Cov(X, Y)

となります。

共分散 Cov(X, Y) = E[(X-_X)(Y-_Y)] は「X が平均より大きいときに Y も平均より大きい傾向の強さ」を数値化した量です。(X-_X) と (Y-_Y) の積を平均しているので、両者が同じ方向に動けば正、逆方向に動けば負、関係がなければ 0 に近くなります。

X と Y が独立なら、同時確率が P(X=x_i, Y=y_j) = P(X=x_i)P(Y=y_j) に因数分解できるため、積の期待値も因数分解できます。つまり E[(X-_X)(Y-_Y)] = E[X-_X] · E[Y-_Y] = 0 · 0 = 0 となります。独立なら共分散は 0 ですから Cov(X, Y) 項が消え、Var[X+Y] = Var[X]+Var[Y] が成り立ちます。従属の場合は共分散が 0 でなく残ります。

前節の Y = -X で確認します。_-X = -_X = 0 なので

Cov(X, -X) = E[(X-_X)(-X-_-X)] = E[(X-_X)(-(X-_X))] = -E[(X-_X)^2] = -Var[X]

Var[X] = 1 なので Cov(X, -X) = -1 となります。これを分散の式に代入すると

Var[X+(-X)] = Var[X] + Var[-X] + 2 Cov(X,-X) = 1 + 1 + 2 × (-1) = 0

前節で直接計算した Var[X+Y] = 0 と一致しました。

期待値と分散が非対称になる根本的な理由は、演算の構造の違いにあります。期待値 E[X+Y] の計算で中心になるのは (x_i + y_j) という和です。和を x_i と y_j に分けて別々に平均を取る操作は、X と Y の関係構造に干渉しません。一方、分散 Var[X+Y] の計算では (X+Y-_X-_Y)^2 を展開したときに (X-_X)(Y-_Y) という積の項が出ます。積の項には X と Y が「一緒にどう変化するか」の情報が含まれるため、この項をゼロにするには独立性の仮定が必要です。

期待値と分散の構造差

期待値は和だけで計算が完結します。和は分配・集約だけで整理でき、変数間の関係構造が入り込みません。分散は二乗（積）を含みます。二乗を展開したときに生まれる交差項が共分散であり、この項に X と Y の関係構造が凝縮されています。期待値は独立性を見ず、分散は独立性を見ます。この非対称は演算の構造から必然的に生まれます。

結論として何が言えるか + 親記事に戻る

本補足で確認したことを整理します。

E[X+Y] = E[X]+E[Y] の証明は「周辺化」だけで完結し、独立性を一度も使いません。同時確率の行・列を合計するだけで、関係構造は計算に入りません。
Y = X（完全正従属）でも Y = -X（完全負従属）でも期待値の線形性は成り立ちます。直接計算と線形性の計算は常に一致します。
分散には共分散項 2 Cov(X, Y) が出ます。独立なら共分散は 0 になり Var[X+Y] = Var[X]+Var[Y] が成り立ちますが、従属の場合は共分散が残るため分散の単純加法は成り立ちません。

「期待値は独立性不要」という性質の応用例として、ランダム順列の固定点期待値があります。n 枚のカードをシャッフルしたとき、元の位置に留まるカード（固定点）の枚数の期待値は 1 になります。18 世紀の数学者モンモール（1708 年）が問題として定式化したこの計算でも、各カードが固定点かどうかを示す指示変数 X_k（固定点なら 1、そうでなければ 0）を使い、E[Σ_k X_k] = Σ_k E[X_k] = Σ_k 1/n = 1 と線形性で一行に導けます。n 枚のカードが互いに独立でないにもかかわらず、期待値の線形性が直接使えるためです。同じ仕組みは機械学習のアンサンブル学習にも現れます。複数モデルの予測が互いに独立でなくても、それぞれの予測期待値の和として全体の期待値が計算できます（ただし分散の縮小効果は独立性に依存します）。

Part 3 で扱う標準誤差では、独立な確率変数の和の分散が Var[X_1+X_2+…+X_n] = n Var[X_1] となる事実を使います。これは分散の加法に独立性を要求した上で成り立つ結果です。本補足で見た「分散には共分散項が残る」という制約が、標準誤差の導出で独立性の仮定を必要とする直接の理由になります。

親記事: 期待値（線形性の節、本補足の展開元）
関連する補足: サンクトペテルブルクのパラドックス（期待値が発散する極端例）
関連する本編: 標準誤差（Part 3 で扱う、分散の独立加法が使われる先）

Cauchy 分布の期待値が定義できない理由

AlphaInsiders 編集部 — Mon, 25 May 2026 06:01:03 GMT

stats-06 で「Cauchy 分布の期待値は未定義」と一行書きました。「未定義」と「無限大」は別の状態で、その違いを積分の発散の仕方で説明できます。積分の上端・下端をどう動かすかで極限値が変わります。それが「未定義」という状態の正確な意味です。

> 親記事: 期待値

なぜこの補足が必要か

stats-06 の期待値の節では、期待値が定義できない例として Cauchy 分布を一文だけ挙げました。同じ節に Saint Petersburg のパラドックスも登場しますが、両者は別の状態にあります。Saint Petersburg の期待値は +∞ として確定します。Cauchy の期待値は +∞ - ∞ という不定形になり、値すら確定しません。この違いを「絶対積分が有限かどうか」という一つの条件で説明できます。

その条件は stats-08（大数の法則・中心極限定理）の前提にも直結します。CLT の成立には「期待値が有限であること」が必要で、Cauchy 分布はその前提から外れます。stats-08 を読む前に「期待値有限」という仮定が何を意味するかを整理しておくことが、本補足の目的です。

Cauchy 分布の密度関数と期待値の計算が破綻する場所

Cauchy 分布の確率密度関数は次の式で定義されます。

定義

f(x) = (1)/(π(1 + x^2))

f(x) は確率密度関数（その点での確率の「濃さ」を表す関数）、π は円周率 3.14159...、x は実数値です。この密度関数が確率の総和という条件を満たすことは、（逆正接関数）の不定積分から確認できます。

_-∞^∞ (1)/(π(1+x^2)) dx = (1)/(π)[ x]_-∞^∞ = (1)/(π)((π)/(2) - (-(π)/(2))) = 1

密度関数としての条件（確率の総和が 1）は成立しています。問題は期待値の計算で起きます。

ここで破綻する

期待値の定義式 E[X] = _-∞^∞ x f(x) dx を Cauchy 密度に当てはめると、上半の積分と下半の積分がそれぞれ独立に無限大に発散します。「上半が +∞、下半が -∞」という構造が、期待値を「未定義」と扱う理由です。

上半の積分を計算します。は自然対数（e ≈ 2.718 を底とする対数）を指します。

_0^b (x)/(π(1+x^2)) dx = (1)/(2π)(1+b^2)

b ∞ のとき (1+b^2) ∞ なので、上半の積分は +∞ に発散します。下半も同様で、

_a^0 (x)/(π(1+x^2)) dx = -(1)/(2π)(1+a^2) -∞ (a -∞)

上半が +∞、下半が -∞ に発散します。この発散は急速なものではなく、対数的にじわじわ進みます。以下の数値で確認できます。

上端 b	上半積分 (1)/(2π)(1+b^2)
10	0.735
100	1.466
1,000	2.199
10,000	2.932

b が 10 倍になるたびに積分値は約 0.733 ずつ増えます（対数スケールの均等増分）。これが「じわじわ・延々と」増え続け、止まりません。

上半積分の対数的発散

横軸は積分の上端 b、縦軸はそこまでの上半積分の値です。青い曲線が b を伸ばしたときの積分値の推移で、青い 2 点が b=10（0.735）と b=100（1.466）の具体値です。b を 10 倍にしても値は 2 倍程度しか増えず、対数的にしか伸びないことが分かります。

この曲線は b とともに増え続けますが、その勾配は b が大きくなるにつれ緩やかになります。水平になることはなく、確実に増え続けます。

未定義と無限大は別物です

上半が +∞、下半が -∞ になると、期待値の計算で「+∞ - ∞」という形が現れます。この形は計算結果が一意に決まらない不定形です。どれだけ「一意に決まらない」かは、積分の上端 b と下端 a を独立にどう動かすかで確かめられます。

I(a,b) = _a^b (x)/(π(1+x^2)) dx とおきます。a -∞, b ∞ をどんな組み合わせで近づかせるかで、I(a,b) の極限値が変わります。

a = -b（対称に伸ばす）のとき: 被積分関数の奇対称性から I(-b, b) = 0（すべての b で）
a = -b/2（上端が下端の 2 倍速で遠ざかる）のとき: _b∞ I(-b/2, b) = ( 2)/(π) ≈ 0.221
a = -2b（下端が上端の 2 倍速で遠ざかる）のとき: _b∞ I(-2b, b) = -( 2)/(π) ≈ -0.221

同じ積分なのに、a と b の「動かし方の比率」が変わると極限値が変わります。これが「答えが決まらない」ということの正確な意味です。

未定義の定義

a = -b で対称に動かしたときの極限値 0 を「コーシー主値積分」と呼びます。しかしこれは期待値とは別の概念です。期待値の定義が要求するのは「a, b をどんな比率で ±∞ に動かしても同じ値に収束する」ことで、Cauchy 分布はその条件を満たしません。コーシー主値積分がゼロだからといって期待値がゼロだとは言えません。

この「動かし方に依存する」性質が成立するのは、絶対積分が発散するからです。

_-∞^∞ |x| f(x) dx = _-∞^∞ (|x|)/(π(1+x^2)) dx = ∞

絶対積分（|x| を掛けてから積分した値）が有限なら、積分の上端・下端をどう動かしても極限値は変わりません（絶対収束）。絶対積分が無限大なら、上端・下端の動かし方に依存します（条件付き収束）。Cauchy 分布は後者で、だから期待値が未定義になります。

x	f(x) dx = ∞

上半が +∞、下半が -∞。両方が無限大なので引き算が不定形になります。積分の上端・下端の動かし方次第で極限値が変わります。期待値は「値として確定しません」。

E[X] = +∞

E[X] = Σ_n=1^∞ 2^n · (1)/(2^n) = Σ_n=1^∞ 1 = +∞ のように、正の和だけが無限大に発散します。足す順番を変えても結果は変わりません。期待値は「+∞ として確定しています」。

「未定義」と「無限大に発散」は別の失敗です。Saint Petersburg の期待値 +∞ は確定した答えを持ちます。Cauchy の期待値は答えが確定しません。

中央値・最頻値は存在する: 中心傾向の三者の独立性

Cauchy 分布の密度関数 f(x) = 1/(π(1+x^2)) のピークは x = 0 にあります。密度関数が x = 0 を軸に左右対称であることから、中央値も 0 です。最頻値もピーク位置の 0。両方とも普通の実数値として存在します。

平均と中央値・最頻値の独立性

stats-01 で平均・中央値・最頻値の三者を並べて紹介したとき、どれも「代表値」として定義可能な存在に見えました。Cauchy 分布では平均だけが定義できず、中央値と最頻値は定義できます。三者は互いに独立で、一方が存在するからといって他方が存在するとは限りません。

「平均がないのに中央値はある」という事実は直感に反します。中央値は「順位の中央」を見ており、裾の面積の振る舞いとは独立です。中央値は密度関数を左右に等分する点で、これは f(x) の対称性から 0 と確定します。一方、平均は「|x| で重みをつけた面積」に依存し、その重み付き面積が発散するから定義できません。

大数の法則・中心極限定理が要求する前提

Cauchy 分布から独立に n 個の標本を取ったとき、標本平均 X_n = (X_1 + X_2 + … + X_n)/n の分布は、n が増えても Cauchy 分布のまま変わりません。特性関数 _X(t) = E[e^itX]（確率変数 X の分布形を周波数 t で記述する関数）を使って計算すると、X_n の特性関数は _X_n(t) = e^-|t| となります。これは Cauchy 分布の特性関数そのものです。

n が増えても X_n の分布は Cauchy 分布のまま変わりません。正規分布から取った標本平均が n の増加とともに真の平均付近に集中するのと正反対の振る舞いです。これが大数の法則の成立しない実例です。

stats-08 への接続

大数の法則（LLN）は「期待値が有限であること」を前提とします。中心極限定理（CLT）はさらに「分散が有限であること」も要求します。Cauchy 分布は期待値の段階から既に前提を外れているため、LLN も CLT も成り立ちません。stats-08 で LLN・CLT を学ぶとき、「これらの前提が崩れた反例」として Cauchy 分布が頭にあると、定理の前提が何を守っているかが見えてきます。

Cauchy 分布と正規分布の密度関数を重ねて見ると、その違いが明確になります。

Cauchy 分布 vs 標準正規分布（密度関数の比較）

中心付近（|x| ≤sssim 1）では Cauchy と正規はほぼ同じ形をしています。違いは裾に出ます。|x| = 4 付近では、正規密度が事実上ゼロに達するのに対し、Cauchy 密度は 1/(π · 17) ≈ 0.019 と、まだ有意な高さを保っています。Cauchy の裾の減衰は 1/x^2 のオーダーで、正規の e^-x^2/2 のオーダーとは桁違いに遅いです。この裾の重さが |x| · f(x) の積分を発散させる物理的な原因です。

物理での Cauchy: ローレンツ分布と共鳴線幅

物理学では同じ密度関数をローレンツ分布と呼びます。原子・分子の電子遷移が放つ光のスペクトル線（共鳴吸収ピーク）の形がこの関数で記述され、半値半幅（HWHM）γ がスケールパラメータとして現れます。NMR の吸収ピーク、共鳴回路の周波数応答も同じ関数形をとります。共鳴線の「中心周波数」は中央値・最頻値で定義され、物理学者が「平均周波数」を使う場面は存在しません。期待値が定義できないことは、物理計測の標準的な現場で「平均」ではなく「中心」が使われる理由として自然に現れています。

参考文献

Wikipedia 日本語版「コーシー分布」（密度関数・特性関数・標本平均が Cauchy のままという性質）
Wolfram MathWorld "Cauchy Distribution"（絶対モーメントが発散することの議論）
Wikipedia 英語版 "Lorentzian function"（物理学でのローレンツ分布・ローレンツ線形の解説）

本編に戻る

親記事: 期待値（期待値の定義と線形性）
関連: stats-08（大数の法則・中心極限定理）。CLT の前提「期待値有限・分散有限」の意味
関連用語: Cauchy 分布、絶対収束・条件付き収束

条件付き確率とベイズの面積

AlphaInsiders 編集部 — Mon, 25 May 2026 03:35:32 GMT

stats-06 で確率変数 X と期待値 E[X] を導入しました。本記事では「観測した情報で確率を更新する」という動作を扱います。直感の答え「90%」と正答「約 9.2%」は約 81 ポイント離れています。なぜでしょうか。その構造を 1×1 の矩形で読み解きます。

はじめに

stats-05 で確率 P(·) の基礎と Kolmogorov 三公理を、stats-06 で確率変数と期待値 E[X] を導入しました。ここまでで「出来事に確率を割り当てる」前準備が整いました。本記事で加えるのは「情報を受け取ったあとで確率を更新する」という動作です。それが条件付き確率 P(A B) の仕事であり、ベイズの定理はその更新を 2 行の代数で書き下したものです。

Part 2（確率と期待値）の 4 本構成における本記事の位置は以下の通りです。

stats-05 確率の直感と Kolmogorov 三公理
stats-06 期待値と確率変数
stats-07 条件付き確率とベイズの面積（本記事）
stats-08 大数の法則と中心極限定理

90% 当たる検査で本当に病気の確率が 9.2%

ある検査の性能を 3 つの数字で表します。有病率（集団の中で実際に病気の人の割合）は 1%。感度（病気の人を陽性と判定する確率）は 90%。特異度（健康な人を陰性と判定する確率）は 91%。この 3 数が揃うと、「陽性が出たとき本当に病気である確率」が計算できます。

素朴な答えは「90%」です。「90% 当たる検査」で陽性が出たのだから、病気の確率も 90% だと直感するのは自然です。ところが正答は約 9.2% です。81 ポイント近い乖離があります。Eddy（1982）の調査では、同種の問題に正答した医師は約 5% にとどまりました。医師でもこのズレを埋められません。

この 81 ポイントの差は計算上の複雑さから来るのではありません。有病率 1% という前提が小さすぎるために、陽性の人の中で「本当に病気の人」が薄まってしまう構造的な問題です。「陽性」という情報は「感度が高い = 病気を検知しやすい」という方向にしか働かないと思われがちですが、健康な人が陽性になる数が、病気の人の陽性者数を大幅に上回るとき、陽性的中率は感度とは無関係に低くなります。

矩形分割でこの構造を正確に見ることができます。病気帯と陽性帯のどちらがどれだけの面積を占めるかが視覚的に確認できれば、9.2% という数値は矩形の面積比から直接読み出せます。

「陽性なら病気」ではなく「陽性かつ病気の人は、陽性の人全体のごく一部」

縦帯を切り直す: 条件付き確率

以下、本記事では「縦の細い帯（病気帯、幅 1%）」「横の薄い帯（陽性帯、高さ 9.8%）」と呼びます。図の横軸が有病状態、縦軸が検査結果です。

1×1 の正方形を用意します。横方向に「病気 1% / 健康 99%」で切り、縦の細い帯と広い帯に分けます。次に各帯の中を縦方向に「陽性 / 陰性」で切ります。病気帯（幅 0.01）の中は 90:10 で切り、健康帯（幅 0.99）の中は 9:91 で切ります。こうして 4 つのセルができます。

矩形分割: 4 セルの面積

図の読み方: 横軸は有病状態（左 1% が病気、右 99% が健康）、縦軸は検査結果（上が陽性、下が陰性）です。各セルの面積が「病気かつ陽性」「健康かつ陰性」などの同時確率に対応します。4 セルの面積を足すと 1 になります。

セルの面積は 同時確率 P(A B) です。記号（キャップ、「かつ」と読みます）は「A と B が両方起きる」ことを表します。「病気かつ陽性」のセル面積は 0.01 × 0.90 = 0.009 です。

陽性の横帯全体の面積は 周辺確率 P(陽性) です。陽性になるルートは 2 つあります。病気の帯から陽性に入るルートと、健康の帯から陽性に入るルートです。両セルの面積を足すと 0.009 + 0.0891 = 0.0981 になります。

ここで条件付き確率の定義を出します。縦棒の右側が条件事象です。

P(A B) = (P(A B))/(P(B)), P(B) > 0

「B が起きたという条件のもとで A が起きる確率」は、「横帯 B を新しい全体と見直したとき、A がその横帯のどれだけを占めるか」と読みます。分母 P(B) は横帯の面積、分子 P(A B) はセルの面積です。P(B) > 0 の制約は「面積がゼロの横帯では割れない」という 0 除算の回避です。

この式に数値を入れると P(病気陽性) = 0.009 / 0.0981 ≈ 0.0917 、つまり約 9.2% です。冒頭で提示した 9.2% という答えは、矩形の面積比として直接読み出せます。

矩形を 2 通りに読む: ベイズの定理を 2 行で導く

同じ矩形を 2 通りで読みます。1 通り目は「先に横切って病気帯を作り、その中で陽性を切る」読み方です。病気帯（幅 0.01）の中の陽性セルは、病気帯に感度を掛けて出てきます。

P(病気陽性) = P(陽性病気) × P(病気) = 0.90 × 0.01 = 0.009

2 通り目は「先に縦切って陽性帯を作り、その中で病気を見る」読み方です。陽性帯（幅 0.0981）の中の病気セルは、陽性帯に事後確率を掛けて出てきます。

P(病気陽性) = P(病気陽性) × P(陽性) = P(病気陽性) × 0.0981

同じセルを 2 通りに読む

図の読み方: 左図では病気帯（赤、幅 1%）を先に決め、その中の陽性割合（感度 90%）を見ます。右図では陽性帯（青、幅 9.8%）を先に決め、その中の病気割合（事後確率 9.2%）を見ます。どちらも同じ「病気かつ陽性」のセル（面積 0.009）を指しています。

両方の式が同じセル面積 P(病気陽性) = 0.009 を表しているので、等号で結べます。これがベイズの定理を導く 2 行です。

P(A B) = P(A B) · P(B)

P(A B) = P(B A) · P(A)

A を「病気」、B を「陽性」に割り当てると、両右辺が等しいから P(A B) P(B) = P(B A) P(A) が成り立ちます。P(B) > 0 で両辺を割ると、ベイズの定理が出てきます。

P(A B) = (P(B A) P(A))/(P(B))

各記号に名前を貼ります。P(A)（事前確率: prior）は観測前の病気の確率 0.01。P(B A)（尤度: likelihood）は病気であれば陽性が出る確率 0.90。P(B)（周辺確率: marginal）は陽性が出る確率 0.0981。P(A B)（事後確率: posterior）は陽性が出た後に病気である確率 0.0917 です。

分母の周辺確率 P(B) は、陽性帯が 2 つのルートから来ることを思えば分解できます。A^c は「A の余事象」、つまり A が起こらない事象（A^c = Ω A）です。陽性になるのは「病気かつ陽性」か「健康かつ陽性」かのどちらかですから、

P(B) = P(B A) P(A) + P(B A^c) P(A^c)

が成り立ちます。矩形では「陽性帯 = 病気&陽性セル + 健康&陽性セル」と読みます。検算: 0.90 × 0.01 + 0.09 × 0.99 = 0.009 + 0.0891 = 0.0981。この分解を分母に代入すると、ベイズの定理の展開形になります。

P(A B) = (P(B A) P(A))/(P(B A) P(A) + P(B A^c) P(A^c))

数値を代入します: P(病気陽性) = 0.009 / (0.009 + 0.0891) = 0.009 / 0.0981 ≈ 0.0917。前節の矩形面積と同じ答えです。

核心

ベイズの定理は、同じ矩形を「先に横切る（病気帯 → 陽性）」と「先に縦切る（陽性帯 → 病気）」の 2 通りに読んだときの整合性が要求する公式です。条件付き確率の定義と乗法定理の対称性から 2 行で導かれる初等的命題であり、哲学的な内容は定理自体にではなく事前確率 P(A) の解釈にあります（頻度主義 vs ベイズ主義の論争については補足記事 stats-supplement-bayes-history を参照してください）。

なぜ「陽性 → 病気」と「病気 → 陽性」が違うのか

「90% 当たる検査」という言い方を素朴に受け取ると、「病気 → 陽性」も「陽性 → 病気」も同じ 90% になりそうだと感じます。感度（病気 → 陽性）が 90% なのだから、陽性 → 病気も 90% でしょう、と。この直感は系統的に外れます。

矩形を見ると理由がわかります。「病気かつ陽性」のセル面積は 0.009 です。このセルを病気の縦帯（面積 0.01）で割ると感度 0.90 になります。同じセルを陽性の横帯（面積 0.0981）で割ると事後確率 0.0917 になります。同じセルを、面積の違う 2 つの帯で割るから、比が変わります。

縦帯と横帯の面積差

図の読み方: 赤の縦帯が「病気帯」（幅 1%）、青の横帯が「陽性帯」（幅 9.8%）です。交差する小さな赤セルが「病気かつ陽性」（面積 0.009）で、これを赤帯で割るか青帯で割るかで違う比が出ます。

分母が 1% か 9.8% かによって、同じ分子（0.009）から出てくる比が 10 倍近く変わります。有病率が小さいほど、「病気帯」は細くなり、「陽性帯」との面積差が広がります。

有病率を 1% から 50% に上げると何が変わるでしょうか。感度 90%・特異度 91% を固定して計算すると、事後確率は 0.50 × 0.90 / (0.50 × 0.90 + 0.50 × 0.09) = 0.45 / 0.495 ≈ 0.909、約 91% になります。有病率 1% では 9.2%、有病率 50% では 91% です。感度と特異度が全く同じでも、有病率が 50 倍になると事後確率が 10 倍近く変わります。

基準率の無視

事前確率（基準率）が小さい場合、P(A B) と P(B A) は大きく違う値をとります。有病率 1% と感度 90% の組み合わせでは、両者の差は約 81 ポイントになります。この錯誤は base rate fallacy（基準率の無視）と呼ばれ、Kahneman と Tversky が 1973 年に実証した古典的バイアスです。医療診断・法廷証拠・スパム判定の現場で繰り返し観察されます。詳細は補足記事 stats-supplement-base-rate-fallacy を参照してください。

事前確率と事後確率: 情報を受け取って更新する

この 81 ポイントの乖離は、情報を受け取る前後で確率がどう動くかを整理すれば自然に見えてきます。検査を受ける前、患者が属する集団の有病率は 1% です。この集団的な情報だけを持った状態での確率が事前確率 P(病気) = 0.01 です。患者個人について他に情報がなければ、これが最良の確率の推定値になります。

検査結果「陽性」を受け取った瞬間、確率は P(病気陽性) ≈ 0.0917（約 9.2%）に更新されます。事前の 1% から事後の 9.2% へ、9 倍以上の上昇です。しかし依然として 10% を切ります。陽性という情報は「病気の可能性を 9 倍に高めた」が、「病気だと確定した」わけではありません。

物理的に何かが変わったわけではありません。患者の体内の細胞は検査の前後で同じ状態にあります。変わったのは観測者（医師や患者本人）の知識状態です。確率 P は世界の物理的状態を表すのではなく、観測者が持つ情報を反映する数値です。ですから「情報が増えると確率が変わる」のは当たり前であり、矛盾ではありません。

もし同じ患者が別の独立した検査で再び陽性になれば、その結果を新たな情報として取り込んで確率をさらに更新できます。最初の検査結果を新しい事前確率 9.2%（≈ 0.0917）に置き、2 回目の陽性という情報をベイズの定理で処理すれば P(病気陽性_1, 陽性_2) が得られます。このような逐次的な確率の更新（逐次ベイズ更新）は stats-17 で本格的に展開します。

独立性: 条件付けても確率が変わらない関係

確率の更新が機能するのは、病気と検査結果が独立でないことが前提です。数学的な定義としては P(A B) = P(A) P(B) の方が普遍的です。P(B) = 0 の場合の処理、対称性、3 事象以上への拡張のいずれでも扱いやすいです。一方、意味解釈としては P(A B) = P(A) の方が直接的で、「B が起きたという情報を得ても A の確率が変わらない」と読めます。本記事では意味解釈を主軸にしますが、教科書定義の数学的優位性は否定しません。

矩形では「縦帯のどこを切っても、上下の比率（陽性の割合）が同じ」状態です。病気帯でも健康帯でも、陽性の割合が全く同じなら「病気かどうか」と「検査結果」は独立です。これは「検査が全く役に立たない」状態を意味します。乳がん検査の例で言えば、もし独立だったら P(病気陽性) = P(病気) = 0.01 となり、検査は有病率の情報を何も追加しません。

P(A B) = P(A) の両辺に P(B) を掛けると P(A B) = P(A) P(B) が出ます。両者は同値であり、どちらを定義と呼ぶかは文脈次第です。独立性を「掛け算で求まる」とだけ覚えてしまうと、「情報が無意味」という核心を見落とします。

独立性と排反性は全く別の概念です。排反とは A B =（両方は同時に起きない）という条件で、確率で書くと P(A B) = 0 です。排反な事象は「一方が起きた瞬間にもう一方が起きないと確定する」という最も強い情報伝達をします。P(A B) = 0 P(A) ですから、排反な事象は独立ではありません。P(A) > 0 かつ P(B) > 0 ならば、排反事象は必ず従属です。

独立性の意味

独立性 P(A B) = P(A) は「条件付けても情報が運ばれない関係」を指します。これは排反性 A B =（一方が起きたら他方は絶対に起きない）とは正反対の概念です。排反は最強の（負の）情報伝達であり、独立ではありません。

矩形分割で動かす: 事前確率と尤度のスライダー

下のスライダーで有病率・感度・特異度を動かすと、各セルの面積と陽性的中率（事後確率）がリアルタイムに変わります。初期値は下表の Scene A（有病率 1%・感度 90%・特異度 91% → 事後確率 9.2%）に合わせてあります。

続く 3 枚は代表的な設定 A／B／C のスナップショットです。有病率と特異度を動かしたときの事後確率の変化を、固定の数値で確認できます（感度 90% は固定）。

Scene A: ベースライン（有病率 1%、特異度 91%）

Scene B: 有病率 10%（感度 90%、特異度 91% 固定）

Scene B では赤の病気縦帯が Scene A の 10 倍の幅になり、陽性横帯の中で病気セルが占める比率が大きく上昇して事後確率 52.6% に届きます。

Scene C: 特異度 99%（有病率 1%、感度 90% 固定）

Scene C では青の陽性横帯の高さが Scene A より低くなり、健康セルの陽性が縮小して事後確率が 47.6% まで上がります。

図の読み方: 3 枚とも横方向が有病状態（左が病気）、縦方向が検査結果（上が陽性）です。赤帯（病気帯）の幅が有病率、青帯（陽性横帯）の高さが陽性になる確率に対応します。事後確率は「赤帯と青帯が重なるセル」を「青帯全体」で割った比です。

Scene	有病率	感度	特異度	事後確率
A（ベースライン）	1%	90%	91%	約 9.2%
B（有病率 10 倍）	10%	90%	91%	約 52.6%
C（特異度 99%）	1%	90%	99%	約 47.6%

Scene A → B では有病率を 10 倍にしました。赤帯が太くなり、陽性帯の中で病気セルの割合が大きく増えます。結果として事後確率は 9.2% から 52.6% に、43.4 ポイント上昇します。Scene A → C では特異度を 91% から 99% に上げました。健康な人が陽性になる確率（偽陽性率）が 9% から 1% に下がり、陽性帯が薄くなります。その中で病気セルの相対的な割合が上がり、事後確率が 9.2% から 47.6% になります。

参考: 感度を 90% から 99% に上げた場合（有病率 1%・特異度 91% 固定）、事後確率は 0.99 × 0.01 / (0.99 × 0.01 + 0.09 × 0.99) ≈ 0.099 で約 9.9% にとどまります。感度は有病率や特異度と比べて事後確率をほとんど動かしません。

ベイズの定理は有病率・感度・特異度の 3 数を結ぶ関係式です。3 数のうち 1 つを変えるだけで事後確率が 10 倍規模で変わります。特に有病率（基準率）は、直感で軽視されやすいですが実際には事後確率を最も大きく動かす変数です。

読み取り方のポイント

事後確率を最も大きく動かすのは有病率（基準率）です。感度を同じだけ上げても事後確率はほとんど動きません。「感度 90%」という検査の精度より、「有病率 1%」という前提の方が結果を支配しています。

金融現場での使われ方

信用スコアの更新にベイズの定理が使われます。融資審査では「過去の返済実績」という情報（尤度）を受け取るたびに事前の信用度（事前確率）を事後確率に更新し、与信限度を見直します。カードの取引履歴が積み上がるほど、事後確率の推定精度は高まります。

シグナル統合ではベイズの逐次更新が利用されます。モメンタム・バリュー・クオリティの 3 つのファクターシグナルを独立に観測した場合、各シグナルを尤度として順次取り込み、「当該銘柄がリターン上位」という事象の事後確率を更新できます。1990 年に Goldman Sachs の Fischer Black と Robert Litterman が開発した Black-Litterman モデルは、市場均衡（事前確率）とアナリスト見解（尤度）をベイズ的に統合して事後リターン分布を導く実務的な枠組みです。条件付き VaR（CVaR）については stats-18 でベイズの条件付き期待値 E[X B] として再登場します。

ベイズ更新の本質

融資審査・ファクター統合・条件付き VaR は、どれも「新しい情報を得るたびに確率を掛け算で更新する」という同じ操作です。事前確率が精緻なほど、情報 1 件で動く事後確率は小さくなります。

次に学ぶこと

stats-08 では大数の法則と中心極限定理を扱います。本記事で確立した確率の言語（P(A), P(A B), P(A B)）はそのまま stats-08 でも使います。

Part 5（stats-17 ベイズ更新・stats-18 条件付き期待値）で、本記事の条件付き確率の枠組みが連続確率へ一般化され、E[X B] の形で本格的に展開します。

期待値

AlphaInsiders 編集部 — Sun, 24 May 2026 13:08:20 GMT

サイコロを 1 回振ったとき、期待値は 3.5 です。その 3.5 はサイコロのどの目とも一致しません。「期待値」という言葉は 1 回の試行結果ではなく、無限回振り続けたときの平均値を指しています。stats-01 で見た度数分布表の平均をそのまま確率で書き直したものが、この定義です。

はじめに

サイコロを 1 回振ったとき、出る目は 1・2・3・4・5・6 のどれかです。その期待値は 3.5 と計算されますが、3.5 はサイコロに存在しない目です。これは単純な矛盾のように見えます。

この違和感の根にあるのは、「期待値」という言葉が「1 回の試行で期待できる値」を意味していない、という事実です。統計学における期待値は「無限回繰り返したときの平均値」を指します。stats-05 で見た頻度主義の極限値の考え方がここに直結します。コインを無限回投げれば表の相対頻度が 0.5 に近づくのと同じ構図で、サイコロを無限回振れば観測平均が 3.5 付近に張り付きます。

サイコロの期待値 3.5 はサイコロに存在しない

この「無限回試行の平均」という読み方を、試行回数を増やしながら数値で確かめます。

3.5 は単一の試行結果ではなく、無数の試行を積み重ねたときに観測平均が収まっていく先として読みます。

サイコロを実際に振り続けたとき、観測平均はどう変化するでしょうか。以下の数値は教育用の典型値です。

試行回数 N	観測平均	3.5 との差
10	3.2	0.3
100	3.47	0.03
1,000	3.503	0.003
10,000	3.499	0.001

N = 10 のときは 3.2 という値が出ており、3.5 からの差は 0.3 あります。N = 10000 では 3.499 で、3.5 との差は 0.001 まで縮まっています。N が大きくなるにつれて、観測平均は 3.5 付近の細い帯に張り付いていきます。

stats-05 で見た「コインを 100 回投げると表の相対頻度が 0.5 付近に張り付く」のと同じ構図です。サイコロも各目が 1/6 ずつ出ます。だとすれば、各目の値にその出る割合を掛けて足し上げた数値が、長期的な観測平均の収まる先になります。

1 × (1)/(6) + 2 × (1)/(6) + 3 × (1)/(6) + 4 × (1)/(6) + 5 × (1)/(6) + 6 × (1)/(6)

この計算を手で追うと

(1 + 2 + 3 + 4 + 5 + 6)/(6) = (21)/(6) = 3.5

となります。6 つの目が各 1/6 の割合で出るので、平均はちょうど中間の 3.5 になります。この 3.5 という値は、1 回の試行で実際に現れる結果ではなく、無数の試行の集積として定まる数値です。

日本語の「期待」は「望ましいことが起きるだろうという見通し」を意味します。一方、統計学の「期待値」は感情的な期待とは無関係で、「無限回試行を繰り返したときの平均値」という技術的な定義を持つ言葉です。サイコロを振って 3.5 が出ることを期待しているわけではありません。

よくある誤解：期待値は願望ではない

「期待」という日本語のせいで「望ましい値が出る」と思いがちですが、期待値はただの加重平均です。サイコロの期待値 3.5 はどの目にも存在せず、「3.5 が出てほしい」という願望とも無関係です。

核心

期待値は「確率で重みを付けた加重平均」です。1 回の試行で実際に出る値ではなく、同じ試行を無限に繰り返したときに観測平均が落ち着く先を 1 つの数で表したものです。サイコロの期待値 3.5 がどの目とも一致しないように、期待値そのものが実現するとは限りません。

確率変数 X と実現値 x の区別

「サイコロを振った結果」を式で扱うとき、記号の使い方を一度整理しておく必要があります。大文字の X と小文字の x は別の意味を持ちます。

X は「サイコロを振ったらどんな値が入るかわからない箱」です。試行を行う前の段階では、1 が入るかもしれないし 6 が入るかもしれません。このような「試行の前に値が定まっていない量」を確率変数と呼びます。

x は「箱から出てきた具体的な数値」です。サイコロを実際に振って 3 が出たとき、x = 3 となります。試行後に実際に観測された値で、実現値と呼びます。「箱（試行前）」と「中身（試行後）」の違いです。

たとえば「箱に 3 が入る確率は 1/6」は P(X = 3) = 1/6 と書きます。X はまだ値が定まっていない箱で、その箱が 3 という値を取る確率が 1/6 だ、と読みます。「箱に 3 が入った」という事実は X = 3 と書きます。

確率変数を大文字 X で、実現値を小文字 x で表す慣習は、大阪大学をはじめとする日本の統計学教科書で標準的に採用されています。本記事以降もこの慣習に従います。

期待値の定義: stats-01 の平均を確率で置き換える

stats-01 で見た度数分布表の平均を思い出しましょう。値 x_i が度数 f_i 回観測され、データ総数が n のとき

x = Σ_i x_i · (f_i)/(n)

ここで x_i は値、f_i は度数、f_i / n は相対度数（その値が出た割合）です。

stats-05 で見たとおり、試行回数 n を無限に増やすと相対度数 f_i / n の極限が確率 P(X = x_i) に近づきます。つまり式の重みを「相対度数」から「確率」に書き換えると、度数分布表の平均がそのまま期待値の定義になります。

E[X] = Σ_i x_i · P(X = x_i)

記号の読み方

E[X] の E は expectation（期待）の頭文字、Σ はギリシャ文字シグマ（Σ）で「全部足す」の略記です。E[X] = Σ_i x_i P(X = x_i) は「各値にその確率を掛けて、全部足す」と読みます。

E[X] は「確率変数 X の期待値」を表す記号です。Σ_i は取りうるすべての値 x_i について足し合わせることを意味します。各値 x_i にその値が出る確率 P(X = x_i) を掛けて、足し上げます。（本記事では離散確率変数のみを扱います。連続型の場合は Σ が積分に置き換わりますが構造は同じで、stats-09 以降で扱います。）

この E[X] = Σ_i x_i P(X = x_i) が期待値の数学的定義です。「無限回試行の平均」という直感は、この定義から大数の法則によって導かれる帰結であり、stats-08 で扱います。

サイコロで確認します。取りうる値は x_i = 1, 2, 3, 4, 5, 6 で、各値の確率は P(X = x_i) = 1/6 です。

E[X] = 1 × (1)/(6) + 2 × (1)/(6) + 3 × (1)/(6) + 4 × (1)/(6) + 5 × (1)/(6) + 6 × (1)/(6) = (21)/(6) = 3.5

節 2 で手で追った数値と一致しました。

宝くじの例も考えます。1 等当選 1 億円が確率 10^-7、外れは 0 円という単純化した仮想くじの期待値は

E[X] = 10^8 円 × 10^-7 + 0 円 × (1 - 10^-7) = 10 円

となります。1 枚 300 円のくじを無限回買い続ければ、1 回あたり平均 290 円の損になります。そして「期待値 10 円」というのもサイコロの 3.5 と同じで、実際には出ない値です。外れか 1 億円かの二択であり、10 円が実際に支払われることはありません。期待値は長期平均として正確ですが、単一の試行結果としては存在しない値です。

期待値の線形性 E[aX+b] = aE[X]+b

期待値には代数的に扱いやすい性質があります。定数 a, b と確率変数 X について

E[aX + b] = aE[X] + b

が成り立ちます。これを期待値の線形性と呼びます。

具体的に確認します。X をサイコロの目（E[X] = 3.5）として、Y = 2X + 1 とおくと、線形性から E[Y] = 2 × 3.5 + 1 = 8 です。定義式から直接計算しても

E[Y] = 3 × (1)/(6) + 5 × (1)/(6) + 7 × (1)/(6) + 9 × (1)/(6) + 11 × (1)/(6) + 13 × (1)/(6) = (48)/(6) = 8

となり、同じ結果が得られます。

もう一つの線形性があります。X と Y が任意の確率変数のとき

E[X + Y] = E[X] + E[Y]

が成り立ちます。ここで X と Y の独立性は一度も使っていません。

「独立でなくても成り立つ」とはどういうことでしょうか。X をサイコロを 1 回振った目として、Y = X（同じ試行のコピー、完全従属）とします。X が決まれば Y は自動的に X と同じ値になります。この完全従属の場合でも

E[X + Y] = E[2X] = 2 × 3.5 = 7

E[X] + E[Y] = 3.5 + 3.5 = 7

の両方が 7 で一致します。独立性を要求しない線形性なので、X と Y が何らかの関係を持っていても式は成り立ちます。この線形性が次節の二項分布の期待値計算で直接使われます。

線形性の強さ

X と Y が独立でなくても E[X+Y] = E[X]+E[Y] が成り立ちます。これが期待値の線形性が代数的に強力な根拠です。分散には同様の無条件の性質がなく、期待値だけがこの強さを持っています。

E[X+Y] = E[X]+E[Y] の証明を見る（独立性を一度も使わない）

X が取りうる値を x_i、Y が取りうる値を y_j として、同時確率分布 P(X = x_i, Y = y_j) から出発します。

E[X + Y] = Σ_i Σ_j (x_i + y_j) P(X = x_i, Y = y_j)

これを展開すると

= Σ_i Σ_j x_i P(X = x_i, Y = y_j) + Σ_i Σ_j y_j P(X = x_i, Y = y_j)

第 1 項では j について先に和を取ります。Σ_j P(X = x_i, Y = y_j) = P(X = x_i) は周辺分布への集約で、独立性を使いません。同様に第 2 項では i について先に和を取ると Σ_i P(X = x_i, Y = y_j) = P(Y = y_j) になります。

= Σ_i x_i P(X = x_i) + Σ_j y_j P(Y = y_j) = E[X] + E[Y]

証明の中で P(X = x_i, Y = y_j) = P(X = x_i) P(Y = y_j)（独立性）を一度も使っていません。同時確率分布の周辺化だけで結論に到達しています。

なお、期待値の演算子 E[·] は加法と定数倍については素通りしますが、一般の関数 g については E[g(X)] と g(E[X]) は異なります（詳細は stats-09 以降で扱います）。

線形性の威力: 二項分布の期待値が 2 行で出る

ベルヌーイ確率変数から始めます。

コインを 1 回投げて表が出たら X = 1、裏が出たら X = 0 とします。表が出る確率を p とすると P(X = 1) = p、P(X = 0) = 1 - p です。このような 0 か 1 かの 2 値を取る確率変数をベルヌーイ確率変数と呼びます。

ベルヌーイ確率変数の期待値は定義式から直接計算できます。

E[X] = 1 · p + 0 · (1 - p) = p

公平なコインなら p = 1/2 なので E[X] = 0.5 です。コインを 1 回投げたときの期待値は 0.5 で、これもサイコロの 3.5 と同じく実際には出ない値です（表か裏かの二択で 0.5 は出ません）。

次に、コインを n 回独立に投げて表が出た合計回数を X とします。X の取りうる値は 0, 1, 2, …, n です。ちょうど k 回表が出る確率は

P(X = k) = nk p^k (1-p)^n-k

で与えられます。ここで nk は「n 個の試行から k 個の成功を選ぶ組み合わせの数」です。この確率分布を二項分布 B(n, p) と呼びます。

この X の期待値を定義式から素朴に計算しようとすると、次の重い式が現れます。

E[X] = Σ_k=0^n k nk p^k (1-p)^n-k

結果だけ先に言うと E[X] = np になりますが、この式から np を取り出すには多段の計算が必要です。

二項分布 E[X] = np の素朴計算による導出を見る

k = 0 の項は 0 なので Σ_k=1^n から開始します。nk = (n!)/(k!(n-k)!) を展開して k を消去すると

k nk = n n-1k-1

が成り立ちます。また p^k = p · p^k-1 と書き直して np を括り出します。

E[X] = np Σ_k=1^n n-1k-1 p^k-1 (1-p)^n-k

j = k - 1、m = n - 1 と変数置換すると

= np Σ_j=0^m mj p^j (1-p)^m-j

二項定理より Σ_j=0^m mj p^j (1-p)^m-j = (p + (1-p))^m = 1 なので

E[X] = np

多段計算でようやく np が出ました。

同じ結果を線形性で導くと 2 行で完了します。各 i 回目の試行結果を X_i（成功確率 p のベルヌーイ確率変数）とおくと、n 回の合計は X = X_1 + X_2 + … + X_n です。各 E[X_i] = p と線形性 E[X_1 + … + X_n] = E[X_1] + … + E[X_n] から

E[X] = E[X_1] + E[X_2] + … + E[X_n] = p + p + … + p = np

素朴計算では変数置換と二項定理の 4 ステップが必要でしたが、線形性では E[X_i] = p という 1 行の事実を n 回足すだけです。

B(100, 1/2) の期待値は E[X] = 100 × 1/2 = 50 です。stats-05 で「コイン 100 回投げの中心は 50」と書いていた数字が、ここで代数的に確定します。

核心

線形性を使うと E[B(n,p)] = np が 2 行で出ます。素朴計算では多段の展開が必要ですが、X = X_1 + X_2 + … + X_n（各 X_i はベルヌーイ確率変数）と分解して線形性を適用するだけで完了します。この 2 行の導出が線形性の計算上の威力を示す典型例です。

サイコロ観測平均の軌跡（N = 10 〜 10000）

節 2 では N = 10, 100, 1000, 10000 の 4 点の静的な数値表を見ました。下の図は同じ「サイコロを N 回振ったときの観測平均」を軌跡として描いたものです。

サイコロ観測平均の収束: N 回振ったときの累積平均の軌跡

横軸は累積試行回数、縦軸はそこまでの観測平均です。青い折れ線が 1 本の実験の軌跡で、赤い破線が理論期待値 3.5 を示しています。

N = 10 付近では折れ線が 3.5 の上下に大きく振れます。N = 100 に近づくと折れ線は 3.5 付近の細い帯に張り付き、赤い破線とほぼ重なって見えます。これが「期待値 = 無限回試行の平均」を図として確認したものです。N = 100 付近での収束はこの図で視覚的に追えます。N をさらに増やしたときの数値（N = 10000 で差は 0.001）は節 2 の数値表で確認できます。

金融での登場場面: 期待リターンと保険料

株式の期待リターン E[R] は、過去 N 営業日のリターン r_1, r_2, …, r_N の標本平均として推定するのが基本です。各営業日のリターンを「1 回の試行結果」と見なして確率変数 R に当てはめ、その期待値を過去データから計算します。stats-05 で扱った「相対頻度の極限が確率」という構図が、ここでも同じ形で出てきます。

保険料の設計は期待値の直接的な応用です。火災保険を例に取ると、保険会社は「年間の期待損害額（損害額 × 損害発生確率の和）+ 経費 + マージン」を基に保険料を設定します。保険会社は期待値を上回る価格で契約を売り、契約者は期待値を下回る支出で大損失のリスクを回避します。その差額が安心の対価です。トレードの期待収益 E[R]、Kelly 基準、リスク中立確率といった概念も期待値を土台にしており、詳細は補足記事と実践記事で扱います。

期待値が定義できない例の予告

期待値は必ず有限の値として定まるとは限りません。Cauchy 分布という連続型分布は、期待値を計算しようとすると +∞ - ∞ の不定形になり、期待値そのものが定義できません。Saint Petersburg のパラドックスでは「コインを表が出るまで投げ続け、n 回目に初めて表が出たら 2^n 円もらえる」という賭けの期待値が正の無限大に発散します。詳細はそれぞれ補足記事に分けてあります。

「期待値が未定義（Cauchy）」と「期待値が無限大（Saint Petersburg）」は別物です。前者は期待値が「存在しない」、後者は期待値が「無限大として確定している」。どちらも「有限の期待値が存在する」という条件を満たさない点は共通で、この条件は stats-08 の大数の法則・中心極限定理が前提として要求します。

次に学ぶこと

次回 stats-07「条件付き確率とベイズの面積」では、情報が増えたときに確率がどう変化するかを面積を使って扱います。本記事で導入した X、P(X = x)、E[X] の言語が、stats-07 以降でもそのまま使われます。

Part 2 の流れをまとめます。

stats-05: 確率の直感（頻度主義の極限値、Kolmogorov の三公理）
stats-06: 期待値
stats-07: 条件付き確率とベイズの面積
stats-08: 大数の法則と中心極限定理

stats-08 では本記事で証明した線形性 E[X_1 + … + X_n] = nE[X_1] が大数の法則の証明の中核として戻ってきます。

確率の直感

AlphaInsiders 編集部 — Sun, 24 May 2026 10:20:51 GMT

コインを 100 回投げて、表が 57 回出ました。このコインは偏っているのでしょうか。「57 回は半分より多いから偏っている」という声と「これくらいの誤差はある」という声が、頭の中で同時に上がります。どちらが正しいかを答えるには、「確率 1/2」という言葉の中身を先に整理しなければなりません。

はじめに

「確率 1/2」という同じ言葉が複数の中身を指しているため、整理なしに議論を始めると噛み合いません。中身を切り分け、100 回投げで表 57 回という具体数値を両者の枠で判定します。

Part 1（stats-01〜04）は手元のデータを記述する道具を揃えました。stats-04 で習った z スコアが、本記事の「公平の幅」判定にそのまま役に立ちます。Part 2 はここ（stats-05）から始まり、確率という不確実性の言語を扱います。

「確率 1/2」に詰め込まれた中身

「コインの表が出る確率は 1/2」と聞いたとき、頭の中にいくつかの声が上がります。「100 回投げれば 50 回ちょうど表が出る」という声。「無限回投げ続ければ表の比率が 1/2 に落ち着く」という声。「このコインが公平だと信じている」という声。

「100 回投げれば 50 回ちょうど表が出る」は確率の中身ではなく、確率に対する誤った期待です。公平なコインを 100 回投げて、ちょうど 50 回表が出る確率は約 8% にすぎません。残り 92% の場合は 50 以外の回数になります。50 ぴったりは特別な数字ではありません。

残る 2 つが確率の正しい中身です。「無限回投げ続ければ表の比率が 1/2 に収束する」という考え方を頻度主義と呼びます。確率を「同じ試行を無限に繰り返したときの相対頻度の極限値」と定義する立場です。

「このコインが公平だと信じている」という考え方は主観確率と呼びます。確率をその事象を信じている度合いとして定義する立場で、「賭けに応じる比率」として操作的に測ることができます。

本記事はこの 2 つの中身を別々に扱い、Kolmogorov 三公理節で両者が共通の土台の上に乗ることを確認します。上で潰した「誤った直感（必ず半々）」は確率の中身ではなく先に除外した対象であること、残る 2 つが別の問いにそれぞれ答えていることが本記事の軸です。

コイン 100 回投げで表 57 回。これは偏っているのか

同じ 57 回というデータでも、確率という言葉のどの中身を採るかで答え方が違います。

同じ 57 回というデータでも、頻度主義と主観確率では答え方が違います。これは 2 立場が「同じ問い」に異なる答えを出すのではなく、そもそも「論点が違う」からです。

n は試行回数（コインを投げる回数）、p は 1 回の試行で表が出る確率、S_n は n 回の試行で表が出た回数です。公平なコインなら p = 1/2。n = 100、p = 1/2 のとき、S_n の期待値（平均、x に対応する）は E[S_n] = np = 100 × 0.5 = 50、標準偏差は次の式で求まります。

_S_n = √(np(1-p)) = √(100 × 0.5 × 0.5) = √(25) = 5

この式は「1 回の投げで表が出るかどうか」の分散が p(1-p) = 0.25 であり、独立な n 回の試行では分散が n 倍されることから来ています（詳細は stats-08 で整理します）。

公平なコインを 100 回投げると、表の回数は中心 50 のまわりに σ = 5 の幅で散ります。100 回投げても表がちょうど 50 回になるとは限りません。「50 ± 5 の範囲」つまり 45〜55 の範囲に収まることでさえ、全部のケースが網羅されるわけではありません。

下の図は、横軸を 100 回中の表の回数、縦軸を「公平なコインのもとでの起こりやすさ」として描いた釣鐘型の山です。中心 50 を頂点に、両端に向かって低くなります。青い帯（±2σ、つまり 40〜60）が「公平の幅」を示しています。観測値 57 は帯の中に収まっています。

公平コイン 100 回投げの分布と観測値 57

図の読み方: 横軸は 100 回中の表の回数。中心 50 から青い帯（±2σ）の内側が公平の幅。stats-04 で見た Bollinger Band の ±2σ 境界と同じ発想を援用しています。観測値 57 は赤い点で、帯の中に収まっています。

2 立場の答え方の違い

同じ観測値 57 に対して、頻度主義は「公平な分布の中で 57 は何σ離れているか」を問い、主観確率は「この観測で『公平』という事前信念がどれだけ動くか」を問います。答える主題が違うので、両者は対立しません。

stats-04 で見た Bollinger Band の発想を使います。± 2σ を「典型範囲の境界」とする発想です。本記事ではさらに ± 3σ を「異常」の目安として加えます。z スコアは z = (m - 50) / 5 で計算できます（ここでの m は観測された表の回数）。57、65、90 の 3 つの観測値で計算した結果を示します。

表の回数 m	z = (m-50)/5	判定	根拠
57	z = 1.4	公平の幅内	z = 1.4 < 2（Bollinger Band の ± 2σ 境界の内側、stats-04 援用）
65	z = 3.0	公平を超える	z = 3.0 ≥ 3（± 2σ の境界を超え、± 3σ に到達）
90	z = 8.0	公平とは思えない	z = 8.0（次段で概算を示す）

では z = 8.0 の桁感を確認します。100 回投げの表の回数は、公平コインのもとで釣鐘型（正規分布に近い形）の分布に従うことが知られています。詳しくは stats-08 で扱う中心極限定理が背景にあります。この釣鐘型の分布で z = 8 になる確率は正規近似値で P(|Z| ≥ 8) ≈ 10^-15（Z は標準正規分布に従う確率変数）。これは正規近似値であり、二項分布の点確率 P(X = 90) ≈ 1.36 × 10^-17 よりやや甘い見積もりです。いずれにせよ天文学的に起こりえない確率に変わりはありません。

公平なコインで 90 回表が出ると主張するのは、確率 10^-15 の結果を「普通の揺らぎ」と呼ぶことです。

頻度主義の立場では、公平な分布（n=100, p=1/2）のもとで 57 回は z = 1.4、|z| < 2 の範囲に収まっています。「このコインは公平だとして、57 回という観測は特別に珍しいか」という問いへの答えは「珍しくない」です。もっと長く投げ続けて相対頻度が安定するのを待つ。それが頻度主義の立場です。

主観確率の立場では、「公平」という事前信念を持って観測を始めた人は、57 回という結果を見ても事後の信念をわずかしか動かしません。z = 1.4 は統計的に珍しくないからです。「このコインは少し歪んでいる疑いを持っている」という事前信念を持つ人は、同じ 57 回でより大きく信念を動かします。事前信念の初期値が違う分、観測を受けた後の信念の変動幅も変わります。この「事前信念が観測によってどう動くか」の数式は、stats-07 のベイズ更新で明らかになります。

中身 1: 無限回投げの比率の極限（頻度主義）

以下は教育用に作成した架空の実験データです。コインを 100 回投げ、表が出た回数を 10 回ごとに記録します。

投げた回数 N	そこまでの表の回数 k_N	相対頻度 k_N / N
10	4	0.40
20	11	0.55
50	24	0.48
100	57	0.57

N = 10 の時点では相対頻度 0.40 と真の確率 0.5 からずれています。N = 20 では 0.55 に上がりました。N = 50 では 0.48 に近づきましたが、N = 100 では再び 0.57 に遠のきました。このように、有限回では相対頻度が大きく揺れます。

A を注目する事象（コイン 1 回投げで「表が出る」）、N を試行回数、k_N を N 回中で事象 A が起きた回数とすると、N 回までの相対頻度は k_N / N となります。頻度主義の確率は N を限りなく大きくしたときの極限値として定義します。

P(A) = _N ∞ (k_N)/(N)

同じ実験を 1000 回まで続けると次の値になります。

投げた回数 N	そこまでの表の回数 k_N	相対頻度 k_N / N
100	57	0.570
200	106	0.530
500	251	0.502
1000	503	0.503

N = 200 で 0.530、N = 500 で 0.502、N = 1000 で 0.503 と、0.5 付近に張り付いてくるのが分かります。N が小さいときは大きく揺れ、N が大きくなると揺れが小さくなって値が安定します。頻度主義の確率 1/2 は、この安定先の「極限値」です。

von Mises（1919）はこの考え方を体系化し、確率を「頻度極限」として定義することを試みました。ただしこの定義には「極限が存在するかどうか自体が仮定に依存する」という問題があり、実際の試行列で相対頻度が必ず極限に収束する保証は数学的に与えづらく、収束を仮定として置くと循環論法に陥りやすい点が公理化の動機の 1 つになりました。また、「明日の降水確率 70%」のような 1 回限りの事象には、同じ条件で無限回繰り返すという発想が直接は適用できません。相対頻度が真の確率に収束する事実は、「大数の法則」として定理化されています。詳しくは stats-08 で扱います。

中身 2: 賭けに応じる比率としての主観確率

「このコインが公平だと 70% 信じている」という言明は、客観的な裏付けが取れないように聞こえます。しかし Ramsey（1926）と de Finetti（1937）は、主観確率を「気持ち」ではなく「賭けに応じる比率」として操作的に測れることを示しました。Ramsey の論文は生前未発表で 1931 年に遺稿として出版されました。

主観確率は賭けの比率として測れる

Ramsey（1926）は「信念の度合いを賭けに応じる比率として測る」という操作的定義を提示しました。de Finetti（1937）はこれをさらに「Dutch book 論証」で精密化しました。「気持ち」に見えた量を、お金で動く行動として観測できます。

「表が出たら 100 円もらえる」賭けに何円まで出せるかを考えます。70 円なら賭けるが 71 円なら賭けない人は、表が出ることの主観確率をちょうど 70/100 = 0.70 と持っています。この「賭けに応じる最大金額÷賞金」の比率が主観確率の操作的定義です。70 円まで出すということは、期待値 = 0.70 × 100 − 70 = 0 と判断していることに対応します。

では「一貫性のない賭けレート」を持つとどうなるでしょうか。de Finetti が示した「Dutch book 論証」の核心はここにあります。「表が出る確率 = 0.7」と「裏が出る確率 = 0.4」を同時に持つ人は、確率の合計が 0.7 + 0.4 = 1.1 ≠ 1 となります。これは公理 2（P(Ω)=1）と公理 3（排反事象の加法性）を組み合わせると P(表)+P(裏)=1 が要請されますが、0.7 + 0.4 = 1.1 はこれに違反します。この状態では、それぞれの賭けを組み合わせることで必ず損する賭けの組み合わせを作られます。損する賭けの組み合わせを Dutch book と呼びます。合計が 1 を下回る場合（例: 表 = 0.3、裏 = 0.2 で合計 0.5）も同様に Dutch book が成立します。合計が 1 でないこと自体が問題の核心です。Dutch book を作られないための必要十分条件が「確率の公理を満たすこと」になります。Dutch book 論証の数式展開は補足記事で扱います。

頻度主義は無限回の実験という理想化された操作で値が決まります。主観確率は信念という内的状態で値が決まります。測定方法も値を変える仕組みも異なります。しかし両者とも 0 以上 1 以下の数値として、同じ確率の規則（次節の Kolmogorov 公理）を満たします。

Kolmogorov 三公理: 解釈の対立を共通土台に乗せる

確率の「中身」をめぐる対立は 200 年以上続きました。Kolmogorov（1933）はこの対立を解消したのではなく、両立場が共通で従うべき計算の土台を整備しました。

Laplace（1812）の古典的確率 P(A) = |A|/|Ω| は「同様に確からしい場合の数の比」という定義で、サイコロやコインに威力を発揮しました。本記事で確率の「中身」として古典的確率を独立に立てなかった理由は、この後すぐ循環論法が露呈するからです。現代では Kolmogorov 公理に吸収された位置づけになっています。

Bertrand（1889）の逆説がその循環論法を示しました。「円に内接する正三角形の一辺より長くなるランダムな弦の確率は？」という問題に、「ランダムに弦の端点を選ぶ」「ランダムに弦が通る径上の点を選ぶ」「ランダムに弦の中点を選ぶ」の 3 通りで 1/3、1/2、1/4 と異なる答えが出ます。「同様に確からしい」の定義が曖昧なとき Laplace 流の古典的確率は答えが変わります。詳細は補足記事で扱います。

von Mises（1919）の頻度極限定義は「明日の降水確率」のような 1 回限り事象を扱えません。Ramsey と de Finetti の主観確率は客観性の担保が難しいです。それぞれが持つ問題点は残ったままでした。

Kolmogorov は 1933 年にドイツ語で公刊した『確率論の基礎概念』（Grundbegriffe der Wahrscheinlichkeitsrechnung）で、測度論を基礎に 3 つの公理から確率論を組み立てました。その核心は「確率の定義と確率の解釈を切り離した」ことです。確率は公理を満たす関数です。何の現実を表すかは解釈の問題として別に扱います。

Kolmogorov 1933: 定義と解釈を切り離した

Kolmogorov の公理化（1933）は頻度主義と主観確率の対立を「解消」したのではありません。両者が共通で従うべき土台を整備しました。頻度主義でも主観確率でも、確率と呼ぶには 3 公理を満たす必要があります。200 年の対立は続いていますが、数学的な計算はこの土台の上で統一されています。

3 公理は次の通りです。

非負性: P(A) ≥ 0（確率は 0 以上）
全体測度: P(Ω) = 1（標本空間 Ω 全体の確率は 1）
可算加法性: 互いに排反な事象 A_1, A_2, … について P(A_1 A_2 …) = P(A_1) + P(A_2) + …

Ω（標本空間）は「起こりうる結果すべての集まり」です。コイン 1 回投げなら、表と裏の 2 つが Ω になります。3 公理を確認します。表が出る確率を P(表) = 1/2 とすれば P(表) = 1/2 ≥ 0（公理 1）。表と裏は互いに排反で P(表) + P(裏) = 1/2 + 1/2 = 1 = P(Ω)（公理 2 と 3）。3 つとも満たしています。

幾何的なアナロジーとして、確率を面積として見ることができます。Ω を矩形全体と思い、事象 A をその中の部分領域とします。P(A) はその領域の面積を全体面積で割った比率です。公理 1 は「面積は 0 以上」、公理 2 は「全体の面積が 1」、公理 3 は「重ならない領域の面積は足せる」という日常感覚そのものです。この面積のイメージは stats-07（ベイズの面積）でそのまま使います。

確率を面積で見る: Ω = [0, 1] の中で事象 A・B を表す

横軸は Ω = [0, 1]、縦軸も [0, 1] で全体が 1 × 1 = 面積 1 の矩形。青い領域が事象 A（幅 0.6）、橙色の領域が排反な事象 B（幅 0.3）。それぞれの面積がそのまま P(A) = 0.6、P(B) = 0.3 になります。A B =（重ならない）なので公理 3（加法性）から P(A B) = 0.6 + 0.3 = 0.9、残った白い領域の面積 0.1 が P((A B)^c) = 1 - 0.9 に対応します。確率の 3 公理がそのまま面積の常識と一致します。

3 公理から導かれる基本性質

3 公理から以下の性質が導かれます。

余事象:

P(A^c) = 1 - P(A)

A と A^c（A が起きない事象）は互いに排反で、合わせて Ω 全体になります。公理 3 より P(A) + P(A^c) = P(Ω) = 1、したがって P(A^c) = 1 - P(A)。コイン投げなら P(裏) = 1 - P(表) = 1 - 1/2 = 1/2。

加法定理:

P(A B) = P(A) + P(B) - P(A B)

A と B が重なる部分は二重に数えられるので引きます。面積アナロジーで考えると「2 つの領域を合わせた面積 = A の面積 + B の面積 - 重なりの面積」という日常の面積計算と同じです。

賭博者の誤謬: コインに記憶はあるか

コインを投げて 10 回連続で表が出たとしましょう。「さすがに次は裏が出やすい」という感覚は、多くの人が持つ直感的な確信です。

賭博者の誤謬

「10 回連続で表が出たから、次は裏が出やすい」は賭博者の誤謬（gambler's fallacy）と呼ばれる独立性の誤解です。コインの試行は独立なので、11 回目に表が出る確率は依然 1/2 です。

コインの試行は互いに独立です。独立とは「過去の結果が次の試行の確率に影響しない」という性質で、数式では P(A B) = P(A) × P(B) と表現されます（詳細は stats-06 で扱います）。10 回連続表の後でも、11 回目にコインを投げたとき表が出る確率は 1/2 のまま変わりません。コインは過去の結果を記憶しません。

賭博者の誤謬は独立性の否定

「10 回連続表の後は裏が出やすい」という直感は、独立な試行では誤りです。過去の結果は次の確率を変えず、表が続いても次に表が出る確率は 0.5 のままです。コインは過去を覚えていません。

しかし「10 回連続表」という結果は、「このコインは公平だ」という主観的信念（事前信念）にとって珍しい事象です。n = 10、m = 10（m は表が出た回数）の場合、z スコアは次のように計算できます。

z = (10 - 10 × 0.5)/(√(10 × 0.5 × 0.5)) = (10 - 5)/(1.58) ≈ 3.16

≈ 3.16 は公平の幅

< 2 を超えています。この観測が「公平だ」という信念を下げる合理的な理由になります。主観確率を持つ人は、この観測で「公平」という信念を更新します。

賭博者の誤謬は頻度主義を混乱した形で適用した誤りです。「10 回連続表の後で裏が出やすくなる」というのは「将来の試行が過去の結果に依存する」と言っているのと同じで、独立性の否定になります。コインが独立な試行であれば誤謬で、コインが歪んでいる疑いを更新した主観確率の話であれば合理的な推論です。

相対頻度の収束（alphaviz）

頻度主義節の表は 100 回止まりでした。下の図は同じコイン投げを累積で追います。横軸を累積試行回数（N）、縦軸をそこまでの表の比率（k_N / N）として折れ線で描いたものです。青い折れ線が実験 1 本の軌跡、赤い破線が理論値 0.5 を示します。

相対頻度の収束: コインを N 回投げたときの k_N / N の軌跡

図の読み方: 横軸はコインを投げた回数 N、縦軸はそこまでの表の相対頻度 k_N/N。青い折れ線が 1 回の実験の軌跡、赤い破線が理論値 0.5 を表す。

N = 10 付近では折れ線が 0 から 1 近くまで大きく振れます。N = 100 に近づくと折れ線は 0.5 付近の細い帯に張り付きます。収束先はいつも 0.5 付近です。頻度主義節の式 P(A) = _N ∞ k_N / N が、この収束として目に見えています。

上の図は seed を固定した 1 例です。下の図では自分でコインを投げられます。「100 回投げる」を何度か押すと、毎回違う軌跡をたどっても表の割合が最後は真の確率に張り付くのが分かります。真の確率 p を変えれば、収束先もそれに合わせて動きます。

金融での登場場面

「明日の株価は上昇する確率 60%」という言明は金融現場で日常的に聞きます。この 60% は 2 種類の意味に分かれています。過去 100 トレードで 60 勝 40 敗という記録があれば、それは頻度主義的な確率で「過去の勝率」です。トレーダーが「今日の地合いを見て 60% だと思う」と言うときは、主観確率として個人の信念を数値化しています。同じ「60%」でも依拠するデータと更新のルールが違います。

オプション価格から逆算される確率は、さらに別の意味を持ちます。市場価格から計算されるリスク中立確率 Q は、実際の世界の確率（実確率 P）とは原理的に異なる測度です。リスク中立確率は「すべての資産の期待リターンがリスクフリーレートになるよう調整された仮想の確率」で、オプション評価に使う計算上の道具です。クオンツ入門シリーズで詳しく扱います。

モンテカルロ法で VaR（バリュー・アット・リスク）を計算するとき、試行回数 n を増やすと相対誤差が 1/√(n) で縮みます。1 万回のシミュレーションを 100 万回に増やすと誤差が 1/10 になります。この 1/√(n) の収束は、先に見た相対頻度の安定と同根の性質で、stats-08 の大数の法則として正当化されます。

次に学ぶこと

次回 stats-06「期待値」では、確率変数の言葉を導入し、無限回平均としての期待値とその線形性を扱います。本記事の頻度主義の式 P(A) = _N ∞ k_N / N が、確率変数の期待値 E[X] として一般化されます。

Part 2 の流れは stats-05（確率の直感）→ stats-06（期待値）→ stats-07（条件付き確率とベイズの面積）→ stats-08（大数の法則と中心極限定理）です。stats-08 では、本記事で見た「コイン 100 回投げで相対頻度が 0.5 付近に落ち着く」という事実が、大数の法則として正式に定理化されて戻ってきます。

標準化と z スコア

AlphaInsiders 編集部 — Sat, 23 May 2026 12:19:26 GMT

数学のテストで 75 点、英語のテストで 80 点を取ったとします。英語の方が点数は高いです。ただ「クラスの中でより上位か」を素点だけで判断することはできません。数学の平均は 60 点でクラスの散らばりは σ = 10 点、英語の平均は 70 点で散らばりは σ = 5 点というデータが手元にあったとして、素点の差だけで比べるのは平均もばらつきも無視した比較になります。

単位もスケールも違う 2 つの数字を、同じ軸で比べるには何が必要でしょうか。stats-02 で学んだ平均 μ と標準偏差 σ を使えば、「平均から何 σ 離れているか」という単位のない数に変換できます。この変換が標準化で、変換後の値が z スコアです。

Part 1（平均・分散・分布の形）はここで最終回です。stats-01 で中心（平均と中央値）、stats-02 で広がり（分散と標準偏差）、stats-03 で形（歪度と尖度）を揃えました。stats-04 はその道具立てを使い切り、「記述統計の道具を単位の共通軸に乗せる」操作を担当します。次回 stats-05 では、これらが「確率変数」の言葉に拡張されます。

なぜこの道具が必要か

数字を表で並べると構造が見えます。

科目	太郎の点数	クラス平均 μ	標準偏差 σ	平均との差 x − μ
数学	75 点	60 点	10 点	+15 点
英語	80 点	70 点	5 点	+10 点

素点で見ると英語（80 点）が数学（75 点）より高いです。平均との差で見ると数学（+15 点）が英語（+10 点）より大きいです。素点でも平均差でも、どちらが「本当にすごいか」の答えは出ません。

ここで「平均との差を σ で割る」操作を加えます。数学では +15 点 ÷ 10 点 = +1.5、英語では +10 点 ÷ 5 点 = +2.0 となります。この数字で比べると英語の方が上です。

英語の方が σ で割ったとき値が大きくなるのは、英語のクラスはばらつきが小さく（σ = 5）、同じ 10 点の差が「珍しさ」として大きく効いているからです。σ が小さい集団では、全員の点数が平均の近くに密集します。その中で 10 点も上にいるというのは、σ = 10 のクラスで 10 点上にいるより、統計的にずっと希少な位置です。裏返せば、「σ が大きいクラスでは 10 点の差は珍しくない」と言えます。

「平均との差をそのまま比べてはいけない理由」を別の角度から言うと、点数の単位（点）同士を比べているうちは「1 点の重さ」がクラスごとに違うからです。数学クラスでは 1 点の重みが薄く、英語クラスでは 1 点の重みが濃いです。σ で割ることで、その重さを揃えます。

下の図は、その「揃える」操作を 2 本の数直線でやっています。μ を中央、±σ を同じ間隔に揃えると、ドットの位置がそのまま z スコアになります。数学 75 点（z = 1.5）と英語 80 点（z = 2.0）を同じ軸に乗せると、素点では英語が上、相対位置でも英語がさらに上だと一目で分かります。生点を動かすと、σ が小さい科目ほど同じ点差でも z が大きくなるのを確かめられます。

Karl Pearson と正規分布表

z スコアという発想の背景には 19 世紀末の計算実務があります。Karl Pearson は 1895 年の論文（Phil. Trans. R. Soc. A, vol. 186, DOI: 10.1098/rsta.1895.0010）で歪度・尖度の概念を体系化しましたが、確率の計算には正規分布表が不可欠でした。正規分布表は「z という単位のない軸」に沿って確率値を並べたもので、どんな平均・σ のデータでも z に変換してから表を引けば確率が読める設計になっています。z スコアへの標準化は、この「表を引くための前処理」として計算上の必然でした。

直感: 平均を原点に動かす

「μ を引く」だけの操作から見ていきます。σ で割るのはその後です。

数学クラスのいくつかの点数を数直線に乗せると、60, 70, 75, 80, 90 という点が並びます。この数直線の 0 点は「点数がゼロ」を意味していて、平均の 60 点は特別な位置に見えません。ここから全員の点数に μ = 60 を引くと、数直線の原点が平均の位置に来ます。60 → 0、70 → 10、75 → 15、80 → 20、90 → 30 となります。

平均より下の点数も同じ操作を受けます。55 点のとき、55 − 60 = −5 点。負の数は「平均より下に 5 点いる」ことを意味します。stats-02 で「偏差」と呼んでいたものがこれです。μ を引くと、各データ点の偏差が並んだ数直線になります。

μ を引いた後の数直線には「原点 = 平均」という意味が生まれました。これで全員の点数が「平均からの距離」として読めます。ただしまだ単位は「点」のままで、数学クラスと英語クラスの比較には使えません。

標準偏差を 1 目盛りに引き直す

μ を引いた数直線（0, 10, 15, 20, 30）を σ = 10 で割ります。10 ÷ 10 = 1.0、15 ÷ 10 = 1.5、20 ÷ 10 = 2.0、30 ÷ 10 = 3.0 となります。この数直線では「1 目盛り = 1σ」です。平均から 1σ 分離れた点が「1」、2σ 分離れた点が「2」に来るように目盛りを引き直しました。

英語クラス（μ = 70、σ = 5）で同じことをします。80 点のとき、80 − 70 = 10 点、10 点 ÷ 5 点 = 2.0。数学の 75 点が 1.5 になり、英語の 80 点が 2.0 になります。この 2 つの数字はどちらも「単位のない数」なので、並べて比べられます。

単位が消える仕組みは単位解析で説明できます。75 点 − 60 点 = 15 点（点が残る）、15 点 ÷ 10 点 = 1.5（点が約分されて無次元になる）。170 cm − 165 cm = 5 cm、5 cm ÷ 5 cm = 1.0 でも同じです。500 万円 − 400 万円 = 100 万円、100 万円 ÷ 50 万円 = 2.0 でも同じです。物理学の Reynolds 数（速度 × 長さ ÷ 動粘度）やマッハ数（速度 ÷ 音速）も同じ発想で、次元を持つ量をその量の「基準スケール」で割って無次元にしています。

数学 1.5 と英語 2.0 が比べられるのは、両方が「単位のない数」だからです。「クラスの中で英語 80 点の方が数学 75 点より相対的に高い」と断言できる根拠は、σ を 1 単位とした目盛り上で英語 2.0 > 数学 1.5 であることです。

平均より下の点数を標準化すると z がマイナスになります。数学で 55 点（μ = 60、σ = 10）のとき z = (55 − 60) / 10 = −0.5。z = −0.5 は「平均より下に 0.5σ 離れている」という符号付きの距離です。プラスが平均より上、マイナスが平均より下、ゼロが平均ぴったり。この 3 つさえ押さえれば z の符号は自然に読めます。

z スコアの定義式

ここまでの 2 段の操作を 1 行にまとめると:

z = (x - μ)/(σ)

記号の意味:

x: ある 1 つのデータ値（例: 太郎の点数 75）
μ: そのデータが属する集団の平均（本記事では標本平均 x を代入します。stats-02 と整合）
σ: そのデータが属する集団の標準偏差（本記事では標本標準偏差 s、n 割り版。stats-02 と整合）
z: 標準化後の値（単位なし、平均から何 σ 離れているか）

数学と英語の数字を代入して確認します。数学では z = (75 - 60) / 10 = 15 / 10 = 1.5。英語では z = (80 - 70) / 5 = 10 / 5 = 2.0。前のセクションで言葉と表で求めた数字と一致します。式は「前の 2 つのセクションで絵で追った 2 段操作」を 1 行に圧縮したものです。

統計学の教科書では、母集団の平均を μ、標準偏差を σ と書き分け、標本値を x、s と表記します。本記事では入門として、母集団量の記号 μ と σ を「標本から計算した平均と標準偏差をそのまま代入するもの」として扱います。この区別の厳密な議論は stats-09 以降（推測統計）で扱います。

偏差値への変換

z スコアを偏差値 = 50 + 10z に直すと、平均が偏差値 50、1σ ぶんが 10 ポイントに対応します。z = 2.0 なら偏差値 70、z = -0.5 なら 45 です。

なぜこの式なのか

z スコアは 2 段の合成操作です。平行移動で中心を 0 に揃え、σ で割って 1 目盛りを σ にします。この 2 段の組み合わせを「affine 変換（平行移動と尺度変更の合成）」と呼びます。

標準化は affine 変換

z = (x - μ) / σ は「x から μ を引く（平行移動）」と「σ で割る（尺度変更）」の 2 段操作の合成です。z = (1/σ) · x + (-μ/σ) という形に書き直すと、a = 1/σ、b = -μ/σ とおいた z = ax + b の形になります。これは affine 変換（定数 a 倍して定数 b を足す、という単純な変換）の特殊ケースです。この操作は分布の「位置と尺度だけを揃えて形は不変に保つ」という性質を持ちます。

μ を引く操作の意味を振り返ります。x - μ は stats-02 で「偏差」と呼んだ量です。数直線上で原点（0 の位置）を μ に動かす平行移動に対応します。

σ で割る操作は数直線の目盛り単位を σ に取り直す尺度変更です。1 目盛り = 1σ に揃えると、「元の数直線では 10 点の差」が「標準化後では 1 目盛りの差」として統一されます。

2 段の合成操作が分布の統計量をどう変えるかを表で確認します。E[Y] は Y の平均、Var[Y] は Y の分散を表します。一般の affine 変換 Y = aX + b に対するモーメント変換則は次の通りです。

統計量	Y = aX + b 後の値
平均 E[Y]	aE[X] + b
分散 Var[Y]	a^2 Var[X]
歪度 _1[Y]	sign(a) · _1[X]（a > 0 なら不変）
超過尖度 _2[Y]	_2[X]（a の値によらず常に不変）

標準化は a = 1/σ > 0、b = -μ/σ の場合です。この値を表に代入します。平均は a · μ + b = (1/σ) · μ + (-μ/σ) = 0。分散は a^2 · σ^2 = (1/σ)^2 · σ^2 = 1。歪度は a > 0 なので変化なし。超過尖度も変化なし。どんな元データでも、標準化後の平均はほぼ 0、分散はほぼ 1（丸め誤差を除けば厳密に 0 と 1）になります。

ここで stats-03 で出てきた歪度の定義を振り返ります。(1/n) Σ (x_i - x)^3 / s^3 という式で、分子 (x_i - x)^3 は偏差（μ を引いた量）の 3 乗、分母の s^3 は標準偏差の 3 乗です。つまり歪度の定義の中身は「(x_i - x) / s、すなわち z_i の 3 乗の平均」です。歪度は最初から「データを z 化してから 3 乗の平均をとる」操作として定義されていました。超過尖度も同様に「z_i の 4 乗の平均から 3 を引いた値」です。歪度・尖度の定義がすでに z 化を内包しているため、さらに z スコアにもう一段の標準化を掛けても同じ量を見ていることになり、値は変わりません。stats-01 で中心、stats-02 で広がり、stats-03 で形を学び、stats-04 でその形を表す量がすでに標準化された量として設計されていたことが分かります。Part 1 の 4 記事は、いずれも「データを z 化してから何乗するか」という同じ枠組みで記述できる関係にあります。

標準化後の平均・分散が 0 と 1 になる計算を追う

データを x_1, x_2, …, x_n とし、標本平均を x、標本標準偏差（n 割り版）を s とします。

標準化後の値は z_i = (x_i - x) / s です。

平均が 0 になること:

z = (1)/(n) Σ_i=1^n z_i = (1)/(n) Σ_i=1^n (x_i - x)/(s) = (1)/(s) · (1)/(n) Σ_i=1^n (x_i - x)

Σ (x_i - x) = 0（偏差の合計はゼロ、stats-02 で確認済み）なので z = 0 です。

分散が 1 になること:

s_z^2 = (1)/(n) Σ_i=1^n (z_i - z)^2 = (1)/(n) Σ_i=1^n z_i^2 = (1)/(n) Σ_i=1^n ((x_i - x)^2)/(s^2) = (1)/(s^2) · (1)/(n) Σ_i=1^n (x_i - x)^2 = (s^2)/(s^2) = 1

どちらも正確に 0 と 1（浮動小数点演算では 10^-12 以下の誤差が出ることはありますが、統計的には厳密に成立します）。

計算（バイト時給 8 人）

stats-02 で登場したアルバイトの時給 8 人分のデータで z スコアを計算します。データは {1,000, 1,050, 1,050, 1,100, 1,150, 1,200, 1,300, 4,500} 円（A〜H さん）、平均 x = 1,543.75 円、標準偏差 s ≈ 1,121 円（n 割り版）です。

人	時給（円）	x - x（円）	z = (x - x) / s
A	1,000	−543.75	−0.485
B	1,050	−493.75	−0.440
C	1,050	−493.75	−0.440
D	1,100	−443.75	−0.396
E	1,150	−393.75	−0.351
F	1,200	−343.75	−0.307
G	1,300	−243.75	−0.217
H	4,500	+2,956.25	+2.64

A〜G の z スコアはすべて −0.5 付近に集まり、H さんだけ +2.64 と突出します。z の合計を計算すると、( −0.485 − 0.440 − 0.440 − 0.396 − 0.351 − 0.307 − 0.217 + 2.64 ) ≈ 0.00 となり、z = 0 が確認できます。

分散の検算もします。z_i^2 を合計して 8 で割ります。A〜G の z_i^2 の合計は小さく、H さんの z_H^2 = 2.64^2 ≈ 6.97 が全体の大半を占めます。全部足して 8 で割ると s_z^2 ≈ 1.00 です。H さんの z スコア +2.64 が stats-03 で計算した超過尖度の主因だったことも、数値から確認できます。z_i^4 の平均（= 超過尖度 + 3）の大半が H さんの寄与 2.64^4 ≈ 48.6 から来ているためです。8 人の z スコアのうち A〜G 全員が −0.5 付近（−0.217〜−0.485）に密集し、H さんだけが +2.64 に位置します。z_H^2 ≈ 6.97 は A〜G 全員の z_i^2 の合計（約 1.04）の 6 倍以上です。「分散 = 1」という条件はこの H さんの寄与で成立しており、平均 0・分散 1 がどのように実現されているかの内訳が見えます。

偏差値の計算もします。偏差値の式は:

T = 50 + 10z

T が偏差値で、z を 10 倍して 50 を足すと平均 50・標準偏差 10 の軸に乗り直します。z = 0（平均ぴったり）→ T = 50、z = +1 → T = 60、z = −2 → T = 30。偏差値は z スコアにもう 1 段の affine 変換（10 倍 + 50）を掛けただけで、z スコアと同じ情報を別の目盛りで表します。

別の例で確認します。数学の別のテスト（平均 70 点・σ 5 点）で太郎が 80 点、英語のテスト（平均 60 点・σ 10 点）で太郎が 70 点を取ったとします。数学は z = (80 − 70) / 5 = +2.0 → T = 70。英語は z = (70 − 60) / 10 = +1.0 → T = 60。素点はどちらも平均から +10 点ですが、σ の小さい数学では「珍しさ」が 2 倍大きく、偏差値は数学の方が 10 ポイント高くなります。

z（無次元）	偏差値 T
−2.0	30
−1.0	40
0.0	50
+1.0	60
+2.0	70

偏差値 30 を見たら「平均から 2σ 下」と即座に翻訳できます。

数直線で 2 段操作を見る

数学の例（x = 75、μ = 60、σ = 10）で、標準化を 3 本の数直線で確認します。3 本の数直線がそれぞれ「元の点数」「μ を引いた後」「z スコア」に対応します。

元の点数軸（0〜100）

赤破線が μ = 60（クラス平均）、青線が x = 75（太郎の点数）です。

μ を引いた後（偏差 = x − μ）

原点が平均（60 点）の位置に移りました（赤破線が原点 0）。青線の x = 75 が 15 点（平均より上に 15 点）として表れます。

z スコア軸（σ で割って無次元に）

1 目盛りが「1σ（= 10 点）」になりました。z スコア軸では数字の単位（点）が消え、英語クラスの z スコア（z = 2.0）と直接比べられる状態になります。σ が小さいクラスでは、同じ「平均より 10 点上」でも z が大きくなります。英語（σ = 5）では z = 2.0、数学（σ = 10）では z = 1.5。「珍しさ」は平均からの差ではなく、その集団の σ を基準にした距離で決まります。

3 本の図を見るときは「赤破線が原点（平均）の位置」「青線がデータ点の位置」「目盛りの単位」の 3 点を確認します。1 本目は目盛り単位が「点」、2 本目も「点」（ただし原点が平均に移動）、3 本目は「σ（= 10 点）」です。3 本目ではじめて数学と英語を直接比べられる目盛りになります。

標準化と正規化は別物

「標準化」と「正規化」は混同されやすい用語です。機械学習の文脈で「normalize する」という表現が出てきたとき、それが z スコア化なのか、最小値 0・最大値 1 にするスケーリングなのかは文脈で違います。

系統	式	変換後の平均	SD	範囲	分布の形	外れ値耐性	代表的用途
標準化（z-score）	z = (x - μ) / σ	0	1	不定	不変	弱い	統計分析、PCA
正規化（min-max）	z = (x - x_) / (x_ - x_)	不定	不定	[0, 1]	不変	弱い	機械学習前処理
ロバストスケーリング	z = (x - x) / MAD	0 付近	不定（正規分布下で約 1.48）	不定	不変	強い	外れ値が多いデータ

scikit-learn は StandardScaler（標準化、z スコア化）と MinMaxScaler（正規化、min-max）を明確に分けた命名で、この混同に対処しています。Python で書くとき、from sklearn.preprocessing import StandardScaler が z スコア化（平均 0・SD 1）、from sklearn.preprocessing import MinMaxScaler が min-max 正規化（0 以上 1 以下）です。名前が違うのは、この 2 つが数式的に別の変換だからです。「前処理で normalize する」と書かれていたら、StandardScaler か MinMaxScaler かをコードで確認する必要があります。

本記事が扱うのは標準化のみです。ロバストスケーリング（中央値と MAD を使う外れ値耐性の高い変換）は補足記事 stats-supplement-robust-standardization で、min-max 正規化の実務的な使い分けは実践記事で扱います。

金融での登場場面

リターンの z スコア化は金融で広く使われています。ある銘柄の今日のリターンを「過去 N 日リターンの平均を引いて σ で割った値（z スコア）」として表すと、「今日の差が過去の変動に比べて何 σ 分か」が分かります。Bollinger Band は価格を「20 日移動平均 ± 2σ」で挟む指標ですが、これは「価格を 20 日の平均と σ で標準化したとき、z = ±2 の境界を引いている」のと同じ発想です。

金融データでは正規分布を仮定したときの予測と実測がずれることがあります。正規分布では |z| > 3 となる確率は約 0.27%（P(|Z|>3) ≈ 0.0027）ですが、株式リターンのような fat tail を持つデータでは |z| > 3 の観測が 0.27% をはるかに超える頻度で起きます。z スコアそのものは線形変換なので分布の形を仮定しません。ただし「z = 3 以上は何 %」のように確率に翻訳した瞬間に、分布の形（正規かどうか）の前提が入ります。

また、過去 N 日の全データで μ と σ を計算してからバックテストに使うと、未来のデータが σ の計算に含まれる「look-ahead bias」が発生します。この問題の具体的な実装と回避手法は実践記事 stats-practice-asset-return-zscore で扱います。

fat tail では |z|>3 が想定より頻発する

正規分布の仮定では P(|Z|>3) ≈ 0.27\% です。しかし株式リターン・為替変動・商品価格は正規分布より裾が厚い（fat tail）ため、|z| > 3 の観測日が年に数回どころか数十回出ることがあります。「z スコアが大きい = 正規分布での確率が低い」という翻訳は、元データが正規分布に従う場合のみ成立します。

次に学ぶこと

次回 stats-05「確率の直感」では、「珍しさを確率で測る」話に進みます。本記事の E[Z] = 0、Var[Z] = 1 という結果は、Part 2 では確率変数の期待値・分散として同じ構造が出てきます。z スコアが正規分布と組み合わさると「z = 1.96 以上は全体の 5%」のような確率的な主張ができますが、その接続は stats-08（中心極限定理）まで待ちます。

Part 1 の道具立て

stats-01 の中心（平均・中央値）、stats-02 の広がり（分散・標準偏差）、stats-03 の形（歪度・尖度）と並べてきて、stats-04 の標準化（z スコア・affine 変換）を加えると、各記事が扱った量（z 化した量の冪乗）として歪度・尖度が定義されている構造が見えてきます。

分布の形を見る

AlphaInsiders 編集部 — Sat, 23 May 2026 02:56:59 GMT

ある会社の求人票に「平均年収 600 万円、標準偏差 100 万円」と書いてあったとします。stats-01・stats-02 で学んだ知識があれば「平均から 100 万円前後のばらつきがある」と読めます。しかしこの数字だけでは「社員のほとんどが 500〜700 万円に収まるのか」「一部の役員が 900 万円超で平均を引き上げているのか」の区別がつきません。2 つのシナリオは平均も標準偏差もまったく同じにできます。

stats-01 で典型値（平均・中央値）、stats-02 で散らばり（分散・標準偏差）を扱いました。本記事は「形」を扱います。次の stats-04 は「標準化と z スコア」で、単位の違う分布どうしを同じスケールで並べる操作に進みます。

平均と分散だけでは見えないもの

具体的な数字で確かめます。次の 2 つのデータセットは、どちらも 平均 600 万円・標準偏差 100 万円 に揃えた仮想の年収データ（20 人分）です。

データセット A（対称型）: 440, 455, 470, 485, 505, 520, 535, 550, 570, 585, 615, 630, 650, 665, 680, 695, 715, 730, 745, 760 （単位: 万円）

データセット B（右歪み型）: 500, 505, 510, 515, 520, 525, 530, 540, 550, 560, 565, 575, 600, 615, 640, 660, 700, 740, 800, 850 （単位: 万円）

検算結果: A の平均 = 600 万円、標準偏差 = 100.0 万円。B の平均 = 600 万円、標準偏差 = 99.6 万円。どちらも「平均 600 万円・標準偏差 100 万円」と言える数値です。

ヒストグラムを 2 つ並べます。

データセット A（対称型）: 平均 600 万円・標準偏差 100 万円

横軸は年収（万円）、縦軸は人数。赤い破線が平均（600 万円）です。データセット A では 600 万円の左右にほぼ均等に人が分布しています。400〜500 万円に 4 人、500〜600 万円に 6 人、600〜700 万円に 6 人、700〜800 万円に 4 人です。

データセット B（右歪み型）: 平均 600 万円・標準偏差 100 万円

横軸は年収（万円）、縦軸は人数。赤い破線は同じ 600 万円の平均線です。データセット B では 450〜650 万円に 15 人が密集し、右側に 740 万円・800 万円・850 万円の 3 人が並びます。特に 800・850 万円の 2 人は単独の棒として右端に並んでいます。

2 つの数字が持つ意味を比べます。A の 20 人のうち 12 人が 500〜700 万円の帯に収まります。平均 600 万円はこの 12 人の実態にほぼ近い値です。

B の 20 人のうち 17 人が 500〜700 万円の帯にいますが、この 17 人の帯平均は約 565 万円です。右端の 3 人（740・800・850 万円）が平均を 35 万円分の寄与で全体平均 600 万円にしています。3 人の寄与を計算すると (740-565) + (800-565) + (850-565) = 175 + 235 + 285 = 695 万円で、17 人で割ると一人あたり約 41 万円分の底上げです。

B の 17 人の帯平均（565 万円）に対し全体平均 600 万円は 35 万円高く、しかも 17 人のうち 12 人は 600 万円未満です。大多数にとって「平均を下回っている」点は変わりません。A の社員 12 人にとっては自分の給与から 100 万円以内の距離にある数字です。同じ「600 万円」という数が、A では集団の実態を代表し、B では 2 層の間に浮きます。

標準偏差を足しても状況は変わりません。A も B も標準偏差は約 100 万円。「平均 ± 1 標準偏差（500〜700 万円）」という情報から A と B を区別するのは難しいです。2 つの数が揃っていても、形がまったく違うことは起きます。

数値要約だけでは見えないものがあります。形を視覚的に見る道具がヒストグラムと密度関数で、形を 1 つの数で要約する道具が歪度と尖度です。

この記事の核心

平均と標準偏差が同じでも、分布の形が違えばデータが示す現実は違う。形を視覚で見るのがヒストグラムと密度関数、形を 1 つの数で要約するのが歪度と尖度。

ヒストグラムは何を見せているのか

ヒストグラムと棒グラフは別物です。見た目が似ているので混同しやすいですが、用途が根本的に違います。

棒グラフ は離散的なカテゴリの比較に使います。「月曜〜金曜の来店数」「都道府県別の人口」のように、横軸がカテゴリ名で、棒と棒の間に隙間があります。

ヒストグラム は連続的な値の頻度分布を示します。「身長の分布」「所得の分布」のように、横軸が数値の区間（ビン）で、棒と棒の間に隙間はありません。棒が接するのは、数値が切れ目なくつながっている連続データを扱っているからです。

ビン（箱）と度数の仕組み

stats-01・stats-02 で使ってきたバイト時給 8 人のデータ（A〜H 人、単位: 円）で作り方を確認します。

人	A	B	C	D	E	F	G	H
時給	1,000	1,050	1,050	1,100	1,150	1,200	1,300	4,500

横軸を 500 円幅で区切ります。

ビン（区間）	入る人	度数（人数）
1,000〜1,500 円未満	A, B, C, D, E, F, G	7
1,500〜2,000 円未満	（なし）	0
2,000〜2,500 円未満	（なし）	0
2,500〜3,000 円未満	（なし）	0
3,000〜3,500 円未満	（なし）	0
3,500〜4,000 円未満	（なし）	0
4,000〜4,500 円以下	H	1

「度数（ひんど）」は各ビンに入るデータの個数です。このデータでは、H さんの 4,500 円が単独で 1 本の棒を作ります。

バイト時給 8 人のヒストグラム（ビン幅 500 円）

横軸は時給（円）、縦軸は人数。赤い破線は平均（1,544 円）です。A〜G の 7 人が 1,000〜1,300 円台に集まり、H さんは 4,500 円の位置に単独で存在します。stats-01 で確認した「平均が実態と乖離する」構造が形で見えます。

ビン幅で印象が変わる

同じデータでもビン幅の選び方で、ヒストグラムの形が大きく変わります。身長 80 人分の仮想データ（平均 170 cm、標準偏差 6 cm）で 3 種類のビン幅を並べます。

ビン幅 1 cm（細かすぎる）: 身長 80 人

ビン幅 5 cm（適切）: 身長 80 人

ビン幅 15 cm（粗すぎる）: 身長 80 人

3 枚とも同じデータです。ビン幅 1 cm はガタガタすぎて形が見えず、ビン幅 15 cm は粗すぎて分布の左右非対称さが潰れます。ビン幅 5 cm では釣り鐘状の形がはっきり見えます。

上の 3 枚は固定のビン幅でした。下では自分でビン幅を動かして、同じデータの印象が連続的にどう変わるかを確認できます。赤い曲線（同じ幅のガウスカーネル密度）は、ビン幅が細かいほどギザギザに、大きいほどなめらかになります。次節で扱う「ビン幅を限りなく細かくすると曲線に近づく」性質も、この赤い曲線で見えています。

ビン幅の選び方に「唯一の正解」はありません。データの性質に応じた目安はあります。

ビン幅の目安（3 公式）

公式	式	特徴
Sturges (1926)	k = 1 + _2 n	正規分布形を仮定。大標本や歪んだデータでは少なすぎる
Scott (1979)	h = 3.49 s · n^-1/3	標準偏差 s を使うため外れ値に敏感
Freedman-Diaconis (1981)	h = 2 · IQR · n^-1/3	四分位範囲を使うため外れ値に頑健

k はビン数、h はビン幅、n はデータ数、IQR は四分位範囲（第 3 四分位 − 第 1 四分位）です。歪んだ分布や外れ値があるデータでは、Freedman-Diaconis を使うのが安全です。IQR は外れ値の影響を受けない量（外れ値が 1 つ増えても四分位範囲はほぼ変わりません）なので、外れ値の寄与を受ける Scott より安定したビン幅を与えます。

度数と相対度数

縦軸を「人数そのもの」にしたのが度数版、「全体の何割か」にしたのが相対度数版です。形は同じですが、縦軸の単位が変わります。

データ数が違う 2 集団を比較するときは相対度数（割合）を使います。1,000 人のグループと 100 人のグループを度数（人数）で比べると、大きいグループの棒がすべて高くなって形が読めません。相対度数にすれば両者を同じ縦軸スケールで並べられます。

歪度・尖度という数値を計算するより、ヒストグラムの形を先に見ます。形を目で確認してから数値で要約します。

ヒストグラムから密度関数へ

ビン幅を段階的に細かくすると、棒の集合が連続的な曲線に近づきます。「ビン幅を限りなく細かくした極限」に現れる滑らかな曲線が密度関数です。

ビン幅を細かくしていくと曲線に近づく

縦軸は「人数」でも「割合」でもなく「密度」です。密度関数では「曲線の下の面積が 1 になる」という約束があります（積分の概念ですが、本記事では「面積が 1」とだけ覚えれば十分です）。

実際のデータは有限個なので、密度は「推定するもの」です。ヒストグラムはデータから直接見える形の近似で、ビン幅という設計上の判断が残ります。これを解消する方法の 1 つがカーネル密度推定（KDE）です。

KDE は「各データ点に小さな山を置いて重ねる」発想です。1 つのデータ点 x_i に幅 h（バンド幅）の山（カーネル）を置き、全データ分を足すと、次の式で密度を推定できます。

f(x) = (1)/(nh) Σ_i=1^n K ((x - x_i)/(h))

f(x) の「ハット（）」は「データから推定した値」を意味します。K(·) はカーネル関数（例えば正規分布形の山）、h は山の幅、n はデータ数です。(1)/(nh) で割るのは「全データの山の合計の面積が 1 になる」ように正規化するためです。バンド幅 h が小さいと細かくガタガタな曲線に、大きいと過度に滑らかな曲線になります。数学的な詳細は補足記事 stats-supplement-kernel-density-estimation で扱います。

数学的な土台：経験分布関数（興味があれば）

ヒストグラムの背景にある数学的概念として「経験分布関数」があります。サンプルのデータを増やすと、特定の値以下に入る比率が滑らかに増えていく曲線（累積分布関数）に近づきます。その「実際のデータから計算した版」が経験分布関数で、式で書くと次の通りです。

F_n(x) = (1)/(n) Σ_i=1^n 1\x_i ≤ x\

1\x_i ≤ x\ は「x_i ≤ x が成り立てば 1、成り立たなければ 0 を返す」指示関数です。F_n(x) は「x 以下のデータが全体の何割か」を返す階段関数で、データ点ごとに 1/n ずつ上に上がります。ヒストグラムは、この階段関数を区間ごとに集計して棒の高さで表したものです。

分布の形を分類する

4 種類の典型的な形を絵で見てから、名前を当てます。

①対称型（例: 17歳男子の身長分布）

②右歪み型（例: 世帯所得分布）

③左歪み型（例: 簡単な試験の得点分布）

④多峰型（例: 異質な集団が混在するスコア分布）

それぞれの形に名前を当てます。

① 対称（symmetric）: 中央を軸に左右が鏡像になる形です。17 歳の身長分布はこのパターンに近く、平均 170 cm 前後を中心に左右にほぼ均等に分布します（文部科学省学校保健統計調査）。平均・中央値・最頻値が一致します。

② 右歪み（right-skewed、正の歪み）: 右に長く裾を引く形です。日本の世帯所得は典型例で、2024 年の国民生活基礎調査（2023 年所得）では平均 536 万円に対して中央値は 410 万円です（厚生労働省）。右にいる高所得層が平均を増やすため 「平均 > 中央値」 になります。stats-01 で見たこの乖離は、右歪みの結果です。

③ 左歪み（left-skewed、負の歪み）: 左に長く裾を引く形です。「満点に近い簡単な試験」では高得点に人が集まり、低得点側に裾を引きます（天井効果）。「平均 < 中央値」 になります。

④ 多峰（multimodal）: 山が 2 つ以上ある形です（双峰など）。「英語ネイティブと日本語話者が混在するクラスの TOEFL スコア」のように、異質な集団が混在しているときに現れます。平均を出しても「2 つの山のどちらでもない中間」を指してしまい、形の特徴が潰れます。

次の図は ` コンポーネントで対称・右歪み・左歪みを切り替えて確認できます。各モードで平均（赤）・中央値（青）・最頻値（緑）の位置関係がどう変わるかを見ます。


単峰・連続の分布で右歪みになる多くの場合、最頻値 < 中央値 < 平均 という順序が成り立ちます。仕組みは次の通りです。最頻値は曲線の頂点（最も人が多い場所）です。中央値は「データを半分に分ける面積の区切り」で、頂点よりわずかに右側の位置です。平均は stats-01 で確認した通り右の外れ値の寄与で右に位置する重心で、さらに右に寄ります。左歪みではこの順序が逆転します。von Hippel (2005) が示すように、特殊な分布形ではこの順序が逆転することもあります。
平均と中央値の位置関係は、分布の歪みの方向を反映します。stats-01 で学んだ「平均は外れ値で大きく変わる」性質が、形の非対称さとして現れます。
3 統計量の順序関係
右歪みでは小さい順に 最頻値・中央値・平均、左歪みでは逆に 平均・中央値・最頻値 と並びます。平均は裾に引っ張られ、中央値は順位の真ん中、最頻値は山の頂点なので、歪みの向きがそのまま 3 つの並び順に表れます。
形を 1 つの数で要約する: 歪度と尖度
ヒストグラムで形を視覚的に確認したあと、その形を 1 つの数で要約したい場面があります。複数のデータセットを比較するとき、毎回ヒストグラムを並べるのは手間で、「右歪みが強い・弱い」を数値で比べたいこともあります。
k 次中心化モーメントの構造
stats-02 で学んだ「偏差の合計はゼロになる」という性質を起点に整理します。
k 次中心化モーメント（標本版）の式は次の通りです。
m_k = (1)/(n) Σ_i=1^n (x_i - x)^k
k の値を変えると見えるものが変わります。
k 偏差の処理 何が見えるか
1 そのまま ゼロになる（stats-01 既出）
2 二乗（符号が消える） 散らばり（分散、stats-02 既出）
3 三乗（符号が残る） 左右の非対称さ（歪み）
4 四乗（大きな値の寄与が急増） 裾の重さ
なぜ 3 乗・4 乗なのでしょうか。stats-02 で見た構造の延長線上にあります。偶数乗（2 乗・4 乗）は負の値を正に直すので符号が消え、距離だけを測ります。奇数乗（3 乗）は負の偏差を負のまま保つので、右に大きく外れた点と左に大きく外れた点の寄与が打ち消し合わず、方向が残ります。3 乗の平均が正なら右側に偏っているということです。4 乗は偶数乗ですが 2 乗より増幅が急で、標準偏差から遠い点ほど寄与が桁違いに膨れます。裾（端っこ）の重みはそこに出ます。
歪度
歪度（skewness）は、標準化されたデータの 3 乗の平均です。
「標準化」とは、各データから平均を引き、標準偏差で割る操作です。この結果を z_i と書きます。
z_i = (x_i - x)/(s)
z_i は「平均からの距離を標準偏差 s という単位で測ったもの」です。stats-04 でこの操作を本格的に扱います。
歪度は、標準化されたモーメント（偏差を s^k で割って無次元にした量）を表すギリシャ文字 γ（ガンマ）で表す慣習があります。添字 1 が 3 次モーメント由来の歪度、添字 2 が 4 次モーメント由来の尖度に対応します。
歪度 _1 は、この z_i の 3 乗の平均です。
_1 = (1)/(n) Σ_i=1^n z_i^3 = (1)/(n) Σ_i=1^n ((x_i - x)/(s))^3
z_i を 3 乗すると符号が保たれます（例えば z_i = -2 なら z_i^3 = -8）。右に大きく離れた点は大きな正、左に大きく離れた点は大きな負になります。全部足して平均をとると、「右の裾の寄与 − 左の裾の寄与」が残ります。歪度はこの「左右の寄与の差」を 1 つの数に圧縮した量です。
_1 > 0: 右に裾を引く（右歪み） _1 = 0: 左右対称 _1 < 0: 左に裾を引く（左歪み）
なぜ「単位を消す」（s^3 で割る）のでしょうか。時給のデータは円、身長のデータは cm という単位があります。3 乗すると「円³」「cm³」という単位になります。s^3（標準偏差の 3 乗）も同じ単位なので、割り算すると単位が消えて無次元の数になります。円のデータでもドルのデータでも、同じ歪度の値で比較できます。
超過尖度
尖度（kurtosis）は、z_i の 4 乗の平均から 3 を引いた値です。これを超過尖度と呼びます。
_2 = (1)/(n) Σ_i=1^n z_i^4 - 3 = (1)/(n) Σ_i=1^n ((x_i - x)/(s))^4 - 3
尖度は『中央の高さ』ではない
「尖度」という名前から「分布の中央が尖っているか」を測ると誤解しやすいです。実際には 「裾の重さ」 を測ります。
4 乗すると |z_i| > 1（標準偏差より外側）の点の寄与が指数的に大きくなります。標準偏差の内側（|z_i| < 1）の点の 4 乗は 1 未満なので影響はほぼありません。つまり尖度は「裾にどれだけ重みのあるデータがあるか」を測る量です。
Pearson が尖度を定義した 1905 年当時は「中央の高さ（peakedness）」の指標として発表しましたが、これは誤解でした。2014 年の Westfall の研究で「尖度は裾の重さ（tail extremity）」であることが明確に示されています。
「-3」の意味についても確認します。正規分布（左右対称な釣り鐘形）では、中央から離れるほど密度が小さくなる対称な構造があります。この構造のもとで理論的に計算すると、z^4 の平均がちょうど 3 になることが示せます（詳細は下の展開を参照）。-3 することで正規分布をゼロ点にし、「正規分布より裾が重い場合は正、軽い場合は負」という基準が直感的になります。
正規分布で尖度がちょうど 3 になる理由（数学的補足）
標準正規分布 Z N(0,1) の場合、E[Z^4] を計算します。
E[Z^4] = (1)/(√(2π)) _-∞^∞ z^4 e^-z^2/2 dz
部分積分を 2 回使うか、再帰公式 E[Z^2n] = (2n-1) · E[Z^2(n-1)] を使うと、
E[Z^4] = 3 · E[Z^2] = 3 × 1 = 3
となります（E[Z^2] = 1 は標準偏差 1 の定義）。したがって正規分布での尖度（m_4/s^4）は 3 になり、そこから 3 を引いた超過尖度は 0 です。
_2 > 0: 正規分布より裾が重い（leptokurtic、株価リターン等） _2 = 0: 正規分布と同程度の裾の重さ（mesokurtic） _2 < 0: 正規分布より裾が軽い（platykurtic）

k	偏差の処理	何が見えるか
1	そのまま	ゼロになる（stats-01 既出）
2	二乗（符号が消える）	散らばり（分散、stats-02 既出）
3	三乗（符号が残る）	左右の非対称さ（歪み）
4	四乗（大きな値の寄与が急増）	裾の重さ

本記事の定義（正規分布でゼロになる版）は「超過尖度」と呼ばれます。一方、-3 をしない「通常尖度（_2 + 3 = m_4/s^4）」を採用する教科書もあります。通常尖度では正規分布の値が 3 です。Python（scipy.stats.kurtosis）・R・Excel の KURT 関数はデフォルトで超過尖度を返します。詳細は補足記事 stats-supplement-excess-kurtosis-conventions で扱います。

歪度と尖度の定義がどのような経緯で現在の形になったかは、補足記事 stats-supplement-fisher-pearson-skewness-history で扱います。


計算（バイト時給 8 人）
バイト時給 8 人のデータで歪度と超過尖度を手で計算します。
stats-02 で求めた値を使います。
平均 x = 1,543.75 円
標本標準偏差（n 割り版）s ≈ 1,120.95 円
各人の偏差を 3 乗・4 乗します。
人 x_i x_i - x (x_i - x)^3 (x_i - x)^4
A 1,000 -543.75 -1.608 × 10^8 8.742 × 10^10
B 1,050 -493.75 -1.204 × 10^8 5.943 × 10^10
C 1,050 -493.75 -1.204 × 10^8 5.943 × 10^10
D 1,100 -443.75 -8.738 × 10^7 3.878 × 10^10
E 1,150 -393.75 -6.105 × 10^7 2.404 × 10^10
F 1,200 -343.75 -4.062 × 10^7 1.396 × 10^10
G 1,300 -243.75 -1.448 × 10^7 3.530 × 10^9
H 4,500 +2,956.25 +2.584 × 10^10 +7.638 × 10^13
合計 0 +2.523 × 10^10 +7.666 × 10^13
偏差の合計がゼロになることは stats-01 で確認した通りです。
m_3 と m_4 を計算します（n = 8 で割ります）。
m_3 = (+2.523 × 10^10)/(8) ≈ +3.154 × 10^9 円^3
m_4 = (+7.666 × 10^13)/(8) ≈ +9.583 × 10^12 円^4
次に s^3 と s^4 で割って無次元化します。
s^3 = (1,120.95)^3 ≈ 1.409 × 10^9 円^3, s^4 = (1,120.95)^4 ≈ 1.579 × 10^12 円^4
歪度と超過尖度の値は次の通りです。
_1 = (m_3)/(s^3) = (+3.154 × 10^9)/(1.409 × 10^9) ≈ +2.24
_2 = (m_4)/(s^4) - 3 = (+9.583 × 10^12)/(1.579 × 10^12) - 3 ≈ 6.07 - 3 = +3.07
_1 = +2.24 は強い右歪みを示します（参考: 正規分布なら 0）。_2 = +3.07 は正規分布より裾が分厚い（leptokurtic）ことを示します。
H さん単独の偏差³（+2.584 × 10^10）は、A〜G の 7 人の合計（-6.1 × 10^8）を 40 倍以上上回ります。H さんの寄与は Σ(x_i - x)^3 全体の大半を占め、残り 7 人の負の寄与をすべて打ち消してなお余ります。
偏差⁴ではさらに顕著で、H さんの寄与は約 99.6% です。残り 7 人の合計は 7.666 × 10^13 のうち 2.8 × 10^11 程度にとどまります。
_1 = +2.24 と _2 = +3.07 は、ほぼ H さん 1 人で決まります。外れ値が高次モーメントに与える寄与がいかに大きいかが、この計算で体感できます。H さんの 4,500 円がなければ、歪度も超過尖度もほぼゼロに近い値になります。

人	x_i	x_i - x	(x_i - x)^3	(x_i - x)^4
A	1,000	-543.75	-1.608 × 10^8	8.742 × 10^10
B	1,050	-493.75	-1.204 × 10^8	5.943 × 10^10
C	1,050	-493.75	-1.204 × 10^8	5.943 × 10^10
D	1,100	-443.75	-8.738 × 10^7	3.878 × 10^10
E	1,150	-393.75	-6.105 × 10^7	2.404 × 10^10
F	1,200	-343.75	-4.062 × 10^7	1.396 × 10^10
G	1,300	-243.75	-1.448 × 10^7	3.530 × 10^9
H	4,500	+2,956.25	+2.584 × 10^10	+7.638 × 10^13
合計		0	+2.523 × 10^10	+7.666 × 10^13

本記事では素朴な (1)/(n)Σ 版で計算しましたが、実データで計算するときには標本サイズに応じた補正項が入る場合があります。詳細は補足記事 stats-supplement-sample-skewness-kurtosis-correction で扱います。


金融での登場場面
株式日次リターンの分布は、正規分布より裾がはるかに分厚い（高超過尖度、leptokurtic）ことが知られています。これを「ファットテール（fat tail）」と呼びます。S&P 500 の日次リターンを長期で観察すると（1987 年のブラックマンデー級の暴落を含む期間で超過尖度は約 28、平時の数年スパンでも 3〜5 程度になることが報告されています）、4 標準偏差を超える変動日が、正規分布の予想（10,000 営業日に約 0.3 日、片側）より頻繁に観測されます。
正規分布仮定のリスク

Black-Scholes などの多くの金融モデルは正規分布を仮定します。しかし株価リターンの実際の超過尖度は 5〜10 程度（危機時はさらに高い値）で、正規分布（超過尖度 = 0）とはかけ離れています。正規分布を仮定して標準偏差だけでリスクを測ると、稀な大幅変動（金融危機・暴落・暴騰）を過小評価します。実務では VaR（バリュー・アット・リスク）や CVaR（条件付き VaR）で裾を別途扱います。詳細は実践記事 stats-practice-fat-tail-returns` で扱います。

次に学ぶこと

stats-04（標準化と z スコア）では、本記事で先取りした z_i = (x_i - x)/s という操作を本格的に学びます。単位の違うデータ（円と身長 cm など）を同じスケールで比べるための変換で、歪度・超過尖度の計算でも使った操作です。

散らばりの測り方

AlphaInsiders 編集部 — Thu, 14 May 2026 11:35:41 GMT

stats-01 で、8 人のバイト時給データから平均 1,543.75 円・中央値 1,125 円を計算しました。ところがこの 2 つの代表値だけでは「全員の時給が似たようなものか、H さんのようなケタ違いが混じっているか」という情報が読み取れません。「平均 1,543 円」という数字は、8 人が 1,400〜1,700 円の狭い帯に収まっていても、H さん 1 人が 4,500 円で突出していても、どちらでも同じ値を返します。この記事ではデータの「広がり」を数値で測る方法を扱います。

stats-01 が「代表値」を扱ったのに対し、本記事は「散らばりの大きさ」が主題です。次回（stats-03）は「分布の形」を扱います。

この記事で扱うこと

平均が同じでも散らばり方が違うと情報の意味が変わる、という直感的な例から入ります
散らばりの代表的な指標 4 つ（範囲・四分位範囲・分散・標準偏差）の定義と長所短所
分散の核心「なぜ二乗するのか」を平方完成で証明します。絶対値ではなく二乗を選ぶ構造的な理由
バイト時給 8 人のデータで、分散と標準偏差を 手計算で全部追います
偏差をビジュアル化して、分散・標準偏差の「中身」を目で確認します
金融での登場場面（ボラティリティ）
次回 stats-03 では「分布の形」を扱い、歪度・尖度につなげます

同じ平均、違う散らばり

配達時間を想像してみましょう。「午後 1 時〜5 時の間に届く」という案内と「午後 2 時 30 分〜3 時 30 分の間に届く」という案内では、どちらが計画を立てやすいでしょうか。受取可能な時間の平均は両方とも午後 3 時ごろです。配達時刻のばらつき方がまったく違います。前者は 4 時間の幅に分布し、後者は 1 時間の幅です。

「平均が同じ」でも「散らばり方が違う」と情報の意味はまったく変わります。

同じ平均・異なる散らばり（配達時刻の例）

赤い縦線は両グループ共通の平均（15 時）です。両群の平均は同じですが、上段は平均から最大 3 時間離れる点があるのに対し、下段は最大 0.5 時間しか離れません。「平均が同じ」だけでは、データの広がりは見えません。測るには別の量が要ります。

範囲と四分位

散らばりを測る最も直接的な方法は範囲（レンジ）と四分位範囲（IQR）です。どちらも計算は速いのですが、それぞれに弱点があります。

範囲（レンジ）

R = (x_i) - (x_i)

最大値から最小値を引いた幅です。バイト時給 8 人のデータでは:

R = 4500 - 1000 = 3500 円

計算は簡単です。ただし H さんの 4,500 円を 45,000 円に変えると範囲は 44,000 円になります。データの両端の 2 点だけで決まるので、外れ値 1 つで大きく変わります。H さんが存在しなければ範囲は 300 円（1,300 − 1,000）です。外れ値に対して範囲は脆弱です。

四分位範囲（IQR）

範囲の弱点を補うのが四分位範囲（IQR: Interquartile Range）です。データを小さい順に並べたとき、下から 25% の位置にある値を 第 1 四分位数（Q1）、75% の位置を 第 3 四分位数（Q3） と呼びます。

IQR = Q_3 - Q_1

バイト時給 8 人の場合、Q1 は下位 4 件の中央値で 1,050 円、Q3 は上位 4 件の中央値で 1,250 円（(1,200+1,300)/2）です。

IQR = 1250 - 1050 = 200 円

Q1 と Q3 の計算手順は教科書によって微妙に異なります。本記事では「感覚を掴む」ことを優先して詳細な定義の差異には踏み込みません。IQR が示すのは「真ん中 50% のデータが収まる幅」です。H さんの時給を 10 倍にしても IQR は 200 円のままです。外れ値の影響を受けない点で範囲より強固です。

ただし IQR は真ん中 50% の外側のデータを使いません。上下のばらつきが本当に等しいか、外側がどれだけ伸びているかは IQR からは読み取れません。範囲（脆弱）と IQR（鈍感）の中間で、データ全員の情報を使う指標が分散です。

なぜ二乗するのか

分散の式は (1)/(n)Σ(x_i - x)^2 という形をしています。なぜ二乗を選ぶのか、その理由は 3 ステップに分けて見えてきます。

ステップ 1: 偏差をそのまま足したらゼロ

「各データが平均からどのくらいずれているか」を表す量を偏差（deviation）と呼びます。

偏差 = x_i - x

「i 番目のデータ」から「平均」を引いた差です。バイト時給 8 人で計算してみましょう。平均は 1,543.75 円です。

名前	時給	偏差（円）
A	1,000	−543.75
B	1,050	−493.75
C	1,050	−493.75
D	1,100	−443.75
E	1,150	−393.75
F	1,200	−343.75
G	1,300	−243.75
H	4,500	+2,956.25

これを全部足すと:

Σ_i=1^n(x_i - x) = 0

H さんの大きなプラスが、残り 7 人の小さなマイナスの合計と相殺されて、ぴったりゼロになります。これは平均の定義から必然的に成り立つ事実です。

偏差の合計がゼロになることを式で確認する

平均の定義は x = (1)/(n)Σ_i=1^n x_i なので、Σ x_i = nx が成り立ちます。

Σ_i=1^n(x_i - x) = Σ_i=1^n x_i - nx = nx - nx = 0

これは数式の上での必然であり、データが何であっても変わりません。

合計がゼロになるということは、「偏差をそのまま平均しても散らばりの情報が取れない」ということです。プラスとマイナスが打ち消し合う仕組みになっています。

ステップ 2: 絶対値を使うと

打ち消し合いを防ぐ自然な方法として、「絶対値を取る」が浮かびます。絶対値偏差の平均を 平均絶対偏差（MAD: Mean Absolute Deviation） と呼びます。

バイト時給 8 人の各偏差の絶対値を計算すると、A〜G の絶対値の合計は 543.75 + 493.75 × 2 + 443.75 + 393.75 + 343.75 + 243.75 = 2,956.25 円、H の絶対値は 2,956.25 円です。合計 5,912.50 円を 8 で割ると、MAD = 739.0625 円です。

MAD は散らばりを測れます。ただし「散らばりの中心がどこか」という問いへの答えが、絶対値と二乗で変わります。なぜ教科書は二乗を選ぶのでしょうか。

ステップ 3: 二乗を選ぶのは構造的な判断

散らばりの 2 つの測り方を比べると、どちらを使うかで「散らばりの中心」が変わります。

下のグラフは H さんを除いた 7 点のデータ（1,000〜1,300 円）を使います（H さんを含めると放物線が見づらくなるため 7 点で描画しています）。

二乗和（放物線）と絶対値和（V字形）の比較

赤線（二乗偏差の和）は 放物線 です。放物線は底が 1 点に決まります。縦軸の値が最も小さくなる点が 1 つしかなく、そこが「二乗和を最小にする基準点 c」になります。

青線（絶対値偏差の和）は V字形 です。V字の谷は 1 点というより、中央値のあたりで平坦な区間を持つことがあります。データの個数や分布によっては「どこが底か」が一意に定まらないケースが出てきます。

二乗偏差の和 Σ(x_i - c)^2 の最小化点が平均値になることは、中学数学の 平方完成 で確認できます。「二乗和の式を c について整理すると、c = x のとき最小値を取る形に書き換えられる」だけの話です。

平方完成で「最小点 = 平均」を導く（式 3 行）

二乗和の式をそのまま展開します:

Σ_i=1^n(x_i - c)^2 = Σ_i=1^n x_i^2 - 2c Σ_i=1^n x_i + n c^2

Σ x_i = nx（合計 = 個数 × 平均）を使って c について整理します:

= n(c^2 - 2cx) + Σ_i=1^n x_i^2

c^2 - 2cx = (c - x)^2 - x^2 と平方完成します:

= n(c - x)^2 + ( Σ_i=1^n x_i^2 - nx^2 )

第 2 項は c に依存しない定数です。第 1 項 n(c - x)^2 は c = x のとき 0、それ以外では正です。よって c = x で二乗和が最小になります。

一方で、絶対値偏差の和 Σ|x_i - c| を最小化すると、データが奇数個なら最小点は 中央値 に一致します。偶数個では中央 2 点の間のどこを選んでも最小値を取るので、中央値はその最小区間に含まれる代表点として扱います。

二乗を選ぶ構造的な理由

二乗を選ぶのは計算の便宜だけではありません。散らばりの中心を平均値に一意に定める という構造的な判断です。平均を使って中心を定義するなら、その中心から測る散らばりも同じく平均で最小化される量で揃える方が一貫しています。

分散と標準偏差

分散（標本分散、n 割り版）:

s^2 = (1)/(n) Σ_i=1^n (x_i - x)^2

記号の意味:

s^2: 分散を表す記号（ラテン文字を使うのは、これが「標本」から計算した量だという統計の慣例）
n: データの個数
x_i: i 番目のデータ
x: 平均（stats-01 で導入済み）
(x_i - x)^2: 偏差の二乗

分散の単位は元のデータの単位の二乗になります。時給（円）から計算した分散は「円²」という単位です。直感的に扱いにくい単位なので、平方根を取って元の単位に戻したものが 標準偏差 です。

s = √(s^2) = √((1)/(n) Σ_i=1^n (x_i - x)^2)

s は「各データが平均から典型的にどのくらい離れているか」を元の単位（円）で示します。

標準偏差を使う理由

分散の単位は元データの二乗（円²）で直感に乗りにくいため、平方根を取って元の単位に戻したのが標準偏差です。散らばりの大きさを語るときは、単位がそろう標準偏差を使うのが普通です。

なお、n で割る版（標本分散）と n-1 で割る版（不偏分散）の 2 種類があります。どちらを使うかは「何を推定したいか」によって変わります。本記事では n 割り版を使い、理由は補足記事（stats-supplement-sample-vs-population-variance）で扱います。

計算（バイト時給 8 人）

バイト時給 8 人のデータで分散と標準偏差を手計算します。

データ: A=1,000 / B=1,050 / C=1,050 / D=1,100 / E=1,150 / F=1,200 / G=1,300 / H=4,500（単位: 円）

平均: x = 12350 8 = 1543.75 円

偏差と偏差の二乗:

名前	時給	偏差 (x_i - x)（円）	偏差の二乗（円²）
A	1,000	−543.75	295,664.0625
B	1,050	−493.75	243,789.0625
C	1,050	−493.75	243,789.0625
D	1,100	−443.75	196,914.0625
E	1,150	−393.75	155,039.0625
F	1,200	−343.75	118,164.0625
G	1,300	−243.75	59,414.0625
H	4,500	+2,956.25	8,739,414.0625
合計		0（✓）	10,052,187.5

偏差の合計はゼロです（合計行参照）。プラスとマイナスが打ち消し合う限り、偏差をそのまま平均しても散らばりは測れません。

分散:

s^2 = (10,052,187.5)/(8) = 1,256,523.4375 円^2

標準偏差:

s = √(1,256,523.4375) ≈ 1121 円

標準偏差約 1,121 円は「この 8 人の時給は平均から典型的に 1,121 円程度ずれる」と読めます。H さんを除いた 7 人だけなら標準偏差は約 96 円で、H さん 1 人が加わることで約 11.7 倍になります。

H さんの偏差 +2,956 円は他 7 人の偏差（最大 −544 円）の 約 5.4 倍 です。ところが偏差を二乗すると H さん寄与は 2956^2 ≈ 8,740,000、A さん寄与は 544^2 ≈ 296,000 で 約 29 倍 に拡大します。二乗が外れ値の重みをさらに強める仕組みです。標準偏差は最後に平方根を取って戻すので、原寸に戻したように見えても、分散段階で外れ値が強く寄与した事実は消えません。「平均と中央値だけでなく、平均と標準偏差・中央値と IQR をペアで読む」のはこのためです。

偏差の可視化

下の図はバイト時給 8 人のデータ点と平均値（赤い縦線）を表示します。各点から平均への水平な距離が「偏差」、その距離の二乗が「二乗偏差」です。

偏差の可視化：各データ点と平均の距離

各行が 1 人です。横軸は時給、縦の赤い線が平均（1,544 円）です。点から平均への水平距離が偏差で、A〜G は左側にあるので偏差はマイナス、H だけ右側でプラスです。偏差の線の太さ・濃さは絶対値の大きさに対応し、H さんの線が一番太く濃くなります（平均から最も遠い）。分散は「この距離の二乗を 8 人ぶん平均した量」、標準偏差は最後に平方根を取って単位を円に戻したものです。

偏差を「長さ」で見たので、今度は「面積」で見ます。各点の偏差を一辺とする正方形を描くと、その面積がそのまま偏差の二乗です。下の図で H さんのスライダーを動かすと、正方形が二乗で膨らみ、分散への寄与が跳ね上がるのが分かります。

H さん 1 人の二乗寄与は全体の約 87% です。偏差の段階では H さんは他の約 5.4 倍でしたが、二乗（面積）にすると約 29 倍に拡大し、分散のほとんどを 1 人で占めます。

金融での登場場面

株式・ポートフォリオのリターンの「ボラティリティ（volatility）」は、リターンの標準偏差です。日次リターンや年次リターンのデータに対して分散と標準偏差を計算し、「このポートフォリオは年率何 % のリターンの振れ幅を持つか」を測ります。S&P 500 の年次リターンの標準偏差は、歴史的に年率 15〜20% 程度で推移しています（NYU Stern Damodaran の 1928 年以降データでは約 18.4%）。株式リターンの計算の仕組みとボラティリティの年換算方法は、stats-practice-stock-return-volatility で扱います。

この記事の持ち帰り

散らばりを測る指標は 4 つ: 範囲（脆弱）/ IQR（外れ値に鈍感だが外側情報を捨てる）/ 分散（全員参加・単位が二乗）/ 標準偏差（分散の平方根、元単位に戻る）
二乗を選ぶ理由: 二乗偏差の和は平方完成で n(c-x)^2 + const に整理でき、c = x で一意に最小化される。「散らばりの中心」が平均と整合する
絶対値ではダメか: 絶対値偏差の和の最小化点は中央値で、偶数個のときは最小区間に幅が出る。一意性が崩れる
外れ値は分散で増幅される: 偏差 5.4 倍が二乗で 29 倍に拡大。標準偏差で平方根を取って原寸に戻しても、外れ値の寄与は消えない
金融では ボラティリティ = リターンの標準偏差。S&P 500 は年率約 18% 前後で推移

次回: 分布の形

次回（stats-03）はデータ全体の形を見ていきます。ヒストグラムの作り方、分布の「歪み（skewness）」と「尖り（kurtosis）」を数値で表す方法を扱います。分散・標準偏差はデータの「広がりの大きさ」を 1 つの数で要約しますが、「分布がどちら側に歪んでいるか」「中心付近が尖っているか平坦か」という形の情報は別の量を使います。

平均値と中央値の使い分け

AlphaInsiders 編集部 — Thu, 14 May 2026 11:35:41 GMT

厚生労働省の 2024 年調査では、全世帯の平均所得が 536 万円、中央値が 410 万円。差は 126 万円。さらに、平均所得を下回る世帯は全体の 61.9% を占めています。同じデータから計算した「代表値」がここまでずれ、しかも 6 割以上が平均以下という事実が併存するのは、平均と中央値の計算の仕方も読み方もまったく違うからです。

この記事の主張

平均は値そのものを足し上げます。1 人の極端な値が (1)/(n) の重みで結果に寄与します
中央値は順位だけを見ます。順位が変わらない限り値も変わりません
この非対称が、所得分布で「6 割以上が平均以下」を生みます

8 人のバイト時給で見る

大学のゼミで夏休みの時給を集計しました。8 人のデータは次のとおりです。

名前（仮）	時給（円）
A	1,000
B	1,050
C	1,050
D	1,100
E	1,150
F	1,200
G	1,300
H	4,500

H だけ桁が違います。音楽フェスの搬入・撤収スタッフとして 1 日 2 万円の単発仕事を入れた結果、時給換算で 4,500 円。他の 7 人は 1,000〜1,300 円の範囲です。

8 人の平均時給は 1,543.75 円。H を除いた 7 人だけで計算すると 1,121.4 円。差は 422.3 円です。

平均 1,543.75 円は 8 人の誰の実時給とも一致しません。一番近い G でも 1,300 円で、平均からはまだ 243.75 円離れます。残り 7 人の時給は 1,000〜1,300 円の帯にあり、平均だけがその帯の外側にあります。

中央値の計算は手順が違います。8 人を小さい順に並べたとき、4 番目と 5 番目（D の 1,100 円と E の 1,150 円）の平均、1,125 円が中央値です。仮に H の時給が 4,500 円から 45,000 円に変わっても、4 番目と 5 番目のメンバーは入れ替わらないので、中央値は 1,125 円のままです。

平均は H 1 人の数字を全員で按分し、中央値は順位だけを見て真ん中を選びます。同じ「真ん中らしさ」を測る指標でも、外れ値の扱い方が正反対です。

平均は外れ値の 大きさ で決まります。中央値は順位が変わらないかぎり変わりません。

8 人のバイト時給：平均と中央値の位置

横軸が時給。1,000〜1,300 円の帯に 7 点が並び、4,500 円の位置に H が 1 点。赤い実線（平均 1,544 円）は帯の外側で H 側、青い破線（中央値 1,125 円）は 4 番目（D の 1,100 円）と 5 番目（E の 1,150 円）の中間にあります。値の大きさで決まる平均と、順位で決まる中央値の差が、縦線 2 本の位置差として可視化されます。

平均と中央値の数式

平均値

平均値は記号 x で表します（「エックスバー」と読みます）。x の上のバーは、統計学で平均を表す慣例の記号です。

x = (1)/(n) Σ_i=1^n x_i

n はデータの個数（今回は 8）、(1)/(n) は合計を個数で割る操作です。Σ_i=1^n x_i は x_1, x_2, …, x_n の総和で、n=8 なら x_1 + x_2 + … + x_8 を意味します。

平均は全員を等しい重み (1)/(n) で扱います。H の 4,500 円も、A の 1,000 円も、計算上は (1)/(8) ずつ寄与します。

中央値

中央値はデータを小さい順に並べたとき真ん中に位置する値です。本記事では中央値を median と表記します。

データを小さい順に並べ替えた数列を、改めて x_1 ≤ x_2 ≤ … ≤ x_n と書き直します。

データ数 n が 奇数のとき、真ん中はちょうど 1 つに決まります。真ん中の順位を整数 k で置けば、

k = (n+1)/(2), median = x_k (n が奇数)

偶数のとき は真ん中が 2 つに割れるので、その 2 つの平均を取ります。

k = (n)/(2), median = (x_k + x_k+1)/(2) (n が偶数)

今回のデータは n = 8 で偶数なので、k = 4。4 番目（1,100 円）と 5 番目（1,150 円）の平均、1,125 円が中央値です。

最頻値

最頻値は「一番多く出てくる値」です。今回のデータでは 1,050 円が 2 人（B・C）で最頻値です。

ただし最頻値は使いどころを選びます。連続的に値が取れるデータ（身長、時給、株価）では、どの値も 1 回しか出ないケースが多く、最頻値が決まらない・決まっても意味が薄いことが多いです。

最頻値が活きるのは、もともとカテゴリや離散値で構成されたデータです。「血液型で一番多いのは A 型」「アンケートの 5 段階評価で最も多い回答は 4」のような場面では、最頻値が代表値として機能します。

三者は等価ではない

本記事の主役は平均と中央値の対比です。最頻値は別の文脈（カテゴリデータ）で力を発揮する道具で、連続データに無理に当てはめると意味が薄れます。平均・中央値・最頻値を 横並びの 3 択 として扱わないようにしてください。

外れ値の影響

H の時給を 10 倍にしたら

H が翌週、別の特殊案件で時給 45,000 円の仕事を得たとします。データの 8 番目だけが 4,500 → 45,000 に変わります。

	元のデータ	外れ値を 10 倍に
H の時給（円）	4,500	45,000
合計（円）	12,350	52,850
平均（円）	1,543.75	6,606.25
中央値（円）	1,125	1,125

平均は 1,543.75 円から 6,606.25 円へ、約 4.3 倍。中央値は 1,125 円のままです。

8 人のうち H の値だけを変えるので、分母は 8 のままです。変化分を式で追うと、

x' - x = (x_8' - x_8)/(n)

プライム記号 '（ダッシュ）は「変化後の値」を表す慣例です。x_8 が元の H の時給、x_8' が変更後の時給、x' が変更後の平均です。

H の増加分 x_8' - x_8 = 40,500 円が、そのまま 8 で割られて平均に加算されます。10 倍ぶんの増加なら、その 9 倍ぶん（9 × 4,500 / 8 = 5,062.5 円）が平均に加算されます。1,543.75 + 5,062.5 = 6,606.25 円で、表の数字と一致します。

増加量と平均の差は 比例関係（外れ値が 2 倍変われば平均の差も 2 倍、10 倍変われば 10 倍）です。中央値はこの線形性の外側にあります。計算に使うのは 4 番目と 5 番目の値だけなので、H の順位は 8 番目のままで、4,500 円が 45,000 円に変わっても 4 番目の D（1,100 円）と 5 番目の E（1,150 円）は影響を受けません。中央値は 1,125 円のままです。

平均の挙動

値そのものを (1)/(n) ずつ重みづけして足します。外れ値の変化量 Δ x がそのまま (1)/(n) 倍されて結果に加算されます。線形に寄与します。

中央値の挙動

並べ替えたあとの順位だけを見て真ん中を取ります。外れ値が何倍になっても、4・5 番目の値が入れ替わらない限り 1 円も変わりません。

外れ値変更後の平均の変化を式で追う

元の合計を S = Σ_i=1^8 x_i = 12350 とします。H の値（x_8 = 4500）が x_8' = 45000 に変わると、新しい合計は次のとおりです。

S' = S - x_8 + x_8' = 12350 - 4500 + 45000 = 52850

新しい平均は次のようになります。

x' = (S')/(n) = (52850)/(8) = 6606.25

変化量は次のとおりです。

x' - x = (x_8' - x_8)/(n) = (45000 - 4500)/(8) = (40500)/(8) = 5062.5

外れ値の変化量 Δ x = x_8' - x_8 がそのまま (1)/(n) 倍されて平均に加算されます。これが「平均は外れ値に線形に寄与する」という表現の意味です。

右歪み分布での並び

所得・資産・住宅価格・株式リターンは「右歪み」になりやすい量です。ヒストグラムは、値の範囲をいくつかの区間に区切り、各区間にデータがいくつ入るかを縦棒の高さで表した図です。右歪みとは、そのヒストグラムの右側だけが長く伸びている形のことです。

所得・資産・住宅価格のような量は、下方向には大きな限界がある一方、上方向には大きく伸びる余地があります。少数の高収入者が右裾に外れ値として残るため、分布は右側だけが伸びた形になります。

右歪みの連続分布では、典型的に次の順序が成立します（横軸を時給や所得とすれば、左から最頻値・中央値・平均の順）。

最頻値 < 中央値 < 平均

最頻値はヒストグラムの山のてっぺんで、もっとも度数が高い値です。中央値は データの個数を左右 50:50 に分割する位置（それより小さい値と大きい値が同じ個数になる境目の値）です。平均は右側の高い値の寄与で右に位置します。右裾が長いほど、3 本の縦線の位置の差は大きく開きます。

上の図で「右歪み」を選ぶと、3 本の縦線（最頻値=緑、中央値=青、平均=赤）が左からその順に並びます。「左右対称」では 3 本が重なります。

ただしこの不等式は普遍的ではありません。von Hippel（2005 年、Journal of Statistics Education）は、離散分布や多峰性の分布では「最頻値 < 中央値 < 平均」が成立しないケースがあることを示しました。本記事が扱う所得・時給のような連続型の右歪みデータでは典型的に成立しますが、「常に成立する」とは言えません。

右歪みデータで中央値が適切な場面

右歪みのデータで「典型的な人・世帯・銘柄はいくらか」を 1 つの数で要約したいなら、平均よりも中央値の方が目的に合います。一方で、期待値や総額が要る場面（保険料の算定、税収の見積もり、ポートフォリオの期待リターン）では平均の方が正しい答えになります。同じデータでも知りたいことが違えば代表値が違います。中央値と平均を並べると、差が大きいほど分布の歪みが大きいと読めます。

厚労省の国民生活基礎調査（2024 年調査・2023 年所得）では、全世帯の平均所得が 536 万円、中央値が 410 万円。さらに、平均所得以下の世帯は全体の 61.9% を占めます。6 割以上が「平均以下」になるのは、少数の高所得世帯が平均に大きく寄与しているからです。「ふつうの世帯の所得」を答えたいなら、中央値 410 万円が数字として近いです。平均 536 万円は上位世帯が平均を 126 万円引き上げた結果です。

ありがちな誤解

「平均より下が 50% で平均より上が 50%」ではありません。それは中央値の定義であって、平均ではありません。所得・資産・株価のような右歪みデータでは、平均より下が 60% 以上 になることが普通です。ニュースで「平均年収 X 万円」と聞いて「自分はそれ以下だから平均以下」と落ち込む必要はありません。中央値が併記されている統計を見れば、世帯の半数が割り込んでいるラインがわかります。

H の時給を変える

下のスライダーで H の時給 を変えると、平均と中央値の反応が確認できます。A〜G の時給は固定（1,000〜1,300 円）です。外れ値追加ボタンで「もう 1 人さらに極端な時給の人（45,000 円）が混じった場合」も試せます。

スライダーを右にドラッグすると、赤い縦線（平均）は大きく右へ動きます。青い縦線（中央値）はほぼ静止しています。H の時給を 2,000 円まで下げれば平均が 1,200 円台に落ちて中央値とほぼ重なり、10 万円まで上げれば平均は 13,500 円付近、外れ値追加ボタンを押せば 45,000 円が混ざって平均は 6,370 円前後になります。一方、中央値は順位 5 番目の値で決まるため、外れ値の数が増えても 1,125 円のままです。

赤線と青線の離れ具合が、外れ値の歪み度合いの可視化です。所得・株価のデータでも、平均と中央値の距離を見れば外れ値の影響量がわかります。

金融での登場場面

銘柄別リターンの分布

所得分布と並行する構造は、株式市場でも起きます。保有銘柄ごとのリターンを横に並べると、分布は右歪みになりやすいです。少数の銘柄が大幅に上昇する一方で、大多数の銘柄のリターンは中央値に近い水準にあります。保有銘柄の平均リターンが実感より良く見えるときは、右歪みが原因です。中央値リターンと並べると、平均を下回る銘柄がどれだけあるかがわかります。

家計の金融資産

家計の金融資産も右歪みです。預金・株式・債券を合わせた保有額は、下方向には 0 で止まる一方、上方向には大きく伸びる余地があるためです。報道で「世帯あたり金融資産の平均は X 万円」と出るとき、その平均は資産規模の大きい一部の世帯が大きく寄与した数字です。「世帯の半数が持っている金額を知りたい」なら、中央値が答えです。平均は上位層の保有額を込みで按分した数字で、中央値より高く出ます。

ファンドのパフォーマンス評価

ファンドや個別銘柄のパフォーマンス評価では時系列にも右歪みが出ます。年率リターンの平均は、長期で見ると数年の大幅上昇が大きく寄与する一方、中央値のリターンは「半数の年がそれより下、半数の年がそれより上」のラインです。過去 10 年の平均リターンを見るときは、中央値・四分位（25%・75% 点）と並べると、その平均が一部の年に寄与されているかが判別できます。

ポートフォリオ全体の期待リターンを計算する場面では平均が正しい量です。一方、個別銘柄を選ぶ・ファンドを比較する段階では、平均の裏にどれだけ歪みが隠れているかを必ず確認してください。株式・資産・リターンのどの場面でも、何を知りたいかで使うべき代表値が変わるという原則は所得分布と同じです。

結論

平均と中央値の違いは、外れ値への感度の非対称性にあります。平均は値そのものを (1)/(n) ずつ重みづけして足すので、1 人の極端な値が全体に直接 (1)/(n) で寄与します。中央値は順位だけを見て真ん中を取るので、順位が変わらない限り影響を受けません。所得・資産・株価のような右歪み分布で「6 割以上が平均以下」になるのは、この構造から来ます。

「典型的な人」を知りたいなら中央値、「期待値・総額」を知りたいなら平均。同じデータでも、どちらが答えになるかは何を知りたいかで決まります。

次回: 散らばり

次回（stats-02）は散らばりの測り方、分散と標準偏差を扱います。平均・中央値はデータの「典型値」を表しますが、典型値が同じでもデータの形はまったく違うことがあります。10 人全員が 170cm のグループと、150cm から 190cm まで散らばるグループは、平均身長が同じでも分布はまったく違います。その「散らばり」を数値で表す方法が分散です。