独立性とは、2 つの事象 , について、 が起きたという情報を得ても の確率が変わらない関係です。
定義
独立性(independence、統計的独立)は、2 つの事象 , に対して次の積形式で定義します。
ここで は「 と がともに起きる」事象(積事象)、 と はそれぞれの事象が起きる確率です。 のとき、この定義は条件付き確率( が起きたと分かったときの の確率)を使った形と同値になります。
この条件付き形式が独立性の意味を直接表しています。「 が起きた」という情報を受け取っても の確率が のまま変わらない、つまり の発生が に関する情報を一切運ばないということです。独立を記号で書くとき (「 は と独立」と読む)と表記することもあります。
性質
独立性には次の性質があります。
- 対称性: が と独立なら も と独立です。定義式 が と について対称な形をしているので、どちらを「先」に考えても成り立ちます。
- 同時確率が積で求まる: と が独立なら同時確率を周辺確率の積 で計算できます。ただし「積で求まる」という覚え方を先行させると核心(情報が運ばれない)を見失います。
- 情報が運ばれない: なので、 が起きたと観測しても の予測精度は変わりません。この性質が「複数の情報源を組み合わせる」場面で独立性を前提にする理由です。
- 排反とは正反対の概念: 排反()は「一方が起きれば他方は絶対に起きない」という最強の情報伝達で、独立とは逆方向の関係です。 かつ なら、排反な 2 事象は必ず従属になります()。
視覚的に見る
、 の独立な 2 事象を 1×1 の矩形で表した図です。横軸を「 が起きたかどうか」で 2 つの縦帯に分け、縦軸を「 が起きたかどうか」で分割します。
横軸の縦線(位置 0.4)が「 が起きた帯」と「 が起きない帯」の境界です。独立な状態では、左帯でも右帯でも上( が起きた)と下( が起きない)の比率がどちらも 0.3:0.7 で揃っています。左帯の面積 0.12 は の値そのものです。縦の位置をどこで切っても「上下比率が変わらない」ことが、 の情報を得ても の確率が動かないことを直接表しています。比率が左右でずれていれば従属で、 を観測することで の予測精度が変わります。
実世界での使われ方
独立性の仮定は「複数の情報源を組み合わせて確率を更新する」場面で前提として現れます。
複数検査の組み合わせ: 医療現場では、最初の検査結果を踏まえて 2 回目・3 回目の検査を逐次実施し、ベイズの定理で事後確率を更新していく手法が使われます。この更新が正しく機能するのは「1 回目の検査結果が 2 回目の検査精度に影響しない」という独立性の仮定が成り立つときです。同じ試薬・同じ機序の検査を繰り返す場合、実際には相関が生じ得るため、独立性の仮定が診断精度の前提になります。
ファクター投資のシグナル統合: 複数のファクターシグナル(モメンタム・バリュー・クオリティなど)を独立に観測したと仮定して事後確率を更新するアプローチが実務で使われています。Black & Litterman (1991) "Asset Allocation: Combining Investor Views with Market Equilibrium"(Journal of Fixed Income) が提示したベイズ的ポートフォリオ最適化の枠組みは、シグナル間が弱い相関しか持たない(独立に近い)場合にシグナル統合の精度が保たれる構造になっています。シグナル間の相関が強くなると過信 (overconfidence) が生じ、期待リターンの見積もりが偏ります。
A/B テストの並行実施: ウェブサービスで複数の A/B テストを同時に走らせるとき、ユーザーの割り当てが独立であれば各テストの効果を別々に推定できます。ユーザーのセグメントが重複したり割り当てに偏りがあったりすると独立性が崩れ、テスト間で効果の交絡(confounding)が起きます。複数テストの設計では「割り当て機構が独立性を保証しているか」が先決問題になります。
深掘り
3 事象以上の相互独立と対独立の区別は、つまずきやすい発展トピックです。2 事象の独立だけで十分なら飛ばせます。
3 事象以上の相互独立性と対独立性
3 つ以上の事象に独立性を拡張するとき、「対独立(pairwise independent)」と「相互独立(mutually independent)」の区別が生じます。
3 事象 , , の対独立は、すべての 2 事象のペアが独立であることを要求します。
相互独立はこれに加えて 3 事象の同時確率も積で書けることを要求します。
4 事象以上でも同様に、すべての部分集合で積の形式が成り立つことが相互独立の条件です。対独立でありながら相互独立でない例があります。コイン 2 枚を独立に投げて 「1 枚目が表」、「2 枚目が表」、「2 枚の結果が一致(両表か両裏)」とすると、 と 、 と 、 と はそれぞれ独立( など)ですが、 に対して が成り立たず、相互独立ではありません。
条件付き独立性
が起きたという条件の下で と が独立になる関係を条件付き独立と呼び、次のように定義します。
ベイジアンネットワーク(確率グラフィカルモデル)では条件付き独立性が構造の基礎になっています。「 が と の共通原因であれば、 を観測した後で と は独立になる」という関係が因果推論で頻繁に登場します。注意が必要なのは、周辺独立 ( の情報なしでの独立)と条件付き独立 ( を条件付けた後での独立)は独立した概念であることです。一方が成り立っても他方が成り立つとは限りません。
独立性と無相関の片方向関係
確率変数 と が独立ならば共分散はゼロ、つまり無相関になります。
独立性の定義 から が導かれるため、この片方向は常に成立します。逆方向(無相関ならば独立)は一般には成り立ちません。( から の一様分布)と は で無相関ですが、 は の関数なので独立ではありません。二変量正規分布の場合に限り「無相関」と「独立」が同値になります。
測度論的な定義(簡潔に)
測度論では独立性をより一般的な形で定義します。2 つの 加法族 、 について、任意の と に対して が成り立つとき、 と が独立であると定義します。事象の独立性はこの枠組みの特殊ケースで、確率変数 と の独立性は と が生成する 加法族の独立性として一般化されます。
よくある誤解
初学者が陥りやすい誤解が 2 つあります。
- 「独立 = 排反」の混同: 「独立した検査」「独立な施行」という日常語の「独立」から「互いに関係がない、起きても起きなくても関係ない」と理解して排反性と混同するケースがあります。排反()は「 が起きたら は絶対に起きない」という情報の最強伝達で、独立とは正反対です。 かつ のとき、排反な 2 事象は ですが なので必ず従属になります。
- 「対独立ならば相互独立」の誤解: すべての 2 事象の組が独立であっても、3 事象の同時確率が積の形にならないことがあります。上の反例(コイン 2 枚のケース)が示すように、対独立は相互独立より弱い条件です。
関連する用語
- 条件付き確率 — 独立性は条件付き確率 として定義される
- 排反事象 — 独立と混同されやすい対概念。最強の負の従属
- 確率変数 — 事象の独立性は確率変数の独立性に一般化される
- 期待値の線形性 — 独立を仮定しなくても成り立つ(独立性が不要な例として)
詳しくは
- stats-07: 条件付き確率とベイズの面積 — 矩形分割で「縦のどこで切っても比率が同じ」状態を独立として読む