カテゴリ: モデル
種類: 統計モデル
起源: カール・フリードリヒ・ガウス、1809年
別名: ガウス分布、ベルカーブ、ラプラス=リンデベルグ条件
種類: 統計モデル
起源: カール・フリードリヒ・ガウス、1809年
別名: ガウス分布、ベルカーブ、ラプラス=リンデベルグ条件
Quick Answer - 正規分布(Normal Distribution、Gaussian Distribution)は、統計学で最も重要な確率分布の一つで、確率変数の値が平均の周辺に集まりやすいことを表します。特徴的なベル型曲線により、観測値の多くは平均付近に集中し、両端の極端値は少なくなります。1809年にカール・フリードリヒ・ガウスが天文観測誤差の分析で定式化して以来、現代統計・品質管理・金融モデリングの基盤になってきました。一方で、極端事象を過度にまれとみなす前提は、ブラック・スワン文脈で重大なリスク管理失敗を招くことも示されています。
What is the Normal Distribution?
正規分布は、データ点が中心値(平均)周辺にどのように分布するかを表す連続確率分布です。特徴的なベル型は中心極限定理から説明されます。すなわち、独立な確率変数の和(または平均)は、元の分布形が異なっていても正規分布に近づく、という性質です。この数学的性質が、自然現象や人間行動で正規分布が頻出する理由を与えます。“The normal distribution is not a law of nature; it is a statistical regularity that emerges from the aggregation of many small independent factors.” - Stephen Stigler正規分布は2つのパラメータで定義されます。平均(mu)は中心位置を、標準偏差(sigma)は広がりを決めます。観測値の約68%は平均から1標準偏差以内、約95%は2標準偏差以内、約99.7%は3標準偏差以内に収まるという、いわゆる「68-95-99.7ルール」が直感的な使いやすさを生みます。
Normal Distribution in 3 Depths
- Beginner: ある集団の身長は正規分布に近い形になりやすく、多くの人は平均近辺、極端に低い・高い人ほど少なくなります。同様の傾向は試験得点、血圧、生体計測値などにも見られます。
- Practitioner: 信頼区間計算や仮説検定で正規分布を使います。ただし便利な近似であって常に厳密モデルではありません。正規分布前提の手法を使う前に、データが実際にベルカーブに近いかを確認してください。
- Advanced: 中心極限定理の強みと限界を理解します。金融市場のようなファットテール領域で正規性を仮定すると、テールリスクを深刻に過小評価し得ます。前提が崩れる場面では Student’s t 分布などの代替分布も検討します。
Origin
正規分布は19世紀初頭に複数の流れが合流して成立しました。1733年にアブラハム・ド・モアブルが賭博確率研究で数式形を発見しましたが、当時は広く普及しませんでした。1809年にカール・フリードリヒ・ガウスが天文観測誤差分析で独立に導出し、“Gaussian distribution” として定着しました。 ガウスの影響が大きかった理由は、正規分布を最小二乗法の正当化に結びつけたことです。最小二乗法は、データ点への最適当てはめを行う基盤技術で、現在の回帰分析でも核心を担います。後にピエール=シモン・ラプラスが中心極限定理を証明し、正規分布が実務で頻出する理由が理論化されました。 19〜20世紀には正規分布の影響力が非常に強く、しばしば「自然法則」のように誤解されました。数学者カール・ピアソンが “normal distribution” という呼称を広めたこともあり、「正規から外れるものは異常」という誤読が実務に残る要因になりました。Key Points
中心極限定理が数学的基盤になる
多数の独立確率変数の和や平均は、元分布に関わらず正規分布へ近づくという定理です。試験得点、測定誤差、収益率などで正規分布が現れやすい理由を説明します。ただし適用対象は「和や平均」であり、個々の値そのものではありません。
正規性仮定は大きく外れることがある
多くの統計手法は正規性を仮定しますが、現実には大きく逸脱する現象が少なくありません。金融収益率、所得分布、インターネットトラフィックなどではファットテールが見られ、極端事象が正規分布予測より高頻度で起こります。
Applications
品質管理と製造
製造工程の管理限界設定に正規分布を使います。測定値が目標の3標準偏差内なら工程は管理状態とみなし、逸脱時は異常要因を疑って介入します。Six Sigma の実務基盤です。
統計推論と仮説検定
t検定、ANOVA、回帰など多くの統計検定は正規性を前提にします。正規分布理解は、信頼区間・有意性・p値解釈を適切に行うための土台です。
標準化テスト評価
SAT、GRE、IQテストなどでは、得点分布が正規分布に近くなるよう尺度設計されます。平均(例: SAT 500、IQ 100)と標準偏差でパーセンタイル順位を解釈します。
金融モデリングとリスク評価
収益率やVaR推定に正規分布は広く使われますが、2008年危機はその危うさを示しました。実際の市場はファットテールであり、極端事象は正規分布想定より高頻度に生じます。
Case Study
2008年金融危機は、金融実務における正規分布前提の危険性を示しました。危機前、銀行や投資会社は住宅ローン延滞率や債券損失などが正規分布に従うと仮定していました。この前提では平均から3標準偏差を超える事象は0.3%未満、日次で見ればほとんど起こらない計算になります。 しかし実際には、モデル想定を大きく超える「5シグマ級」事象が繰り返し発生しました。正規分布モデルは「破局的損失は実質ゼロ確率」と示し、ポートフォリオを過小防衛に導きました。現実には、損失は正規前提で許容した範囲を大幅に超えました。 この教訓を受け、危機後の先進的機関は正規分布モデルを補完する形で、ストレステスト、シナリオ分析、ファットテール対応分布を導入しています。ブラック・スワン・モデル(/ja/models/black-swan-model)は、なお多くの現場で正規性への過信が続いていると警鐘を鳴らします。
Boundaries and Failure Modes
現実の多くの分布は正規ではない
現実の多くの分布は正規ではない
所得、株式収益率、都市規模、トラフィック分布などは正規から大きく外れます。非正規データに正規前提手法を使うと、信頼区間やp値が誤る恐れがあります。
金融でテールリスクを過小評価しやすい
金融でテールリスクを過小評価しやすい
正規分布前提の金融モデルは、暴落の確率と影響度を体系的に低く見積もります。2008年危機、LTCM破綻など多くの失敗がこの問題を示しています。
中心極限定理は標本サイズに依存する
中心極限定理は標本サイズに依存する
正規近似には十分なサンプル数(一般に30以上)が必要です。小標本では、元現象が近似的に正規でも平均分布が十分に正規化されない場合があります。CLTの適用を前提にし過ぎないことが重要です。
Common Misconceptions
正規分布は誤用されやすい概念です。よくある誤解は「normal=自然で普遍」という見方ですが、非正規な現象は多数存在します。次に、68-95-99.7ルールを普遍法則として扱う誤りがあります。このルールは正規分布にのみ有効です。さらに「中心極限定理が最終的にすべてを正規化する」という誤解もあります。定理は和や平均に関する主張であり、個別値に直接適用されるものではありません。Related Concepts
正規分布は複数の重要概念と接続します。ファットテール分布(/ja/models/fat-tailed-distribution)は、極端事象がより頻繁に起こる現象を説明し、正規前提を補正します。標準偏差は分布の散らばりを測る基本量で、68-95-99.7ルールの根拠です。ブラック・スワン・モデル(/ja/models/black-swan-model)は、リスク管理での正規分布過信を批判します。中心極限定理は、正規分布が実務で広く現れる数学的理由を与えます。