カテゴリー: Analysis

  • 確率不等式 1.

    あまり日本語で書いているネットの記事が多くなかったので確率不等式についてちょっとだけ書いてみます。この種のテーマはある程度手法自体は似通っているものの、どちらかというと技術的な話題のため、応用に応じて適切なものを選んでいくことが必要なので、散在的な話題になりがちで書きにくいというのはあるんですかね。とはいうものの1本目に書くこの内容については、確率不等式を使っていくならマストだろうという感じですがね。

    Markovの不等式

    確率不等式のすべての出発点はこのMarkovの不等式でしょう。なお、これをChebyshevの不等式という文献もあるみたいです。

    定理1(Markov の不等式)

    \(X\) を非負値確率変数, \(a>0\) とする. このとき,

    \[\Pr[X\geq a]\leq\frac{\mathbb{E}[X]}{a}\]

    が成立する.

    証明

    \[\mathbb{E}[X]\geq\mathbb{E}[X1_{\{X\geq a\}}]\geq a\Pr[X\geq a]\]
    より従う.

    証明を見れば分かるとおり、等号成立条件は \(X\) がほとんど確実に定数関数になっていることです。さらに \(a\) に比べてやたらデカい値を \(X\) がとる場合には評価としては使い物にならなさそうなことが分かると思います。

    \(X\) が平均 \(1\) の指数分布, すなわち密度関数が \(f_X(x)=e^{-x}1_{[0,\infty)}\) で与えられるような分布を持つとしよう. このとき, Markovの不等式を適用して, \(X\geq n\) なる確率を評価すると,

    \[\Pr[X\geq n]\leq\mathbb{E}[X]/n=\frac{1}{n}\]

    となるが, 実際には \(\Pr[X\geq n]=e^{-n}\) より実際の値に比べて Markovの不等式が示唆する上限は指数的に悪い.

    ですが、Markov の不等式はここからの議論の出発点にはなり得ます。重要な工夫は、非負値関数 \(\psi:\mathbb{R}\to\mathbb{R}\) が与えられたときに、実確率変数 \(X\) と実数 \(a\in\mathbb{R}\) に対して、\(\psi(a)>0\) である限り、Markov の不等式から

    \[\Pr[X\geq a]\leq\Pr[\psi(X)\geq\psi(a)]\leq\psi(a)^{-1}\mathbb{E}[\psi(X)]\]

    が成立するということです。例えば二乗可積分確率変数 \(X\) と \(\varepsilon>0\) に対して、\(\psi(x)=(x-\mathbb{E}[X])^2\) として上記の考察を適用すれば、有名な Chebyshevの不等式

    \[\Pr[|X-\mathbb{E}[X]|\geq\varepsilon]\leq\frac{\mathrm{Var}[X]}{\varepsilon^2}\]

    が得られます。

    モーメント母関数

    一般には Markov の不等式よりも Chebyshev の不等式の方が評価は良いことが多いです。これは結局のところある分布が高次のモーメントをもてばもつほど、その分布は裾野において急減少するため、高次のモーメントを利用した方が裾野を評価するにあたってより強い情報をもたらしてくれるということに他なりません。そこですべての次数のモーメントを利用する方法としてモーメント母関数を導入しましょう。

    定義2 モーメント母関数

    実確率変数 \(X\) に対するモーメント母関数(Moment Generating Function, MTG) \(M_X(\lambda)\) とは,

    \[M_X(\lambda)=\mathbb{E}[e^{\lambda X}]\]

    で定義される関数のことである.

    まず簡単に性質を紹介しておきます。まずモーメント母関数は \(0\) を含む凸集合上で定義され、定義域上では常に正の値をとります。しかし、一方でモーメント母関数の定義域についてこれ以上のことを言うことはできません。

    また、\(X_1,\ldots,X_n\) が独立であれば、Fubiniの定理から
    \[M_{X_1+\cdots+X_n}(\lambda)=M_{X_1}(\lambda)M_{X_2}(\lambda)\cdots M_{X_n}(\lambda)\]
    と和のモーメント母関数はもとのモーメント母関数の積の形になります。なお、左辺と右辺のすべての項が定義されることは同値であることに注意しておきます。

    いくつか例を計算してみましょう。

    例 (正規分布)

    平均 \(\mu\), 分散 \(\sigma^2\) の正規分布に従う確率変数 \(X\) に対して, そのモーメント母関数は,
    \[M_X(\lambda)=\exp\left(\mu\lambda+\frac{\sigma^2\lambda^2}{2}\right)\]
    で与えられる. 定義域は実数全体である.

    例 (カイ二乗分布)

    自由度 \(n\) のカイ二乗分布とは, 独立に標準正規分布に従う確率変数 \(Z_1,\ldots,Z_n\) があったときに,
    \[X=Z_1+Z_2+\cdots+Z_n\]
    が従う分布である. その密度関数は
    \[f_X(x)=\frac{1}{2^{n/2}\Gamma(n/2)}x^{n/2-1}e^{-x/2}1_{(0,\infty)}(x)\]
    で与えられることに注意すれば, モーメント母関数は
    \[M_X(\lambda)=\left(\frac{1}{1-2\lambda}\right)^{n/2}\]
    となり、その定義域は \((-\infty,1/2)\) となる。

    確率変数 \(X\) をその密度関数が
    \[f_X(x)=\begin{cases} C\frac{e^{-|x|}}{x^2} & (|x|\geq 1)\\ 0 & (|x|<1)\end{cases}\]
    で与えられるものとする. ここで \(C>0\) は正規化定数である. すると, モーメント母関数の定義域は \([-1,1]\) になる.

    Cramer-Chernoff 不等式

    以下、確率変数 \(X\) が \(D\subset\mathbb{R}\) 上でモーメント母関数 \(M_X(\lambda )\) をもつとします。このとき
    \[\psi_X(t)=\sup_{\lambda\in [0,\infty)\cap D}(\lambda t – \log M_X(\lambda))\]
    とおきます。

    定理3 (Cramer-Chernoff 不等式)
    任意の t > 0 に対して,
    \[\Pr[X\geq t]\leq\exp(-\psi_X(t))\]
    が成立する.

    証明

    Markov の不等式から, \(\lambda\in[0,\infty)\cap D\) に対して,
    \[\Pr[X\geq t]=\Pr[e^{\lambda X}\geq e^{\lambda t}]\leq e^{-\lambda t}\mathbb{E}[e^{\lambda X}]\]
    となるので, \(\lambda\) に渡って上限をとると所望の結論を得る.

    Cramer-Chernoff 不等式を用いると, 非常にタイトな評価を得ることができます。

    例 (正規分布)

    \(X\) が正規分布に従うとき, Chernoff 不等式を適用すると,
    \[\Pr[X-\mathbb{E}[X]\geq t]\leq \exp(-\sup_{\lambda>0}(\lambda t -\frac{\lambda^2\sigma^2}{2}))=e^{-\frac{\lambda^2}{2\sigma^2}}\]
    となる.

  • ラグランジュの反転公式

    逆写像定理とラグランジュの反転公式と呼ばれる逆関数を元の関数を使って陽に書く公式について書きます. 複素解析学の基本的な知識を仮定します.

    逆写像定理

    せっかくなので逆写像定理から証明していきましょう. 逆写像定理の証明と言えば不動点定理あるいはほとんど同じことですがNewton法で各点に対応する逆関数の点を探すという証明が有名ですが, 1変数の正則関数の場合にはRoucheの定理を経由した奇麗な証明があるので, そちらを見ていきましょう.

    まず, 今回用いる道具であるRoucheの定理について復習しておきましょう. よく知られた定理なので証明は省略します.

    定理[Roucheの定理]

    \(U\subset\mathbb{C}\) を空でない単連結開集合, \(C\subset U\) を区分的に滑らかな閉曲線とし, \(f,g:U\to\mathbb{C}\) を定数でない正則関数とする. このとき, \(C\) 上のすべての点 \(z\in C\) で \(|f(z)|>|g(z)|\) が成立すれば, \(C\) の内部における \(f(z)\) と \(f(z)+g(z)\) の零点の個数は(位数の重複も含めて数えれば)一致する.

    補題1

    \(U\subset\mathbb{C}\) を空でない開集合, \(f:U\to\mathbb{C}\) を正則関数とする. \(z_0\in U\) に対して, \(f'(z_0)\neq 0\) が成立するとし, \(w_0=f(z_0)\) としよう. このとき, \(z_0\) を中心とする開円板 \(V\) で \(\overline{V}\subset U\) なるものと \(w_0\) を中心とする開円板 \(W\) が存在して, 任意の \(w\in W\) に対して \(f(z)=w\) となる \(z\in V\) が一意に存在する.

    証明

    \(f'(z_0)\neq 0\) なので, \(f(z)-w_0\) は \(z_0\) で \(1\) 位の零点をもつ. 零点の孤立性から十分小さい \(\varepsilon>0\) をとれば, \(\{z\in\mathbb{C}:|z-z_0|=\varepsilon\}\subset U\) かつ \(|z-z_0|\leq \varepsilon\) において \(f(z)-w_0\) は \(z_0\) 以外の零点をもたないようにすることができる.

    \[m=\min_{z\in\{z\in\mathbb{C}:|z-z_0|=\varepsilon\}}|f(z)-w_0|\]

    とおこう. なお最小値の存在は上式がコンパクト集合上の連続関数の最小化になっていることから従う. 定め方から \(m>0\) である. 今\(V=\{z\in\mathbb{C}:|z-z_0|<\varepsilon\}\) および \(W=\{w\in\mathbb{C}:|w-w_0|<m\}\) とおこう. すると, 任意の \(w\in W\) に対して,

    \(\begin{align}|(f(z)-w)-(f(z)-w_0)|&=|w-w_0|\\ &<m\\ &\leq |f(z)-w_0|\end{align}\)

    となる. ゆえに Roucheの定理から \(f(z)-w_0\) と\(f(z)-w=(f(z)-w)-(f(z)-w_0)+(f(z)-w_0)\) の\(V\) での零点の個数は一致し, これはちょうど \(1\) つである. ゆえに任意の \(w\in W\) に対して, ただ一つの \(z\in V\) が存在して, \(f(z)=w\) となる.

    補題2

    補題1と同じ状況の下, \(z_0\) の開円板 \(V\) と \(w_0\) の開円板 \(W\) の間に逆写像 \(g=f^{-1}:W\to V\) が定まる. \(C=\partial V\) を \(U\) における \(V\) の境界のなす円周とすると, \(g\) は積分表示

    \[g(w)=\frac{1}{2\pi i}\int_C \zeta\frac{f'(\zeta)}{f(\zeta)-w}d\zeta\]

    をもつ. 特に \(g\) は \(W\) 上正則である.

    証明

    まず, 補題1の証明から\(w\in W\)を固定するごとに \(C\) 上では

    \[|f(\zeta)-w|\geq |f(\zeta)-w_0|-|w-w_0|>0\]

    なので, この積分で分母が0になることはなく, 積分は問題なく定義されることに注意しておく.

    \(w\in W\) を固定する. このとき, \(U\) 上の正則関数\(f(z)-w\) は \(V\) 上で\(1\) 位の零点をもつから \(\frac{(f(z)-w)’}{f(z)-w}=\frac{f(z)’}{f(z)-w}\) の \(V\) の中での極は \(g(w)\) で\(1\)位のみであり, \(\zeta\mapsto\zeta\frac{f'(\zeta)}{f(\zeta)-w}\) の \(z=g(w)\) での留数は \(g(w)\) なので, 留数定理から積分表示

    \[g(w)=\frac{1}{2\pi i}\int_C \zeta\frac{f'(\zeta)}{f(\zeta)-w}d\zeta\]

    が従う. \(g\) の正則性は \(W\) の中の任意の区分的に滑らかな単純閉曲線 \(\gamma\) に対して, \(C\times\gamma\) 上で関数 \((\zeta,\eta)\mapsto\zeta\frac{f'(\zeta)}{f(\zeta)-\eta}\) は有界な連続関数となり, しかも \(\zeta\in C\) を固定するごとに \(\gamma\) の内部で \(\eta\) について正則である. 以上からFubiniの定理とCauchyの積分定理を用いて,

    \[\int_\gamma g(\eta)d\eta=\frac{1}{2\pi i}\int_C\int_\gamma \zeta\frac{f'(\zeta)}{f(\zeta)-\eta}d\eta d\zeta=0\]

    となるので, \(\gamma\) の任意性から Moreraの定理により従う.

    以上をまとめて逆写像定理が従います.

    定理[逆写像定理(Inverse Function Theorem for Holomorphic Functions)]

    \(U\subset\mathbb{C}\) を空でない開集合, \(f:U\to\mathbb{C}\) を正則関数とする. \(z_0\in U\) に対して, \(f'(z_0)\neq 0\) が成立するとし, \(w_0=f(z_0)\) としよう. このとき, \(z_0\) を中心とする開円板 \(V\) で \(\overline{V}\subset U\) なるものと \(w_0\) を中心とする開円板 \(W\) が存在して, \(f|_V\) は双正則, すなわち正則かつ逆写像が存在して, 逆写像も正則になる.

    ラグランジュの反転公式

    逆写像定理から正則関数 \(f: U\to\mathbb{C}\) が与えられたとき, \(z_0\in U\) に対して \(f'(z_0)\neq 0\) であれば, \(z_0\) のある開近傍\(V\subset U\) 上で \(f|_V\) は双正則になります. このとき, \(g=(f|_V)^{-1}\) としたときに \(g\) の \(z_0\) での冪級数展開を \(f\) を用いて書くというのが, ラグランジュの反転公式のモチベーションになります.

    定理[ラグランジュの反転公式(Lagrange’s Inversion Formula)]

    \(U\) を\(0\) を含む開近傍とし, \(f:U\to\mathbb{C}\) を正則関数とする. このとき, \(f\) の \(0\) のまわりでの冪級数展開 \(f(z)=\sum_{n=0}^\infty a_nz^n\) の \(z^n\) の係数 \(a_n\) のことを \([z^n](f(z))\) と書くことにする. \(f(0)=0\) を仮定する. もし \(f'(0)\neq 0\) であれば, 適切に近傍を取り直すことで \(f\) は逆写像 \(f^{-1}\) をもち, \(f^{-1}\) も \(0\) のまわりで正則で, 各 \(n\geq 1\) に対して,

    \[[z^n](f^{-1}(z))=[z^{n-1}]\left(\frac{z^n}{nf(z)^n}\right)\]

    が成立する.

    証明

    まず一般にCauchyの積分公式から

    \[[z^n](f(z))=\frac{1}{2\pi i}\int_C\frac{f(\zeta)}{\zeta^{n+1}}d\zeta\]

    が成立する. ここで, \(C\) は\(0\) を含む適当な円周である. さて, \(f\) の逆関数 \(g\) は適当な開近傍において, \(0\) のまわりの適当な円周 \(C\) により

    \[g(w)=\frac{1}{2\pi i}\int_C\zeta\frac{f'(\zeta)}{f(\zeta)-w}d\zeta\]

    と書けたことを思い出そう. すると, 補題1の証明から \(C\) 上で常に \(|f(\zeta)|>|w|\) となるような閉路 \(C\) と \(g\) の定義域をとれたから, このような取り方のもと,

    \(\begin{align} g(w)&=\frac{1}{2\pi i}\int_C\frac{1}{1-\frac{w}{f(\zeta)}}\frac{\zeta f'(\zeta)}{f(\zeta)}d\zeta\\ &=\frac{1}{2\pi i}\int_C\frac{\zeta f'(\zeta)}{f(\zeta)}\sum_{n=0}^\infty\left(\frac{w}{f(\zeta)}\right)^nd\zeta\\ &= \sum_{n=0}^\infty\left(\frac{1}{2\pi i}\int_C\frac{\zeta f'(\zeta)}{f(\zeta)^{n+1}}d\zeta\right)w^n\end{align}\)

    なので, \(n\geq 1\) に対して,

    \(\begin{align}[z^n](f^{-1}(z))&= \frac{1}{2\pi i}\int_C\frac{\zeta f'(\zeta)}{f(\zeta)^{n+1}}d\zeta\\ &=-\frac{1}{2\pi in}\int_C\zeta\left(\frac{d}{d\zeta}\frac{1}{f(\zeta)^n}\right)d\zeta\\ &=-\frac{1}{2\pi in}\int_C\left(\frac{d}{d\zeta}\frac{\zeta}{f(\zeta)^n}\right)d\zeta+\frac{1}{2\pi in}\int_C\frac{d\zeta}{f(\zeta)^n}\\ &=\frac{1}{2\pi i}\int_C\frac{d\zeta}{nf(\zeta)^n}\\&=\frac{1}{2\pi i}\int_C\frac{1}{\zeta^n}\frac{\zeta^nd\zeta}{nf(\zeta)^n}\\ &=[z^{n-1}]\left(\frac{z^n}{nf(z)^n}\right)\end{align}\)

    となって示したいことが得られる.