データサイエンス時代で活躍する人材になるために

データサイエンス時代で活躍できる人材になるために

純粋数学から応用数学までデータサイエンスに関わる様々なことについて取り上げます!

不偏推定量ってなんですか?


今回は推定論で重要な不偏推定を中心に解説したいと思います.

不偏推定量

\theta不偏推定量であるとは以下が成立することを言います.

\begin{align*}
E_\theta[(\hat{\theta}(X)]=\theta
\end{align*}
簡単な例として標本平均を考えてみます.

\begin{align*}
E[\overline{x}]=\frac{1}{n}\sum_{i=1}^{n}E[ x_i]=\frac{1}{n} \times n\mu=\mu
\end{align*}
したがって,標本平均は母平均の不偏推定量となっていることが確認できます.b(\theta)=E_\theta[(\hat{\theta}(X)]-\thetaを推定量\thetaバイアスと言います.不偏推定量の場合,バイアスはゼロとなります.

バイアス・バリアンス分解

平均二乗誤差を最小化するためにはどうすれば良いのでしょうか?まず平均二乗誤差をいくつかのパーツに分けられないか検討してみましょう!
乗法公式より以下が成立します.

\begin{align*}
E[(\hat{\theta}-\theta)^2]&=E[(\hat{\theta}-E_\theta[\hat{\theta}]+E_\theta[\hat{\theta}]-\theta)^2\\
&=E_\theta[(\hat{\theta}-E_\theta[\hat{\theta}])^2]+(E_\theta[\hat{\theta}]-\theta)^2+2(E_\theta[\hat{\theta}]-\theta)^2E_\theta[(\hat{\theta}-E_\theta[\hat{\theta}])]\\
&=\mathrm{Var}_\theta[\hat{\theta}]+b(\theta^2)+0
\end{align*}
最後の等式の第1項,第2項はそれぞれ分散とバイアスの定義から明らかです.注意しておきたいのは第3項がゼロになるところです.E_\theta[E_\theta[\hat{\theta}]]=E_\theta[\hat{\theta}]より,

\begin{align*}
2(E_\theta[\hat{\theta}]-\theta)^2E_\theta[(\hat{\theta}-E_\theta[\hat{\theta}])]&=2(E_\theta[\hat{\theta}]-\theta)^2(E_\theta[\hat{\theta}]-E_\theta[\hat{\theta}])]\\
&=0
\end{align*}
となり,確かにゼロとなることが確認できます.
したがって,不偏推定を考えればバイアスを持つことがなく,平均二乗誤差が小さくなることが期待されます!!!

一様最小分散不偏推定量

バイアスを持たないとき,平均二乗誤差は以下のように表せることが分かりました.

\begin{align*}
E[(\hat{\theta}-\theta)^2]=\mathrm{Var}_\theta[\hat{\theta}]
\end{align*}

したがって,不偏推定量に限った場合を考えると平均二乗誤差を最小化する推定量\mathrm{Var}_\theta[\hat{\theta}]を最小化する推定量であることが分かります.不偏推定量\hat{\theta}^\astの分散が他のどんな不偏推定量の分散以下となるとき,\hat{\theta}^\ast一様最小分散不偏推定量 (Uniformly Minimum Variance Unbiased estimator/UMVU)といいます.
与えれれた不偏推定量UMVUであるかどうかを確認する方法は以下の2つが知られています.

  1. クラーメル・ラオの不等式を用いる方法
  2. 完備十分統計量の理論を用いる方法

今回は1. のクラーメル・ラオの不等式を用いる方法をご紹介します!!!

フィッシャー情報量とクラーメル・ラオの不等式

クラーメル・ラオの不等式を説明するためにはまずフィッシャー情報量を定義する必要があります.フィッシャー情報量I_n~(\theta)は,確率密度関数fに対し以下で定義されます.

\begin{align*}
I_n(\theta)=E_\theta\biggl[\left
(\frac{\partial}{\partial\theta}\mathrm{log}f(X_1,\dots,X_n;\theta)\right)^2\biggl]
\end{align*}

不偏推定量の分散とフィッシャー情報量の間にクラーメル・ラオの不等式と呼ばれる以下の不等式が成立します.

\begin{align*}
\mathrm{Var}_\theta[\hat{\theta}]\geq \frac{1}{I_n(\theta)}
\end{align*}
この不等式が意味することは,どんな不偏推定量の分散もフィシャー情報量行列の逆数よりも小さくすることはできないことを意味しています.

クラーメル・ラオの不等式の等号を満たす不偏推定量\hat{\theta}^\ast有効推定量と呼ばれます.
したがって,

\begin{align*}
\mathrm{Var}_\theta[\hat{\theta}]\geq \mathrm{Var}_\theta[\hat{\theta}^\ast]=\frac{1}{I_n(\theta)}
\end{align*}
が成立するので,有効推定量はUMVUとなります.

以下の参考書がとても勉強になります.

新装改訂版 現代数理統計学

新装改訂版 現代数理統計学

数理統計学: 統計的推論の基礎

数理統計学: 統計的推論の基礎

  • 作者:学, 黒木
  • 発売日: 2020/01/29
  • メディア: 単行本

ではまた!