「階層ベイズモデルとその周辺」を読む ~第I部 事前情報を利用した複雑な系の解析~ (original) (raw)

本書を読もうとした理由

私が機械学習に初めて触れた2000年代前半には,ベイズ統計学機械学習の基礎となるものだった。当時流行っていた黄色い本も,ベイズ統計学がふんだんに使われていた。ベイズ統計学をよく理解しないまま(今でも理解していないが),題名が面白そうというだけで本書を買ってみたのだが,よく理解できず積読になっていた。

それから20年ほど経ったのだが,「20年前の本だが,本当に重要なことは年月が経っても重要だろう」ということで,当時より多少は知っていることが増えた今,あらためて読んでみることとした。

ただ,勇んで読み始めてはみたものの,難しいものはやはり難しく概要の理解にとどまってしまったが,自分なりにこの本の参考になった点をまとめてみたい。

第I部の構成

「第I部 事前情報を利用した複雑な系の解析」の内容をマップ化してみた。

第1章 はじめに

本章では,まず問題設定について説明している。

ここで取り扱う問題は,「得られたデータのサンプル数よりも多い数のパラメータを推定する」という問題である。
例として,下図のように手書きの曲線を引いて起き,適当な間隔で(少しずらしながら)マーキングして,そのマーキングから元の曲線を推定する,という問題である。
得られたデータ \boldsymbol{y}は離散値(0.5cm間隔),元の曲線は連続値なので,元の曲線の0.1cm間隔の値 \boldsymbol{f}を推定しようとすると,推定したいパラメータの方が多くなる。


出典 : https://www.iwanami.co.jp/moreinfo/tachiyomi/0068440.pdf

このような状況では最尤法が使えないので, \boldsymbol{f}を確率分布とみなし,事前分布を設定する。
この事前分布には,データの発生機構に関する知識,すなわち「元の曲線は滑らかに変化する」という情報を加える。

今回の問題設定において求めたいものは,データを発生させている曲線のパラメータ \boldsymbol{f}の分布を求めることである。
より具体的に書くと,データ \boldsymbol{y}が得られたうえでの曲線の事後分布 \pi (\boldsymbol{f} | \boldsymbol{y})を求めることである。

第2章 ベイズ型情報処理の適用例

本章では,ベイズ型情報処理の具体例を3つ紹介している。

  1. ベイズ型2値回帰
  2. 密度関数推定(カーネル密度関数)
  3. 季節調整法

いずれの問題設定においても,共通点は以下の通りである。

3つの具体例のうち,季節調整法の例について紹介する。

季節調整法の問題設定

観測されたデータ

観測されたデータ yは,鉱工業生産指数の一つである在庫指数の四半期データである。

推定したいパラメータ

得られたデータ \{ y_i \}を,ゆっくりとした変動の成分 T_i,季節変動成分 S_i,不規則変動成分 I_iの和

に分解する。

このうち I_iはノイズを表し,正規分布に従うものと仮定する。

推定したいパラメータは

データの尤度

ベイズ推定に必要な要素である尤度は,以下のようにモデル化する。

事前分布の設定

事前分布にはデータ解析者の知識を入れ込む

まず, \{ T_i \}は滑らかに変動を示すはずなので,その差分は

となる。

また S_iは「前年同期」の値からの変動が滑らかであるはずなので,4期分の差分は

となる。

また季節変動の辺平均が0から乖離しては困るので,

となる。

以上より, \boldsymbol{\theta}の事前分布として,

を設定する。ただし \boldsymbol{\omega} = (u^2, v^2, w^2)^Tがハイパーパラメータである。

第3章 ベイズ型情報処理の技術要素

前章では**ベイズ型情報処理におけるモデリングの方法について説明していたが,本章では具体的な解き方**について説明している。
近年では,Pythonのパッケージを用いればすぐに解けてしまうことが多いと思われるが,その背景にある技術的なことを説明している。

3.1 ABIC

ベイズ型情報処理では,基本的に事後分布を最大化するパラメータを求める。このように求められたパラメータをMAP推定量と呼ぶ。

ただし階層ベイズモデルのように,事前分布に超パラメータが含まれる場合,この「超パラメータの決め方」を決めるための規準が必要になる。

本書では超パラメータの決め方として,第II種の最尤法と,これを変形したABICによる超パラメータの求め方を説明している。

データ yと事前分布のパラメータ \thetaの分布が超パラメータ \omegaによって P(y, \theta | \omega)のように表現されていれば,

のように周辺化して \theta積分消去してしまえば, y \omegaの関係が求められる。

さらに本書では,これにモデルの自由度を含めた

を最小化するという,超パラメータの選択規準を紹介している。

3.2 ガウス分布の場合のベイズ公式 / 3.3 時系列データの場合

ベイズ型情報処理においては,事後分布からパラメータ推定をする必要があるが,一般的に事後分布はとても形になるので,パラメータ推定は難しくなる。
ただし,尤度と事前分布がガウス分布の場合,事後分布は解析的に求められる。

本章では,他書でも見かける「ガウス分布(正規分布)の事後分布」について説明しているが,特徴的なのは1次元正規分布での考察をした後に,そのアナロジーとして多次元正規分布のパラメータ推定方法を考察している点である。

また対象が時系列になっても同様の計算ができるが,特にマルコフ性が満たされるという前提からカルマンフィルタの導出を行なっている。

3.4 粒子ベイズ / 3.5. 2次近似

前節では,尤度と事前分布がガウス分布の場合について説明していたが,本節では非ガウス分布の場合におけるパラメータ推定方法を説明していた。
具体的には,サンプリングによってパラメータ推定を行なう**粒子ベイズ**と,事後分布のヘシアン行列を用いる2次近似の手法を説明していた。

3.6 「滑らかな変化」を扱う技術

第2章において,3つの具体例が挙げられていたが,いずれもパラメータが滑らかに変化するという仮定であった。
この「滑らかに変化する」という仮定であるが,これは「パラメータの変化量の差分が変化しない」,すなわち

と表される。この仮定を置くと,パラメータの変化量の差分が,平均 0,分散 \sigma^2正規分布にしたがう,と表現できるようになる。

第4章 ベイズを越えて

ベイズ型情報処理では,事前分布のパラメータやその超パラメータを求めることに主眼が置かれているが,本章ではこれらのパラメータの求め方,すなわちモデル選択の規準について説明している。

4.1 MAP推定

本節では,MAP推定について説明している。MAP推定は,事後分布を最大化するようなパラメータの推定方法であり,この方法で得られたMAP推定量 \hat{\theta}(y)は,

で得られる。
別の表現をすると,

となる。

単なる最尤推定と比べて,事前分布による制約が入っていることが特徴である。

本章では,なぜMAP推定だとパラメータ推定方法としてうまくいくのか,という説明がなされている。この説明の概要は以下の通りである。

さらに, \pi(\theta)が超パラメータによって \pi(\theta|\omega)と表されており,事前分布の族 \{\pi(\theta|\omega)  \} \pi(\theta)の真の分布を含んでいると,ABICによって事前分布が求められることになる。

4-2. 情報量規準EIC/4-3. 数値例

ABICでは,「事前分布の族 \{\pi(\theta|\omega)  \} \pi(\theta)の真の分布を含んでいる」という前提を置いていたが,本節ではこの前提がない場合でも利用できる情報量規準として,ブートストラップに基づく情報量規準EICを紹介していた。

4.4 仮想的観測

MAP推定量を改めてみてみると, \log{ p(y | \theta)}  + \log{ \pi(\theta) }の最大化問題,あるいは罰付き最尤法とみなせる。
このうち第1項はデータによってもとまる客観的な部分になるが,第2項はデータを含まない主観的な部分になる。
本節では本章の締めくくりとして,解析の客観的側面を尤度に,主観的な側面を事前分布の設計に担わせることができる,と説明している。

本書に関するまとめと感想

事前分布の設計方法

サンプルデータが欲しい

本章のなかで,いくらか具体例が示されていたのだが,残念ながらサンプルデータの出所を把握することができなかった。本書で紹介された手法などは実装して試してみたいと思ったので,サンプルデータはもう少し探してみたい。

本記事を最後まで読んでくださり,どうもありがとうございました。