- 機械学習
Kernel Entropy Component Analysis
Kernel Entropy Component Analysis
こないだ弊社で勉強会をやったので、そのときの資料を投稿します。
Kernel gram matrix の Factorization 方法です。
PCA, CCA, その他いろいろ方法があるわけですが、これはPCAで得られた基底を元に、Renyi quadratic entorpy を下げる部分空間を選択する手法です。
スライド中には「角度を保存するように働く」と書いてありますが、それはどうも誤りで、正確には「クラスタに属するデータ数に偏りがある場合にも正しくクラスタに分けることができる」だと思います。
Kernel Gram Matrix の固有値は各クラスタのデータ数と相関があります。
Kernel Gram Matrix の固有ベクトルは各クラスタの平均値付近を指すことを期待しますが、「平均値を指すベクトル」に直交するベクトルの中には「他のクラスタを指すベクトル」以外にも、「同クラスタの広がりを表現するベクトル」が存在します。
クラスタに属するデータ数に偏りがある場合、例えば A, B 2つのクラスタが存在し、そのデータ数をそれぞれNa, Nbとし、Na >> Nbであると仮定すると、「Bクラスタの平均値を差すベクトル」に対応する固有値は、「Aクラスタの広がりを表現するベクトル」の固有値より小さくなることが頻発します(スライドP17 第2、第3固有ベクトルは500点からなるクラスタの「広がり」を表現している)。
すると、PCA ではBクラスタを指すベクトルは取得されず、x∈Bはすべて原点に射影される(スライドP15)、、、、ということになります。
ECA では「広がりを表すベクトル」は「要素を足すと0に近くなる(正確にはなりやすい)」という性質を使って、このような要素数が少ないクラスタも救おうとしています。
それは逆に言うと「例外に引っぱられやすい」ということですが。。。
もう一つ大事なことは、Alfred Renyi は淀川長治氏と金出先生に似ている、ということです。