Pythonで非負値行列分解

これもずっと前に記事にしたような気がしていたのですが、最近ちょっと仕事で使おうと思って自分のブログで検索したら書いてなかったことがわかったのでこの機会に記事にします。

行列を複数の行列の積に分解する方法は複数ありますが、その中でも非負値行列分解というsy方があります。

これは、元の行列の全ての要素が0以上(0を許すので正値ではなく非負値といいます)の場合に使える分解方法です。一般的には低rankな二つの行列で、それぞれの行列の全ての要素も0以上の行列の積に分解します。

数式で言うと、$V \approx W \times H$ ですね。 $V$が$M\times N$行列だとした場合、分解後のrankを$K$とすると、$W$は$M\times K$行列、$H$は$K\times N$行列になります。

ここで$V$は元の行列(データ行列)で、行数はサンプル数、列数は特徴数です。
$W$は基底行列になり各行は元データの異なる要素の「基底」や「パターン」を示します。
そして、$H$は係数行列で、各列は基底行列の要素がどの程度元のデータに寄与しているかを示します。

この分解によって、元のデータの背後に潜在する低次元のパターンや構造を捉えることができます。

分解後の要素が全て非負なので、分解結果を加法的に扱えるのが利点です。負の値が混ざってるとある値が大きかった時にそれに掛け算される係数が正なのか負なのか考慮して解釈しないといけないですがここが絶対0以上と保証されていると評価されやすいですね。

また、次元削減やデータ量の削減にも有宇高です。この用途で使われるため、$K$は小さな値が採用されやすいです。

この非負値行列分解はが画像処理とか音声解析、推薦システムの中で活用されていますね。

さて、scikit-learnを使って実際にやってみましょう。乱数で生成した行列でやってみますね。

ドキュメントはこちらです。
参考: NMF — scikit-learn 1.5.2 documentation

import numpy as np
from sklearn.decomposition import NMF

# サンプルデータ生成
# 乱数で5x4の非負行列を作成
np.random.seed(0)
V = np.random.randint(0, 6, size=(5, 4))

# NMFを適用、ランク(分解する際の次元)を2に設定
model = NMF(n_components=2, init='random', random_state=0)
W = model.fit_transform(V)  # 基底行列W
H = model.components_       # 係数行列H

# 分解結果を表示
print("元の行列 V:")
print(V)
"""
元の行列 V:
[[4 5 0 3]
 [3 3 1 3]
 [5 2 4 0]
 [0 4 2 1]
 [0 1 5 1]] 
 """

print("\n基底行列 W:")
print(W)
"""
基底行列 W:
[[1.97084006 0.        ]
 [1.35899323 0.33537722]
 [0.90516396 1.61014842]
 [0.76977917 0.6670942 ]
 [0.         1.7698575 ]]
"""

print("\n係数行列 H:")
print(H)
"""
係数行列 H:
[[2.09286365 2.49350723 0.         1.50627845]
 [0.63319723 0.41601049 2.69948881 0.        ]]
"""

# 元の行列の近似値を計算
V_approx = np.dot(W, H)

print("\n近似された行列 V_approx:")
print(V_approx)
"""
近似された行列 V_approx:
[[4.12469952 4.91430393 0.         2.96863391]
 [3.05654746 3.52817989 0.90534704 2.04702222]
 [2.91392627 2.92687151 4.34657765 1.36342897]
 [2.03344504 2.19696811 1.80081332 1.15950177]
 [1.12066887 0.73627928 4.7777105  0.        ]]
"""

見ての通りでちょっとクセがありますね。
基底行列の方はtransformで元のデータを変換して取得し、係数行列の方がcomponents_に入っています。

さて、近似した行列ですが、元の行列が純粋にただの乱数で生成されたもので、通常のデータであれば背景にあるはずの隠れた構造とかを一切持たないものだった割に結構近い値で近似できてるのではないでしょうか。

久しぶりに使うと、どっちの行列がどっちだっけとか、転地必要だったっけ、とか色々迷うのですが慣れれば手軽に扱えるので機会があれば試してみてください。

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル