ダイス係数とシンプソン係数

集合の類似度を表す係数には、前回の記事で紹介したジャッカード係数のほか、
ダイス係数(Sørensen–Dice coefficient)と、シンプソン係数(Szymkiewicz–Simpson coefficient)というものがあります。
自分はジャッカード係数を使うことが多いので、あまり利用しないのですがこの二つも有名なもののようなので定義を紹介します。

まず、ダイス係数です。
ジャッカード係数と比較すると、二つの集合の和集合の要素の数の代わりに、二つの集合の要素数の平均を用いています。
$$
DSC(A, B) = \frac{2|A\cap B|}{|A| + |B|}
$$

続いて、シンプソン係数。
こちらは二つの集合の和集合の要素の数の代わりに、二つの集合の要素数のうち小さい方を用います。

$$
SSC(A, B) = \frac{|A\cap B|}{\min(|A|, |B|)}
$$

シンプソン係数は二つの集合のうち一方がもう一方に包含されている時、値が$1$になってしまうのが嫌なので利用を避けることが多いです。
この性質が便利な場面もあるのかもしれませんが、ぱっと思いつくものがない。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です