類似性の計算(ユークリッド距離とコサイン距離)



Similarity Calculation Euclidean Distance



類似性:個人間の類似度を計算します。類似度の値が小さいほど、個人間の類似度は小さくなります。類似度の値が大きいほど、個人差が大きくなります。

複数の異なるテキストまたは短いテキストの会話メッセージでそれらの間の類似性を計算する場合、これらのテキスト内の単語をベクトル空間にマッピングして、テキストとテキスト内のベクトルデータ間のマッピング関係を形成することをお勧めします。テキストの類似性を計算するために、いくつかの異なるベクトルの差を計算します。



画像
AとBが2つのn次元ベクトルであるとすると、Aは[A1、A2、…、An]、Bは[B1、B2、…、Bn]、AとBは角度θの余弦が次のようになります。
画像
nが3に等しい場合。 画像
コサイン値が1に近いほど、角度は0度に近くなります。つまり、2つのベクトルが類似しています。これは「コサイン類似度」と呼ばれます。コサイン値の範囲は[-1,1]の間です。値が1に近いほど、2つのベクトルの方向が-1に近くなり、方向が反対になるほど0に近くなり、2つのベクトルはほぼ直交します。

(1)夾角は0度です。このとき、ベクトルAとベクトルBが最も類似しており、コサイン類似度は1です。
(2)夾角は90度です。この時点でコサイン類似度は0です。
(3)夾角は180度です。このとき、コサイン類似度は-1であり、2つのベクトルの方向は完全に反対です。




コサイン距離は、2つのベクトル間の角度のコサイン値を2人の個人間の差の尺度として使用します。ユークリッド距離と比較して、コサイン距離は2つのベクトルの方向の違いに注意を払います。