ランク付けアルゴリズムの学習の概要：RankSVMおよびIR SVM

Introduction Learning Rank Algorithm

元の： http://www.cnblogs.com/bentuwuying/p/6683832.html

前のブログ： http://www.cnblogs.com/bentuwuying/p/6681943.html ランク付けの学習の基本原則を簡単に紹介し、ランク付けの学習で一般的に使用されるいくつかの方法（ポイントごと、ペアごと、リストごと）についても説明します。このブログでは、実際に多くの企業で一般的に使用されているペアワイズ手法を紹介しています。まず、比較的単純なRankSVMとIRSVMを紹介します。

2.1損失関数の変換

上で紹介したRankSVMの基本的な考え方は、ランキング問題をペアワイズ分類問題に変換し、SVM分類モデルを使用して学習して解決することです。したがって、学習プロセスでは、0-1分類損失関数が使用されます（ただし、実際には損失関数のヒンジ損失を置き換えるために使用されます）。そして、この損失関数の最適化目標と情報検索の評価指標（各ドキュメント間の相対的な順序関係が正しい必要があるだけでなく、トップドキュメント間の順序関係にも特別な注意を払う）にはまだギャップがあります。したがって、一部の研究者はこれを研究しており、RankSVMの損失関数の変換を通じて、最適化の目標は、情報検索問題の一般的に使用される評価指標とよりよく一致しています。

最初に、次の図に示すように、RankSVMをテキストの並べ替えに適用したときに発生するいくつかの問題を説明するためにいくつかの例を使用します。

最初の問題は、RankSVMを直接使用する場合、類似性レベルが異なるドキュメントは同じように扱われ、区別されないことです。これは、特定の問題で2つの形式をとることができます。

1）例1では、3対2と3対1の2つのペアは、0-1損失関数で同じように扱われます。つまり、いずれか1つの順序を逆にすると、損失関数が同じように増加します。 3対1の順序の反転は、3対2の順序の反転よりも明らかに深刻であり、区別するために異なる重みが必要であるため、これは明らかに不合理です。

2）例2では、ランキング1は位置1と位置2の2つのドキュメントの位置が逆になり、ランキング2は位置3と位置4の2つのドキュメントの位置が逆になります。2つのケースは次のとおりです。 0-1同じことが損失関数にも当てはまります。これも明らかに不合理です。 IR問題ではトップドキュメントに特に重点が置かれているため、ランキング1の問題はランキング2の問題よりも深刻であり、区別するために異なる重みを与える必要があります。

2番目の問題は、RankSVMが異なるクエリの下でドキュメントペアを同等に扱い、それらを区別しないことです。異なるクエリでのドキュメントの数は大きく異なります。例3に示すように、query-4にはより多くのドキュメントの参考文献があるため、トレーニングプロセス中、query-4の各ドキュメントペアのトレーニングデータは、query-3の各ドキュメントペアのトレーニングデータよりもモデルに明らかな影響を及ぼします。したがって、最終結果モデルにはバイアスがあります。

IRSVMは上記の2つの問題を解決します。 0-1分類の代わりにコストに敏感な分類を使用します。つまり、通常のヒンジ損失を変更します。具体的には、さまざまなレベルまたはさまざまなクエリからのドキュメントペアにさまざまな損失の重みを割り当てます。

1）上位のドキュメント、つまり類似性レベルが高いドキュメントのペアの場合、より大きな損失の重みが割り当てられます。

2）ドキュメントの数が少ないクエリの場合、その下のドキュメントペアに大きな損失の重みが割り当てられます。

2.2 IRSVMのソリューションプロセス

IRSVMの最適化問題は次のように表すことができます。

その中で、 k番目のグレードペアに属するインスタンスの損失重量値を表します。この値を決定するための経験的な方法があります：このグレードペアに属する2つのドキュメントについて、ランク付けの位置をランダムに交換し、root @ xxxxxの削減値を確認し、すべての削減値を平均してこの損失の重みを取得します。減量値が大きいほど、全体的な評価指標に対するペアのドキュメントの影響が大きくなると考えられるため、それに応じてトレーニングの重要性が高くなります。この状況は、一般的にトップドキュメントに対応します。これは、トレーニング結果をトップドキュメントにするためのものです。トップドキュメントの並べ替え位置に特に注意してください。逆に。

そしてこのパラメーターは、クエリの正規化係数に対応します。それは次のように表現できます、これはクエリの下のドキュメント数の逆数です。これはよく理解されています。クエリの下にあるドキュメントの数が少ない場合、RankSVMのトレーニングプロセス中の相対的な重要性は低くなります。このとき、この重みパラメータを増やすことで、これを適切に増やすことができます。クエリの下のドキュメントペアの重要性により、モデルトレーニングのさまざまなクエリの下のドキュメントペアに等しく注意を払うことができます。