SVMとロジスティック回帰の違い



Difference Between Svm



SVMとロジスティック回帰の違い

転送元: 愚かなウサギ (侵入)

このアカウントのすべての転載されたコンテンツは、将来の表示と学習の便宜のためのものです。



2.1本質的に、その損失関数は異なります

ロジスティック回帰損失関数:
画像
サポートベクターマシンの目的関数:
画像
補足:本が異なれば、説明時に損失関数がわずかに異なる場合があります。

異なる損失関数は異なる仮定を表します。つまり、異なる分類原則、およびすべてを意味します。 ! !簡単に言えば、ロジスティック回帰法は、サンプルの確率が1であると仮定して確率論に基づいており、シグモイド関数で表すことができます。次に、パラメーターの値は最尤推定法によって推定されます。詳細については、http://blog.csdn .net / pakko / article / details / 37878837を参照してください。幾何学的間隔を最大化する原理に基づくサポートベクターマシンでは、最大の幾何学的間隔を持つ分類面が最適な分類面と見なされます。詳細については、http://blog.csdn.net/macyang/article/details/38782399を参照してください。



2.2サポートベクターマシンはローカル境界に近いポイントのみを考慮しますが、ロジスティック回帰はグローバルを考慮します。

上記の2つのURLの内容を読み、LRとSVMの原理を深く理解すると、SVMの決定面に影響を与えるサンプルポイントには、構造的なサポートベクターがわずかしかないことがわかります。サポートベクターの外側のサンプルポイントペアを追加または削減する場合、分類決定サーフェスはLRにある間は効果がなく、各サンプルポイントは決定サーフェスの結果に影響します。次の図を使用して説明します。

非サポートベクターサンプルを変更するサポートベクターマシンは、決定面に変更を引き起こしません。
画像

ロジスティック回帰でサンプルを変更すると、決定面が変更されます。
画像
これを理解してください、多分あなたは尋ねるでしょう?ポイントは何ですか?それは意味がありますか?両方のアルゴリズムを使用することは役に立ちますか?一文で答えてください:
上記の理由から、次のことを学びました。線形SVMはデータ分布に直接依存せず、分類平面は1つのタイプのポイントの影響を受けませんLRはすべてのデータポイントの影響を受けますデータが大きく異なる場合、不均衡、一般的に必要最初にデータのバランシングを行います。 (http://www.zhihu.com/question/26768865/answer/34078149から引用)



2.3非線形問題を解く場合、サポートベクターマシンはカーネル関数メカニズムを使用しますが、LRは通常カーネル関数法を使用しません。

この質問は非常に簡単に理解できます。分類モデルの結果は決定面を計算することであり、モデルトレーニングのプロセスは決定面を計算することです。上記の2番目の違いにより、決定面を計算するときに、サポートベクターを表す少数のサンプルのみがSVMアルゴリズムの計算に関与すること、つまり、カーネル計算に参加する必要があるのは少数のサンプルのみであることが理解できます。つまり、カーネルマシンソリューション係数はスパースです)。ただし、LRアルゴリズムでは、各サンプルポイントは決定面の計算プロセスに参加する必要があります。つまり、LRでカーネル関数の原理も使用する場合、各サンプルポイントはカーネル計算に参加する必要があります。計算の複雑さは非常に高いです。したがって、特定のアプリケーションでは、LRがカーネル関数メカニズムを使用することはめったにありません。

2.4線形SVMはデータによって表される距離測定に依存するため、データを最初に正規化する必要があり、LRはその影響を受けません。

(http://www.zhihu.com/question/26768865/answer/34078149から引用)

1つは確率に基づいており、もう1つは距離に基づいています!
線形SVMは直感的に2つの量をトレードオフします

  • 大きなマージンとは、2つのタイプの間にギャップをどれだけ広く引くことができるかということです。正のサンプルは境界面(正の境界と呼ばれます)の左側のギャップ/ 2であり、負のサンプルはギャップ/ 2から分解平面の右側(負の境界と呼ばれます))(以下を参照)
    画像

  • 上記の条件を満たさないすべてのポイントに対するL1エラーペナルティ

データセットが与えられると、線形SVMが解決されると、すべてのデータポイントが2つのカテゴリに分類できることがわかります。
1)1つのタイプは、対応する境界面の外側にあり、正しく分類されているポイントです。たとえば、正の境界の左側にある正のサンプルや、負の境界の右側にある負のサンプルなどです。
2)2番目のカテゴリは、ギャップに該当するか、誤分類されているポイントです。
データセットが線形SVMによって解決されたと仮定すると、このデータセットにさらにタイプのポイントを追加または削除しても、再解決された線形SVM平面は変更されません。これがLRとの違いです。以下はLRを見ています。
LRモデルを解く過程で、各データポイントは分類平面に影響を及ぼし、その影響は分類平面までの距離から指数関数的に減少していることに注意してください。言い換えると、LRのソリューションは、データ自体の分布の影響を受けます。実際のアプリケーションでは、データ次元が非常に高い場合、LRモデルはパラメーターのL1正則化と連携します。
本質的な違いは何ですか、つまり、2つのモデルはデータとパラメーターに対して異なる感度を持っています。線形SVMは、ペナルティ係数とデータ式空間の測定にさらに依存し、(通常の項目の場合)LRは、パラメーターのL1正則化の係数にさらに依存します。しかし、それらは多かれ少なかれ線形分類器であるため、実際、低次元データを過剰適合させる能力は比較的制限されています。対照的に、高次元データの場合、LRのパフォーマンスはより安定します。どうして?
線形SVMは、マージンの幅を計算するときにデータ式の距離測定に依存するため、言い換えると、測定が適切でない場合(スケーリングが不適切な場合、この状況は高くなります)次元データは特に重要です。いわゆる大きなマージンは無意味です。カーネルトリック(ガウスカーネルなど)を使用しても、この問題を完全に回避することはできません。したがって、線形SVMを使用する前に、通常は最初にデータを正規化する必要がありますが、LRを解くときに(正則化なしで)結果に影響を与える必要はありません。 (http://www.zhihu.com/question/26768865/answer/34078149から引用)
また、次のこともあります。機能のスケーリングにより、最急降下法の収束が改善されます。

正規化されていない場合、各次元の特徴のスパンは非常に異なり、目的関数は「フラット」になります。
画像
(図の楕円は目的関数の輪郭を表し、2つの座標軸は2つの特徴を表します)
このように、最急降下法を実行すると、勾配の方向が最小値の方向から外れ、多くの迂回が行われます。
正規化されている場合、目的関数は「ラウンド」です。
画像
各ステップでの勾配の方向は基本的に最小値を指し、大きな進歩を遂げることができます。 (https://www.zhihu.com/question/37129350から引用)

2.5SVMの損失関数には正則化が付属しています

(損失関数の1/2 || w || ^ 2)、これがSVMが構造的リスク最小化アルゴリズムである理由です! ! !また、LRは、損失関数に通常の項を追加する必要があります。 ! !
SVMが構造的リスク最小化アルゴリズムと呼ばれる理由を私は理解していません。いわゆる構造的リスクの最小化とは、トレーニングエラーとモデルの複雑さのバランスを見つけて、過剰適合を防ぎ、真のエラーの最小化を実現することを意味します。構造的リスクの最小化の目標が達成されない場合、最も一般的な方法は通常のアイテムを追加することです。以下のブログでは、さまざまな通常の要因の違いを分析するので、ここでは詳しく説明しません。ただし、SVMの目的関数には実際には通常のアイテムが付属していることがわかりました。 ! !上記のSVM目的関数をもう一度見てください。

SVM損失関数:
画像
木がありますが、L2レギュラーアイテムではありませんか?
言うまでもなく、L1の規則性とL2の規則性を理解していない場合は、http://www.mamicode.com/info-detail-517504.htmlを参照してください。