SiamRPN ++アルゴリズムの詳細な説明



Detailed Explanation Siamrpn Algorithm



論文タイトル:SiamRPN ++:非常に深いネットワークによるシャムの視覚追跡の進化
論文へのリンク: 紙のリンク
論文コード:フォローアップはオープンソースになります

I.SiamRPNおよびDaSiamRPNアルゴリズムのレビュー
1、SiamRPN



  • SiamFCに基づいて、Faster RCNNのRPNモジュールが導入されました。これにより、トラッカーを位置と形状に戻すことができ、マルチスケールテストを節約し、アルゴリズムの速度を追跡しながらアルゴリズムのパフォーマンスを向上させることができます。
  • より大きなデータセットVIDとYoutube-BBを使用して、追跡ネットワークをトレーニングします
    画像
  • 詳細な相関操作(その後の改善を含む):分類ブランチを例にとると、RPNでは、分類ブランチはチャネル番号2k(kはアンカーの数)の特徴マップを出力する必要があります。 SiamFCはチャネル数のみを提供できます。 1の応答グラフは、要件を満たすことができません。そこで、相関層を畳み込み層として扱い、テンプレートブランチによって抽出された特徴を畳み込みカーネルとして扱い、検出ブランチによって抽出された特徴を畳み込み層の入力として扱うように考えを変更しました。畳み込みカーネルを変更する必要があります。 2kチャンネル番号を出力する目的。具体的な方法は、2つの異なる畳み込み層を使用することです。テンプレートブランチの畳み込み層が次元の増加に関与し、チャネル数が256 * 2kに増加します。アラインメントを維持するために、検出ブランチは畳み込みレイヤーも追加しますが、チャネル数は維持します。絶え間ない。次に、相関演算(畳み込み)が実行され、最終的な分類結果が取得されます。

2、DaSiamRPN

  • SiamRPNに基づいており、主にデータセットのトレーニング、サンプルの数と種類の強化、より優れたトレーニング方法を使用したトラッカーの堅牢性の向上を目的としています。
  • 長期追跡問題については、部分的からグローバルなアプローチが提案されています。

次に、SiamRPN ++の詳細
1.論文の動機
この論文の主な問題は、ディープリファレンスネットワークResNet、Inception、およびその他のネットワークを、ツインネットワークに基づく追跡ネットワークに適用することです。 SiameseFCアルゴリズムの後、ツインネットワークに基づく追跡アルゴリズムはすでに多数ありますが、これらのネットワークの1つが浅いクラスのAlexNetをベンチマーク特徴抽出器として使用していることに気付くかもしれません。実際、これ以前は、一部の学者はディープネットワークを使用しようとしましたが、事前にトレーニングされたディープネットワークを直接使用すると、追跡アルゴリズムの精度が低下することがわかりました。したがって、これはツインネットワークに基づくトラッカーが解決する必要のある問題になりました。重要な問題!



2、イノベーションポイント1-翻訳不変性の問題を緩和する
2.1 Siamese-fcで利用できるネットワーク制限は何ですか?
siamese-fcの関連する操作は、スライディングウィンドウの形式で各位置の類似性を計算することと考えることができます。これには2つの特定の制限があります。

  • ネットワークは厳密な並進不変性を満たす必要があります 。 SiamFCで説明されているように、パディングはこのプロパティを破壊する可能性があります
  • ネットワークの対称性 つまり、検索領域の画像とテンプレート領域の画像を入れ替えても、出力結果は変わりません。 (類似しているため、対称性があるはずです)。

2.2。上記の問題の分析と要約

  • 現代のネットワーク He Yumingなどによる残余ネットワークの導入により、ネットワークの深さが大幅に解放されました。一般に、オブジェクト検出とセマンティックセグメンテーションのベースラインバックボーンは、ResNet50の構造を採用しています。ネットワークの解像度が適切で適切であることを確認するために、ほとんどすべての最新のネットワークバックボーンはパディング操作を実行する必要があります。 ResNetネットワークにはパディング操作があります。つまり、ネットワークには厳密な変換の不変性がありません。パディングの導入により、ネットワーク出力の応答がさまざまな場所でさまざまに認識されるようになります。そして、追跡の分野での深いネットワークの適用を制限する、オブジェクトの見かけの特徴によって回帰オブジェクトを区別する方法をネットワークが学習することを期待するために、さらにトレーニングを実施します。
  • ネットワークの対称性 :SiamRPNは類似性の計算を実行しなくなりましたが、回帰オフセットと分類のスコアを計算して最終的なターゲットを選択することにより、ネットワークの対称性が失われます。したがって、SiamRPNの改善では、非対称コンポーネントを導入する必要があります。シャムが目的を完全に達成できない場合、これは主にその後の相関設計につながります。

2.3。ネットワークの並進不変性が破壊された場合、どのような問題が発生しますか?
現代のネットワークの並進不変性が破壊された場合、欠点は バイアスを配置することを学ぶ SiamFCのトレーニング方法によれば、陽性サンプルはすべて中央にあり、ネットワークはこの統計的特性を徐々に学習し、サンプル内の陽性サンプル分布を学習します。つまり、ネットワークは画像の中心により大きな重みを割り当てます。具体的な効果を以下に示します。shiftを0に設定すると、ネットワークは画像の中心の位置にのみ焦点を合わせます。これは、中心の位置のみが大きな応答値を持つ図に対応し、shiftをに設定すると16ネットワークはより多くの画像範囲に注意を払い始めます。図に対応して、応答範囲が広がり、色が濃くなります。シフトを32に設定すると、ネットワークは画像に対応するより広い画像範囲に焦点を合わせます。応答の範囲が大きくなり、色が多様になります。
画像
2.4、実験的検証予想
上記の推測を検証するために、シミュレーション実験が設計されました。 SiamFCのようにトレーニングし、正のサンプルを画像の中央に配置すると、ネットワークは、正のサンプルを常に中央ではなく、特定の範囲に均等に分散した場合にのみ、画像の中央に応答します(いわゆる範囲は中心点から一定の距離を指し、シフトは正のサンプルがこの範囲内に均等に分布します)、この現象はシフトが増加するにつれて徐々に緩和することができます。次の図に示すように、EAOはVOT競合の評価指標であり、アルゴリズムの堅牢性と精度を組み合わせた包括的な指標です。値が高いほど、アルゴリズムは優れています。次の図では、シフトが0から64に変化すると、追跡アルゴリズムによってVOT16およびVOT18データセットのパフォーマンスが大幅に向上することがわかります。シフトが64を超える場合、ブーストのパフォーマンスは大きくありません。この操作により、この問題をある程度軽減できることが一面から説明できます。
画像
具体的な実装プロセスは次のとおりです。
この考えに基づいて実際の実験検証を行いました。トレーニングプロセス中に、ポジティブサンプルブロックを画像の中央に配置するのではなく、ターゲットを作成するために均等に分散されたサンプリング方法でオフセットが中心点の近くに作成されます。上図からわかるように、オフセットの範囲が広がると、深度ネットワークは最初から徐々に良くなり、まったく影響がありません。



したがって、サンプリング方法を均一に分散させてターゲットを中心点近くにシフトさせることにより、厳密な並進不変性を破壊するネットワークの影響を軽減する、つまり位置バイアスを排除することができ、最新のネットワークを追跡アルゴリズム。

2.5。検出タスクとセマンティックセグメンテーションタスクに問題が存在しないのはなぜですか?
オブジェクトの検出とセマンティックセグメンテーションのために、トレーニング中、オブジェクト自体が画像全体の各位置でより均等に分散されるためです。物体検出ネットワークが画像の中央にラベル付けされたサンプルのみをトレーニングし、エッジのサンプルがトレーニングされていない場合、このようにトレーニングされたネットワークは明らかに、画像の中央位置に対して高い応答しか生成しないことを簡単に確認できます。画像、エッジ位置ただ従うと、エッジ位置のパフォーマンスが明らかに大幅に低下することを想像するのは難しいことではありません。さらに致命的なのは、SiamFCのトレーニング方法によると、中心位置は正のサンプルであり、端位置は負のサンプルです。次に、ネットワークは、外観がどのように見えても、下端が常に負であると記録するだけです。これは、私たちのトレーニングの本来の意図から完全に逸脱しています。

3.イノベーションポイント2-ディープネットワークの使用
画像
私たちの主な実験はResNet-50で行われました。最新のネットワークは一般にストライド32ですが、ポジショニングの精度を追跡すると、一般的なストライドは比較的小さいため(シャムシリーズは通常8)、 ResNetの最後の2つのブロックのストライドを削除し、拡張畳み込みを追加しました。1つは受容野を増やすためのもので、もう1つはトレーニング前のパラメーターを使用するためのものです。 。論文で言及されているMobileNetなどの最新のネットワークもそのような変化を遂げています。上の図に示すように、変更後、次の3つのブロックの解像度は同じです。

トレーニングプロセスで新しいサンプリング戦略を採用した後、ResNetネットワークをトレーニングし、いくつかのビデオを通常どおり追跡できます。 (追跡プロセスが中央に集中する前は、ターゲットをまったく追跡できません)。バックボーンを微調整した後、パフォーマンスを向上させることができます。

4、イノベーションポイント3-多層機能の融合
上図に示すように、ディープネットワークには多数のレイヤーがあるため、ネットワークのさまざまなブロックブロックで取得できる機能も大きく異なります。浅いネットワーク機能は、色、エッジ、その他の情報の抽出に重点を置いていますが、深いネットワーク機能は、ターゲットのセマンティック機能に重点を置いているため、深いネットワークの多層機能の統合は、検討する価値のある作業です。 。このホワイトペーパーでは、ネットワークの最後の3つのブロックの出力が融合のために選択されています(ネットワークに対する以前の変更により、解像度は一貫しており、統合は簡単に実装できます)。融合の方法についてはあまり研究しませんでしたが、直接線形重み付けを行いました。 実際、重み付けを行う方法も価値のある研究です。この記事はここでは研究されていません。より詳細な調査をここで行うことができます。
画像
5、イノベーションポイント4-深さ方向の相互相関
画像

  • 相互相関:上記の(a)に示すように、SiamFCの場合、テンプレートフィーチャは、スライディングウィンドウに従って検索領域内のさまざまな位置の応答値を取得し、最終的に1次元の応答マップを取得します。
  • アップチャネル相互相関:上の図(b)に示すように、SiamRPNの場合、相互相関操作とは異なり、相関操作の前に2つの畳み込み層が追加されます。チャネル数はそれぞれ256と256x2kです。各アンカーポイントの上のアンカーの数を表します。それらの1つはチャネル数を増やすために使用され、もう1つは変更されません。最終的な出力は、畳み込みによって取得されます。最終的な出力フィーチャマップのチャネル数は、昇順の次元の畳み込みを制御することによって実現されます。
  • 深さ方向の相互相関:図1に示されるように。 ©、およびUpChannelとして、相関演算を実行する前に、検索テンプレートはそれぞれ畳み込みレイヤーを分岐しますが、ここでは非シャム機能を提供するためだけに次元を持ち上げる必要はありません(SiamRPNは回帰分岐などのSiamFCとは異なります) 、これは非対称です。これは、出力が応答値ではないため、テンプレートブランチと検索ブランチは異なるコンテンツに焦点を合わせる必要があるためです)。この後、深さ方向の畳み込みと同様の方法で、 チャネルごとに相関結果を計算する このような利点は、チャネル番号1を出力せずに取得できます。さらに、分類と回帰の後に通常の1x1畳み込み結果を取得できます。プロセス全体は、検出ネットワークを構築するヘッドネットワークに似ています。
  • ここでの改善は、主にアップチャネル方式によるものです。アップコンボリューションコンボリューションパラメーターのボリュームは256x(256 * 2k)x3x3と非常に大きく、光学分類ブランチのパラメーターは6Mに近く、回帰ブランチは12Mです。 2リットルの2次元操作パラメーターは、極端な量の不均衡を引き起こしました ステンシルブランチは、検索パラメータのサポート量の2k / 4k倍であるため、ネットワークトレーニングの問題全体で問題が発生します。しかし、後で変更されたDepthwiseバージョンでは、パラメーターの量が劇的に減少する可能性がありますが、全体的なトレーニングもより安定しており、全体的なパフォーマンスも向上しています。

6、イノベーションポイント5-複数のレイヤーでsiamprpnを使用する
イノベーション2の図に示すように、作成者がconv3_3、conv4_6、およびconv5_3のブランチでそれぞれsiamrpnネットワークを使用し、前のsiamrpnの結果を次のsiamrpnに入力していることがわかります。ネットワークでは、このアイデアはcvpr2019値のC-RPNアルゴリズムに似ています。マルチレベルカスケードには2つの利点があります。

  • 複数のsiamrpnsを使用して、多様なサンプルまたは識別可能なサンプルブロックを選択できます。最初のsinmrpnは、いくつかの特に単純なサンプルブロックを削除でき、後続のネットワークはさらにフィルターで除外され、いくつかのハードネガティブサンプルが残ります。これは、ネットワークの識別能力を向上させるために実際に有益です。
  • マルチレベル回帰演算を使用しているため、より正確なBBを取得できます。

第三に、SiamRPN ++の実験結果
このホワイトペーパーで提案したSiamRPN ++のパフォーマンスを検証するために、6つのデータセットで実験を行いました。 1つ目はVOTとOTBの2つの重要なデータセットで、次にUAV123を追加し、2つの比較的大きなデータセットLaSOT、TrackingNetで実験を実行しました。最後に、アルゴリズムを長期に適用し、VOT18-LTで実験しました。新しく提案されたアルゴリズムは、これらのデータセットで非常に良い結果を達成しました。具体的な効果は次のとおりです。
画像
上の図は、OTB15データセットに対するアルゴリズムのテスト結果を示しています。アルゴリズムは成功率でECOアルゴリズムを上回り、正解率曲線で3番目にランク付けされていることがわかります。その理由は、精度の評価指標があまり良くなく、中心点の位置だけで計算されているためです。
画像
上の図は、VOT18データセットでのアルゴリズムのテスト結果を示しています。縦軸はEAOを表します。アルゴリズムが0.414の最高精度と2位を達成していることがわかります。 LADCFアルゴリズムは大きなギャップを開きます。
画像
上の図は、VOT18-LTデータセットでのアルゴリズムのテスト結果を示しています。いわゆる長期トレースと通常のトレースの違いは、まず、タスク内のデータセットの各ビデオのビデオフレームが長く、通常は2000フレームを超えることです。次に、テストする追跡アルゴリズムには、追跡するターゲットが画像に表示されているかどうかを検出する機能が必要です。アルゴリズムもこの新しいタスクで最良の結果を達成しており、2位のMBMDアルゴリズムを大幅に上回っています。
画像
上の画像は、UAV123データセットでのアルゴリズムのテスト結果を示しています。UAV123データセットは、さまざまな角度でドローンを使用して撮影されたビデオです。このデータセットでも、アルゴリズムが2位のDaSiamRPNアルゴリズムをはるかに超えて、最良の結果を達成していることがわかります。
画像
上の図は、新しくリリースされた追跡データセットLaSOTでのアルゴリズムのテスト結果を示しています。アルゴリズムも最良の結果を達成し、2位のDaSiamRPNとの大きなギャップを開いたことがわかります。
画像
上記の表は、TrackingNetデータに対するアルゴリズムのテスト結果を示しています。アルゴリズムも最良の結果を達成したことがわかります。これは、AUC、P、およびその他の指標をはるかに上回っています。 2位以上のDaSiamRPN。
画像
上記の表の主な目的は、さまざまなBackBoneネットワークの使用、ネットワーク層の畳み込みを使用するかどうか、ネットワークの微調整操作を実行するかどうか、DWを使用するかどうかなど、このホワイトペーパーで提案する各改善の有効性を検証することです。畳み込みなど。具体的な分析は次のとおりです。

  • ネットワークの側面 AlexNetからResNet50に変更した後、conv4のみが非常に良い結果を達成したことがわかりました。 conv3とconv5の効果はそれほど良くありませんが、堅牢性の向上により、その後の機能強化が可能になります。同時に、BackBoneの微調整も2つの改善点をもたらす可能性があります。
  • 多層特徴融合 この図から、3つのブランチを同時に使用した場合の効果は、1つのブランチよりも明らかに高く、VOTは最良のconv4よりも4ポイント以上高いことがわかります。
  • DWを使用した畳み込み 表からわかるように、AlexNetであろうとResNetであろうと、新しい相関法が装備された後、改善すべき点が2つ近くあります。

第四に、個人的な認識と要約
4.1、個人的な感情
あなたが視覚的な目標追跡をしているなら、あなたは間違いなくこの記事がCVPR2019の口頭ではなく本当に強力であると感じるでしょう。たぶん、あなたはまた、あなたがそれをすべて王強によってできると感じるでしょう、そしてあなたはあなたがしていることをしなければなりません。実際、落ち着いてこの論文を注意深く熟考すれば、間違いなく改善のための多くのアイデアを得ることができます。速く行動してください、多分あなたは視覚的なターゲット追跡の分野で次の大きな人です!

4.2、個人的な要約
ツインネットワークフレームワークでのディープネットワークの使用は、シャムシリーズの重要な問題でした。このホワイトペーパーでは、トレーニングプロセスでポジティブサンプルのサンプリング方法を調整するだけで、ディープネットワークが追跡の役割を果たすことができますが、多層集約の方法はより多くなります。ディープネットワークの役割。さらに、新しい軽量DW畳み込みにより、パラメーターの量を減らしながら、追跡アルゴリズムのパフォーマンスが向上します。さらに、このペーパーで提案されているアルゴリズムは、複数のデータセットで最先端のパフォーマンスを実現できます。

予防
[1]このブログは私のオリジナルブログです。このブログに興味があり、ブログの転載をご希望の場合は、私(qq:root @ xxxxx)までご連絡ください。初めて返信させていただきますので、よろしくお願いいたします。
[2]個人の能力が限られているため、このブログには多くの問題がある可能性があります。皆さんが改善を提案できることを願っています。
[3]このブログをよく読んでいない方は、ぜひご連絡ください。時間内に返信し、意見交換をさせていただきます。ありがとうございます。
[4] この記事の内容のほとんどはから取られています ブログ もともと自分の考えで書くつもりでしたが、このブログで考えた方がいいと思います。読者が論文をよりよく理解できるようにするために、私はまだブログの内容を引用しています。

参考資料
1、 https://zhuanlan.zhihu.com/p/56254712