SiamMask：高速オンラインオブジェクトトラッキングとセグメンテーション：統合アプローチ

Siammask Fast Online Object Tracking

SiamMask ビデオトラッキングとセグメンテーションを同時に行うためのリアルタイムの方法。

SiamMaskのアルゴリズムフローチャートを上の図に示します。

アルゴリズムの入力は、2つの画像、1つのテンプレート画像、および1つの検出対象の画像です。

1.行 の意味

ResNet-50の最初の4つの畳み込み層をf（θ）のバックボーンとして使用して、ネットワーク構造を次の図に示します。畳み込みニューラルネットワークの処理により、サイズの異なる256枚の画像が取得されます。 RoWは、上記で取得した2つの画像を深度ごとに処理した後の各候補ウィンドウの応答を表します。寸法は1 * 1 * 256で、合計17 * 17の行があります。

第二に、マスクを取得する方法

各行には、2層ネットワークを使用します h∅ w * hバイナリマスクを予測するために、処理後、17 * 17 63 * 63パーティション（17 * 17 RoWに対応）が取得されます。以下の式に示すように、 mn n番目の行通過の手段 h∅ 処理後のマスク。異なるzが与えられると、ネットワークは異なる分割を取得します。

三、マスク 損失関数

トレーニング中、各行にはグラウンドトゥルースバイナリラベルが付けられますに、このカテゴリに属するかどうかを示すために、このラベルとn番目のマスクラベル cn 関係があります。 c n ij {{+ 1、-1} これは、n番目の行に対応するマスク内の各要素のラベルを意味します。損失関数の式は次のとおりです。