SiamMask:高速オンラインオブジェクトトラッキングとセグメンテーション:統合アプローチ

Siammask Fast Online Object Tracking

SiamMask ビデオトラッキングとセグメンテーションを同時に行うためのリアルタイムの方法。



SiamMaskのアルゴリズムフローチャートを上の図に示します。

アルゴリズムの入力は、2つの画像、1つのテンプレート画像、および1つの検出対象の画像です。

1.行 の意味

ResNet-50の最初の4つの畳み込み層をf(θ)のバックボーンとして使用して、ネットワーク構造を次の図に示します。畳み込みニューラルネットワークの処理により、サイズの異なる256枚の画像が取得されます。 RoWは、上記で取得した2つの画像を深度ごとに処理した後の各候補ウィンドウの応答を表します。寸法は1 * 1 * 256で、合計17 * 17の行があります。

第二に、マスクを取得する方法

各行には、2層ネットワークを使用します h∅ w * hバイナリマスクを予測するために、処理後、17 * 17 63 * 63パーティション(17 * 17 RoWに対応)が取得されます。以下の式に示すように、 mn n番目の行通過の手段 h∅ 処理後のマスク。異なるzが与えられると、ネットワークは異なる分割を取得します。

三、マスク 損失関数

トレーニング中、各行にはグラウンドトゥルースバイナリラベルが付けられます 、このカテゴリに属する​​かどうかを示すために、このラベルとn番目のマスクラベル cn 関係があります。 c n ij {{+ 1、-1} これは、n番目の行に対応するマスク内の各要素のラベルを意味します。損失関数の式は次のとおりです。

四、マスクの入手方法

フローチャートを下図に示します。各行は、デコンボリューションによって対応するマスクを取得します。

5.モデルの2つの形式

以下の式で言及されているLの場合 3B 、RoWラベル Y n = + 1 その時点で、そのアンカーボックスと実際のボックスのIOU値は0.6より大きいです。それ以外の場合、ラベルは-1です。 Lの場合 2B 一般的に、タグは同じことをします。

6、フレームを生成する方法

以下の戦略生成ボックスがあります。

セブン、スコアとボックスを取得する方法

1 * 1 * 256次元の行ごとに、conv5の後に1 * 1次元のラウドネスを取得し、conv6の後に1 * 1 * 2k次元のスコアと1 * 1 * 4k次元のボックスを取得できます。以下に示すように:

8.実験

ナイン、論文分析

ターゲットの追跡とセグメンテーションを組み合わせることで、セグメンテーションは比較的高速なブランチとしてネットワーク構造全体に組み込まれます。