ビデオアクション認識-ビデオアクション認識のための畳み込み2ストリームネットワークフュージョン



Video Action Recognition Convolutional Two Stream Network Fusion



ビデオアクション認識のための畳み込み2ストリームネットワークフュージョンCVPR2016

https://github.com/feichtenhofer/twostreamfusion

ビデオアクション認識では、2つのSteam CNNを使用して、時空間情報を個別に処理します。ここでは、主にCNNで時空間情報をより適切に統合する方法について説明します。
調査結果は次のとおりです。
(i)ソフトマックス層で融合するのではなく、空間的および時間的ネットワークを畳み込み層で融合しても、パフォーマンスを損なうことなく、パラメーターを大幅に節約できます。
畳み込み層での時空間ネットワークの融合は、パフォーマンスの低下を引き起こしませんが、ネットワークパラメーターを減らすことができます

(ii)そのようなネットワークを以前よりも最後の畳み込み層で空間的に融合する方が良いこと、およびクラス予測層でさらに融合することで精度を高めることができること
ネットワークの畳み込み後層での空間融合は浅い層よりも優れており、カテゴリ予測層での融合はパフォーマンスを向上させます

(iii)時空間近傍に抽象的な畳み込み特徴をプールすると、パフォーマンスがさらに向上します。
時間的および空間的近隣でプーリングに参加すると、パフォーマンスを向上させることができます

画像

画像

CNNネットワークがビデオアクション認識で良い結果を達成しなかった理由を考慮して、私たちが信じる理由は次のとおりです:1)トレーニングデータが小さすぎる可能性があります2)時間情報が十分に使用されていません
現在のConvNetアーキテクチャは、時間情報を十分に活用することができず、その結果、そのパフォーマンスは、多くの場合、空間(外観)認識によって支配されます。

少なくとも以前の2ストリームアーキテクチャでは、次の問題を解決できません。
1)何がどこに動いているかを認識する、すなわち、外観認識(空間的手がかり)をオプティカルフロー認識(時間的手がかり)に登録する時空間情報の対応
2)これらの手がかりが時間とともにどのように進化するか。情報の変化

3アプローチ
以前の2ストリームアーキテクチャでは、時空間情報を適切に統合できず、時空間対応もありませんでした。
3.1。空間融合
いくつかの種類の融合があります:合計融合、最大融合、連結融合、変換融合、双線形融合
画像

3.2。ネットワークを融合する場所
ここにはもっと多くの選択肢があります
画像

3.3。時間的融合
画像

3.4。提案されたアーキテクチャ
画像

最後の畳み込み層(ReLUの後)で2つのネットワークを空間ストリームに融合し、3D Conv融合とそれに続く3Dプーリングを使用して時空間ストリームに変換します(図4、左を参照)。さらに、時間ストリームを切り捨てず、時間ネットワークで3Dプーリングも実行します(図4の右を参照)。両方のストリームの損失はトレーニングに使用され、テスト中に2つのストリームの予測を平均します

画像

複雑に感じますか?