ビデオアクション認識-ビデオのアクション認識のための2ストリーム畳み込みネットワーク



Video Action Recognition Two Stream Convolutional Networks



ビデオでのアクション認識のための2ストリーム畳み込みネットワークNIPS2014

各ストリームは、ディープConvNetを使用して実装され、そのソフトマックススコアはレイトフュージョンによって結合されます。 2つの融合方法を検討します。スタックされたL2正規化ソフトマックススコアでのマルチクラス線形SVM [6]の平均化とトレーニングを特徴として使用します。

空間ストリームConvNet:これは単一の画像を分類するためのものです。最新のネットワーク構造を使用して、画像分類データベースで事前トレーニングを行うことができます。

3オプティカルフローConvNets
モデルへの入力は、いくつかの連続するフレーム間でオプティカルフロー変位フィールドを積み重ねることによって形成されます。このような入力は、ビデオフレーム間の動きを明示的に記述し、認識を容易にします。
オプティカルフローConvNetの場合、画像の連続するフレームの数に対応するオプティカルフローフィールドをCNNに入力します。この表示されたモーション情報は、アクションの分類に役立ちます。

ここでは、オプティカルフロー入力に基づくバリアントを検討します。
3.1ConvNet入力構成
オプティカルフロースタッキング。ここでは、オプティカルフローの水平成分と垂直成分をフィーチャマップと入力CNNとしてパックします。ベクトル場の水平成分と垂直成分は、画像チャネルとして見ることができます。
画像

軌道スタッキング、モーションを表現する別の方法として、モーション軌道情報をCNNに入力できます
画像

双方向オプティカルフロー
双方向オプティカルフローの計算

平均フロー減算:これは一種の入力正規化であり、平均値は0に正規化されます
モデルが整流の非線形性をより有効に活用できるようにするため、ネットワーク入力のゼロセンタリングを実行することは一般的に有益です。
私たちの場合、より単純なアプローチを検討します。各変位場dから、その平均ベクトルを減算します。

UCF-101での個々のConvNetの精度
画像

HMDB-51での一時的なConvNetの精度
画像

UCF-101での2ストリームConvNet精度
画像

UCF-101およびHMDB-51の平均精度(3分割以上)
画像