MACNN-きめ細かい画像認識のための学習マルチアテンション畳み込みニューラルネットワーク



Macnn Learning Multi Attention Convolutional Neural Network



順番 https://blog.csdn.net/ellin_young/article/details/80282081

「きめ細かい画像認識のためのマルチアテンション畳み込みニューラルネットワークの学習」は、Microsoft ResearchAsiaが17年間に発行したきめ細かい画像認識論文です。その姉妹記事は、「よりよく見るために近くを見る:きめ細かい画像認識のための反復的注意畳み込みニューラルネットワーク」です。



それがコンパニオン記事である理由は、著者が同じクラスであるため、原則はまだ非常に異なります、うーん。

I.概要



現在、きめ細かい認識は、主に1.識別可能なパーツのローカリゼーションと2.パーツベースのきめ細かい特徴学習に依存しています。現在の主流のアプローチは、2つを分離し、2つの間の接続を無視することです。この記事では、パーツ生成と特徴学習が相互に強化できるようにするマルチフォーカス畳み込みニューラルネットワーク(MA-CNN)を提案します。同時に、モデルは注意部分を手動でマークする方法を破棄し、弱い教師あり学習方法を採用します。 (手動で注意部分に印を付けると、位置に印を付けるのが難しく、手間がかかります)

この記事のハイライト :1。機能マップの使用異なるチャネル(チャネル)は異なる視覚情報に注意を払い、ピーク応答領域も異なります。クラスタリング応答領域はチャネルに類似しており、注意部分が取得されます。

2.本論文のパート1の特殊な位置決め方法により、本論文では、クラス内の類似性とクラス間の分離可能性を可能な限り高めることを目的としたチャネルグループ化損失を提案します。



第二に、モデル

MA-CNNフレームワークは上に示されています。モデルは3つの部分に分かれています。 ベースネットワークチャネルグループ化レイヤー部品分類サブネットワーク

ネットワークの画像(a)を入力し、ベースネットワークを介してフィーチャマップ(b)を生成し、(b)の各チャネルを展開し、例として12チャネルを取り上げ、(c)を取得して、各チャネルにピークがあることを確認します。応答領域(白い部分)、一部のチャネルのピーク応答領域は類似していますが(同じカラーフレームで表されます)、クラスタリング効果は完全に接続されたレイヤーをスタックすることによって実現され、類似した領域は図のように1つのクラスにグループ化されます(e)の図は4つのカテゴリに分類されます。シグモイド(0-1に正規化)確率を使用して同じ種類のチャネルを追加することは、4つの空間アテンションエリア、つまり4つのマスク(ローカルポジショニング!)、これらの4つのマスクとフィーチャマップをそれぞれ乗算、4つのローカルリファインドを生成することと同等です。機能は個別に取得および分類されます。 MA-CNNは、各部分のソフトマックス分類損失と各部分のチャネルグループ化損失(Lcng)の収束を行う交互学習です。

第三に、方法

3.1チャネルグループ化レイヤー 事前トレーニング

チャネルグループ化レイヤーは、紙の最も重要な構造(識別可能な部分のローカリゼーション)であり、繰り返し紙の難しさでもあります。

N個のパーツを例にとると、チャネルグループ化レイヤーのグループがN個あります。チャネルグループ化レイヤーの各グループの構造は、tanhを持つ2つのfcレイヤーで構成されます。

トレーニングが局所的な最適解に陥るのを防ぐために、チャネルグループ化レイヤーを事前にトレーニングする必要があります。具体的には、各特徴チャネルは、各特徴チャネルのピーク応答座標を有するので、各特徴チャネルは、位置ベクトルを使用することができる。特徴チャネルは、要素がすべてのトレーニング画像インスタンスのピーク応答からの座標である位置ベクトルとして表すことができます。

これらの位置ベクトルを特徴として扱い、それらをクラスター化し、異なるチャネルをNグループ、つまりN個の部分に分割します。長さc(チャネル番号)の指示ベクトルは、各チャネルがグループに属しているかどうかを示します。属している場合、チャネル位置は1で、そうでない場合は0です。

N個の指示ベクトルは 相互に排他的な関係

上記のプロセスがトレーニングで最適化されるようにするために、fcを使用してこのクラスタリングプロセスを概算し、N個のパーツを生成し、NセットのFCレイヤーを使用します。各fcは、ベースネットワークの特徴マップを受信し、重みベクトルを生成します。

正確にするために 重みベクトル (3)の出力が(2)に近くなるように、fcパラメーターを事前トレーニングする必要があります。学習した重みベクトルに基づいて、各部分の注意マップを取得できます。 W * Xは、ベースネットワークによって抽出されたフィーチャマップを表します。 djは、対応する機能チャネルで乗算されます。追加後、確率マップを取得するためにシグモイドで正規化されます。

確率マップとベースネットワークによって抽出された特徴マップによって、少しローカルな特徴を拡張し、式(1)のように乗算、累積します。 (5)

3.2MA-CNN損失関数

MA-CNNの損失は、2つの部分で構成され、1つは部分分類損失であり、これは通常の分類ネットワークのクロスエントロピーであり、もう1つはチャネルグループ化損失です。画像Xの損失は、次のように表されます。ここで、NはN個の部分を表します。

その中で、lcngはDisとDivの2つの部分で構成されています。 Disは、同じパーツの座標をより集約することであり、Divは、異なるパーツを可能な限り離すことです。

3.3代替最適化

この論文では、相互強化法を使用して、分類ネットワーク層とチャネルグループ層を交互にトレーニングします。まず、畳み込み層を修正し、Lcngを使用してチャネルグループ化層を最適化します。次に、チャネルグループ化レイヤーを修正し、Lclを介して畳み込みレイヤーとソフトマックスをトレーニングします。どちらのタイプの損失も変化しないまで、交互に繰り返します。

第四に、実験的結論:

一定範囲内の部品数を増やすと精度は上がりますが、一定量に達すると飽和状態になり、精度は上がりません。