解釈可能な紙の読み(1)---深い視覚化によるニューラルネットワークの理解



Interpretable Paper Reading Understanding Neural Networks Through Deep Visualization



ニューラルネットワークの解釈可能性を学ぶために、先輩たちはまだ英語でたくさんの論文を私に投げてくれました、そして蓄積するのに長い時間がかかりました、ねえ、悪くはありません。英語のバカは論文を読むのが本当に難しいです~~だから私は小さな目標を設定したいです、私は10の論文を終えなければなりません、今私は1日に1つの論文をします〜

見たい論文がたくさんあります! ! !

ディープビジュアライゼーションによるニューラルネットワークの理解ノートが始まりました~~~(読み始めるため)

記事の構成は次のようになります。最初の章では2つのツールを紹介し、2番目の章では最初の方法を紹介し、3番目の章では2番目の方法を紹介し、4番目の章で要約します。

概要
ニューラルネットワークは非常に強力ですが、なぜ彼が彼にとても良いことができるのかについては比較的後方にあります。この記事では2つのツールを紹介します( ツールはまだオープンソースです ):
1.ツール1は、変換の各レイヤーでトレーニングされたアクティベーションを視覚化できます。これにより、このネットワークの入力イメージ、アクティベーションの各レイヤーの出力を確認できます~~

2. 2番目のツールは、さまざまな機能の視覚化を実現するために、正則化によってより強力になります。これは、畳み込みカーネルの視覚化です。畳み込みカーネルを視覚化することは難しいため、畳み込みカーネルが最大のアクティブ化を持つように入力を調整することで、一般に機能を確認できます。
ただし、これを行わないと、結果は非常に良好になります。 これが実験的な紹介です
したがって、いくつかの正則化制限を追加すると、視覚化された機能をより現実的で解釈しやすくすることができます~~

前書き
畳み込みニューラルネットワークは、ここ数年非常に強力です。優れた機器、アクティベーションユニット、大量の注釈データの恩恵を受けて、画像チャレンジおよび人間を超えた分類能力〜
効果はとても良いですが、説明することはできません。もちろん、主に相互作用するニューロンや非線形ニューロンが多数あるため、説明するのは困難です。たとえば、alexnetを理解したい場合は、6000万個のパラメーターを理解する必要がありますが、それでも非線形です。しかし、それを理解すれば、モデル構造を簡単に最適化できます。たとえば、2013年のイメージネットコンペティションの新しいモデルは、デコンボリューション視覚化テクノロジーを使用してネットワークを説明し、小さなコンボリューションフィルターが構造変化を生み出すことを発見することです。
誰もがTheano、Pylearn2、Caffe、Torchを使用しています(チェックしました、これらはいくつかのプログラミングフレームワークです、申し訳ありませんが、tf pytorchについてしか聞いたことがありません)が、それがどのように機能するかは誰にもわかりません。また、彼らの新しいモデルのいくつかを探求しています。したがって、2つの方法が通常の研究者向けであろうと専門家向けであろうと、モデルの内部動作メカニズムを理解するのに非常に役立ちます。
(これらの単語は翻訳して私の論文の紹介に入れることができると思います。言語を変更して確認するのはそれほど簡単ではないはずです~~)

以下はより実用的です
最初のツールはソフトウェアであり、トレーニングされたDNNの各レイヤーで生成されたアクティビティを、ユーザーが提供する画像またはビデオにインタラクティブに描画できます。 静止画 特定の入力のゆっくりとしたテールレスな研究を提供しますが、 ビデオ入力 動的な入力変更に対するDNNの応答を強調します。現在、ビデオはユーザーのコンピューターカメラによってリアルタイムで処理されます。これは、ユーザーが視野内のさまざまなアイテムを移動したり、ブロックして結合したり、その他の操作を実行してネットワークのさまざまな機能を伝達したりできるため、特に便利です。応答します。

私たちが紹介する2番目のツールは、より適切に視覚化できます 単一ニューロン DNNの各レイヤーで計算された学習機能。現在のDNNがどのように機能し、直感を改善するかを理解するには、すでに持っている機能を知ることが重要です。

DNNの各層で実行される計算を理解しようとすることは、ますます人気のある研究の方向性です。 1つの方法は、各レイヤーをグループとして調査することです。 そして、ニューロンの層全体によって実行される計算のタイプを研究します 。この方法では、1つの層のニューロンが相互作用して情報を上位の層に渡すため、情報を提供できます。したがって、DNNによって実行される機能全体に対する各ニューロンの寄与は、その層のニューロンのコンテキストに依存します。

別の方法は 各ニューロンによって計算された関数を説明しようとしています 。この分野での過去の研究は、データ中心とネットワーク中心の2つの異なる陣営に大別されます。前者は、トレーニングされたDNNとネットワークを介したデータの実行の両方を必要とし、後者はトレーニングされたネットワーク自体のみを必要とします。データ中心のアプローチは、トレーニングまたはテストセットからの画像を表示することです。これにより、単一ユニットのアクティブ化が高または低になります。別の方法は、各ニューロンユニットをトリガーする画像の特定の部分を強調表示することです。

ネットワーク中心のアプローチ データセットからのデータなしでネットワークを直接調査します。たとえば、Erhanらによって合成された画像。 (2009)特定の細胞の高い活性化を引き起こします。ある初期入力x = x0から、入力計算によってai(x)がいくつかのユニットiでアクティブになります。次に、入力空間で勾配∂ai(x)/∂xに沿って入力を合成すると、アクティベーションユニットiがどんどん高くなり、最終的に特定のx ∗で終了することも好ましい入力刺激ユニットの問題と見なされます。

入力スペースが画像の場合、xを直接表示して解釈することができます。他の人々は、グラデーションを使用して、より高い活性化(Simonyan et al。、2013(Nguyen et al。、2014)またはより低い活性化出力(Szegedy et al。、2013)ユニットにつながる画像を見つけるために追随しました。

いくつかのグラジエントベースの方法は、その単純さのために魅力的です。 しかし、最適化プロセスによって生成された画像は、多くの場合、自然な画像とあまり似ていません。 。代わりに、それらは、高い(または低い)アクティベーションを引き起こす一連の「ハッカー」で構成されています。 極端なピクセル値、構造化された高周波モード、およびグローバル構造のない一般的なパターンのコピー (Simonyan et al。、2013 Nguyen et al。、2014 Szegedy et al。、2013 Goodフェローなど、2014)。最近のいくつかの研究により、アクティベーションがこれらの「ハッカー」の影響を受ける可能性があるという事実がよりよく理解されています。具体的には、そのような「ハッカー」は画像の誤分類の正しい分類に適している可能性があり、無意識のうちに小さな変更を加えてもそれらにつながることが示されています(Szegedy et al。、2013)。認識されない「なりすましの例」を生成するための勾配情報(Nguyen et al。、2014)、および極端な活性化につながる多数の不自然な画像は、ニューラルネットワークの局所的な線形動作によって説明できます(Graham Goodfeller et al。、2014 )。

画像を最適化して高い活性化を引き起こすという強力な証拠があるので、この方法を使用して有用な視覚化を取得する希望はありますか?
その結果、最適化を適切に調整できるかどうかがわかります。 Simonyan etal。 (2013)それを示した l2による正則化 変換ネットワークの最後のレイヤーのわずかに認識可能な画像を生成できます。 Mahendran and Vedaldi(2014)も、最適化プロセスで 自然画像のアプリオリを追加することの重要性 、生成された画像が、特定の入力画像によって生成されたレイヤー全体のアクティブ化モードをシミュレートする場合。これらの作業に基づいて、私たちは貢献してきました 正則化の3つの追加形式 、それらを組み合わせると、以前の方法よりも認識可能な最適化ベースのサンプルが生成されます。

最適化はランダムであるため、さまざまなランダムな初期画像から開始することで、分散がユニット学習の不変情報を提供する最適化された画像のセットを取得できます。

要約すれば、 この記事の貢献には、主に次の2つのポイントがあります。

  1. 訓練された畳み込みニューラルネットワークがユーザーから提供された画像やビデオに応答するときに、各ニューロンのリアルタイムのインタラクティブな視覚化を提供できるソフトウェアツールについて説明し、公開します。ツールは、前方活性化値、勾配上昇によって得られた優先刺激、トレーニングセット内の各ユニットの上部画像、上部画像のデコンブハイライト(Zeiler&Fergus、2013)、およびバックプロパゲーションまたはデコンブ開始からの計算を表示します任意のユニットから後方差。これらの補完的な視覚化の複合効果は、ニューロンコンピューティングコンテンツの理解を促進するための単一の方法よりも優れています。また、このツールを使用して得た洞察のいくつかについても説明します。 (第2節)。
  2. これまでの作業を拡張して、これまでの大規模な畳み込みニューラルネットワークで最も解釈しやすい画像を生成するいくつかの新しい正則化タイプを追加することにより、入力空間での優先アクティベーションモードを視覚化します。 3)。

ツール紹介
どちらのツールもオープンソースであり、http://yosinski.com/deepvisにあります。これらのツールは、任意のDNNソフトウェアフレームワークと統合するように適合させることができますが、人気のあるCaffe DNNソフトウェアパッケージにすぐに使用できます(Jia et al。、2014)。ユーザーは、独自のCaffe DNNまたは事前にトレーニングされたDNNを使用して、視覚化を実行できます。これらのDNNには、このトレーニング済みネットワーク内の各ニューロンをアクティブ化するために処理できる事前に計算された画像が付属しています。事前にトレーニングされたネットワークは「AlexNet」アーキテクチャとほぼ同じですが(Krizhevsky et al。、2012)、レイヤーをマージした後に部分応答正規化レイヤーが使用されます(Jia et al。、2014)。 Caffeフレームワークを使用してImageNet2012データセットをトレーニングします(Deng et al。、2009)。

第2章が始まります-ライブコンバージョンアクティベーションの視覚化
(全文を翻訳するのではなく、私が理解している方法を紹介するだけです〜)

第2章で使用される方法は非常に簡単です。畳み込み層、プーリング層、およびアクティベーション層を見ることができます。これらの中間プロセスを透過的にすることで、いくつかのことを理解できます。
たとえば、1。一部のレイヤーの表現には強い局所性があります。つまり、元の画像の局所的な情報がいくつかあります。
2.トレーニングセットに含まれていない画像の場合、モデルを使用して予測を行うことは、特定のカテゴリの確率が高くありませんが、入力の小さな変化がの確率ベクトルに大きな影響を与えることがわかります。出力 。

第3章が始まります—正則化された最適化による視覚化

最初に、正則化を追加する4つの方法を紹介しました。最大畳み込みカーネルアクティベーションの入力を最適化する必要がありますが、このプロセスによって取得される最終的な画像は不自然です(つまり、情報が表示されません)。したがって、正則化項である項が目的関数に追加されます。しかし、このアイテムを追加する方法は、多くの方法があります。これが4種類です:
1.一般的な 正規化L2 ディケイは大きな値を罰し、rθ(x)=(1-θdecay)・xとして実装されます。 L2減衰は、極端なピクセル値のいくつかのサンプル画像を防ぎます。この極端な単一ピクセル値は、自然に発生するものでも、非常に一般的なものでもありません。また、視覚化にも役立ちません。 Simonyan etal。 (2013)もL2減衰を使用しました。
二。 ガウスぼかし :最急降下法によって生成された画像は、高周波情報を含む例を生成することがよくあります(考えられる理由については、補足セクションS1を参照してください)。これらの画像は高い活性化をもたらしますが、真実でも説明できないものでもありません(Nguyen et al。、2014)。したがって、有用な正則化は、高周波情報を罰することです。このガウスぼかしステップrθ(x)=ガウスぼかし(x、θb幅)を実装します。畳み込みカーネルとファジーカーネルは、他の正則化方法よりも計算にコストがかかるため、たとえば、各ステップではなく、いくつかの最適化ステップをぼかすことができる別のハイパーパラメーターθbを追加しました。幅の狭いガウスカーネルを使用して画像を複数回ぼかすのは、幅の広いカーネルを使用して画像を1回ぼかすのと同じです。最適化プロセス中に画像があまり変化しない場合でも、効果は同様です。したがって、この手法は正規表現を制限することなく計算コストを削減します。 Mahendran and Vedaldi(2014)は、彼らの仕事で罰を使用しました。その効果は、レイヤーコードから画像を再構築するために、完全な突然変異と呼ばれるぼかしに似ています。
3.3。 小さな標準化で写真を切り抜く 最初の2つの正則化方法は、高振幅および高頻度の情報を抑制するため、これら2つの方法を適用した後、やや小さく滑らかな値を含むx ∗を取得します。ただし、x ∗は、各位置でゼロ以外のピクセル値を表示します。一部のピクセルがメインオブジェクトまたは入力のタイプをx ∗で表示し、ユニットがアクティブ化を検討する場合でも、他のすべてのピクセルの勾配x ∗は通常ゼロ以外であるため、これらのピクセルもいくつかのモード遷移を示し、促進します。小さな方法で、彼らは最終的に選択されたユニットの活性化を改善することができます。この動作から検索を逸脱し、メインオブジェクトのみを表示します。他の領域が必要ない場合は、それらを正確にゼロにします。このバイアスrθ(x)の実装を使用して、各ピクセルの仕様(赤、緑、および青のチャネル)を計算し、ピクセルのミニ仕様をゼロに設定します。しきい値標準θn_pctは、ピクセル指定xのパーセンテージとして指定されます。
四。 アクティベーションにほとんど寄与しないピクセルをトリミングします 。小さな標準でピクセルをトリミングする代わりに、いくつかのよりスマートな方法を試すことができます。これにより、パフォーマンスへの影響を減らすことができます。ピクセルのアクティブ化への寄与を計算する1つの方法は、ピクセルが0に設定されているときにアクティブ化がどれだけ増加または減少したかを測定することです。この方法は簡単ですが、非常に遅く、各ピクセルを前方に渡す必要があります。代わりに、xの近くでai(x)を線形化することにより、このプロセスを近似します。この場合、xの各次元の寄与は、xと勾配要素の積として推定できます。絶対値を使用して、正または負の方向への寄与が少ないピクセルを見つけます。ピクセルのピクセル変換をゼロに設定し続けることを選択できますが、アクティブ化の増加が多数発生しますが、これらの変更はグラデーションによって増加しています。ここでは、クリップされたピクセルは重要でないと見なされるため、使用しないでください。大きな勾配ステップの外側の領域の線形近似が最も効果的です。このrθ(x)演算を定義して、θc_pctパーセンタイルでピクセルと寄与をゼロに設定します。
画像
図3:この図は、単独で使用した場合の各正則化方法の効果を示しています。ハイパーパラメータ空間では、正則化なし(左)から強い正則化(右)まで、各線は線形スキャンとして表示されます。アプリケーションが強すぎると、正則化によって最適化が失敗したり(L2減衰、最初の行など)、画像の解釈可能性が低下したりします(標準が小さく、寄与率が小さい、最後の2行)。このため、確率的ハイパーパラメータ検索は、連携して機能する共同ハイパーパラメータ設定を見つけるのに非常に役立ちます(図4を参照)。

1
表1.4つのハイパーパラメーターの組み合わせにより、さまざまなスタイルの認識画像が生成されます。ランダムに選択された300のハイパーパラメータの組み合わせを通じて画像を再観察し、これら4つを決定しました。上から下に、これらはハイパーパラメータの組み合わせであり、図4に示すように、左上、右上、左下、右下のゴリラのような視覚化効果を生成します。ハイパーパラメータの3行目は、図4の他のクラスと図5のすべてのクラス。
(これらのパラメーターは、上記の4つの正則化メソッドに追加されます。つまり、上記の4つのメソッドを使用して、モデルのパラメーターを絶えず変更し、最終的に結果を確認して、そのような画像を取得します。)
画像
図4.fc8レイヤー上のさまざまなタイプのセルの優先入力の視覚化では、ネットワークの1000次元出力は最終的なソフトマックスの直前にあります。左下には、ゴリラの正規化されたハイパーパラメータの4つの異なるグループの9つの視覚化(3×3グリッド)があります(表1)。他のすべてのクラスでは、正則化最適化手法によって生成された4つの解釈可能な視覚化を選択しました。正則化されたハイパーパラメータの4つの組み合わせを選択し、ランダムなハイパーパラメータ検索を実行して、相互に補完的な組み合わせを選択しました。たとえば、左下の象限は低い周波数パターンを示し、右上の象限は高い周波数パターンを示し、左上の象限は重要な領域のまばらなセットを示します。通常、これらの4つの状況を同時に考慮すると、より強い直感を得ることができます。ほとんどすべての場合、人々はニューロンがどのタイプを表すかを推測できることがわかりました。

画像
図5.深い畳み込みニューラルネットワークの8層のサンプル機能の視覚化。これらの画像は、さまざまなレベルのフィーチャの実際のサイズを反映しています。各レイヤーで、各チャネルの4つのランダムな最急降下法の実行の視覚化を示します。これらの画像は、視覚化の多様性と解釈可能性を示すために厳選されたものですが、5つの畳み込み層すべてのフィルターごとに1つの画像が図S1(論文の最後にある補足図)に示されています。人は、エッジ、コーナー、ホイール、目、肩、顔、ハンドル、ボトルなど、さまざまなスケールでオブジェクトの重要な機能を認識できます。視覚化により、より低いレベルの単純なコンポーネントで構成される、より高いレベルの複雑さと変化が示されます。レベル。層の数が増えるとパターンの変化が大きくなり、一定の表現をどんどん学んでいることがわかります。特に、5番目の層(最後の畳み込み層)から6番目の層(最初の完全に接続された層)にジャンプすると、大きな変化がもたらされました。最高の電子表示、ズームイン。

第4章-議論と結論
1.インタラクティブツールは、後続の畳み込み層の表現がローカルであることが多く、チャネルが完全に分散されているのではなく、特定の自然な部分(ホイール、面など)に対応していることを示しています。つまり、すべての特徴が自然の部分に対応しているわけではなく、世界が人間の想像とは異なるものに分解する可能性が高くなります。これらの視覚化は、表現の学習の正確な性質をさらに研究することは興味深いかもしれないことを示しています-それらが単一のチャネルに制限されているか、複数のチャネルに分散されているかどうか-Zhou etal。 (2014)この分野で働く)。また、新しいモデルがconv4またはconv5でトレーニングされている場合、転移学習は、 疎な接続の傾向があると、これらのレイヤーのいくつかの機能を組み合わせて、より高いレベルで重要な機能を作成する必要がある場合があるため、便利な場合があります。

2. 2番目のツール(即時検証、解釈可能、最適化された視覚学習機能をサポートする新しい正則化)は、研究者と実践者がモデルを理解、デバッグ、および改善するのに役立ちます。視覚化はまた、進行中の物語の新しいひねりを明らかにします。
以前の研究では、画像空間に一定量の構造化ノイズを追加すると、識別機能を備えたネットワークを簡単に欺いたり攻撃したりできることが示されています(Szegedy et al。、2013(Nguyen et al。、2014)。よく引用される理由は、識別トレーニングです。ネットワークは、入力時に認識できない情報を無視します。たとえば、ヒョウの毛皮の一意のスポットを照合して識別し、4本の足があることを無視します。事実。したがって、これは常に絶望的な努力と見なされてきました。 空間が広く分布している生成モデルxのランダムサンプルを作成して、考えられるすべての画像を反復処理します。次に、xを認識可能な画像に変換し、前のp(x)と後のp(y | x)を満たす領域にします。クラスラベルy。過去の試みは、主に本番環境によってサポートされてきました。非現実的な画像に対するこの方法の使用(Nguyen et al。、2014 Simonyan et al。、2013)。
(ここでは理解できません)
ただし、ここに示す結果は、別の可能性を示唆しています。以前に使用した事前確率が弱すぎる可能性があります(強力なp(x)モデルが必要な理由の仮定については、セクションS1を参照してください)。リアリズムに偏るようにp(x)モデルを注意深く設計または学習することにより、2つを使用することにより、差別化された学習p(y | x)モデルに現れる多数のパラメーターを利用できる可能性があります。モデル確率を同時に実行して、リアルな画像を生成します。このホワイトペーパーで正則化として使用した単純な手作業でコーディングされたp(x)モデルでも、離れたピクセル間の複雑な依存関係が明らかになりました(図4の構造スパンが100ピクセルを超える甲虫を参照)。言い換えれば、これらのパラメータはジャガーのスポットをエンコードするだけでなく、ある程度その4本の脚もエンコードします。より高いレベルの入力とアクティブ化でより良い、学習された確率モデルを使用すると、より多くの構造を見ることができます。ダイら(2015)のこの分野での研究は、いくつかの興味深い結果を示しています。この記事で生成された画像は写実的な写真とはほど遠いものですが、(通常の教師なしトレーニング方法とは対照的に)差分トレーニングされたパラメーターを生成モデルに変換することは、さらなる研究にとって有益な領域である可能性があります。

気持ち
物事の前に、翻訳の半分と半分がこの記事を言った、要約は2つの方法について話すことです。個人的には、2番目の方法はもっと研究して拡張できるべきだと思います。結局のところ、この正則化ルールは、さまざまなデータセットを追加することで変更でき、作成者自身のパラメータはすべて優れています。さまざまな方法、さまざまなパラメーター、さまざまなデータセットを組み合わせると、さまざまな効果が得られるはずです。

最初の論文はしぶしぶ読まれました、私が言わなければならないのは、あまりにも長い間英語に触れなかったのは本当に難しいことです、そして確かに私が本当に理解できないいくつかの用語があります。わからないかもしれません。論文を専門とするクラスがあるかどうかわかりません~~
自分で見るのは難しすぎる~~もしそうなら、このブログを通過したすべての人がアドレスを残してくれることを願っています、ありがとうございました〜

チュチュ2はこれからも頑張っていきます。明日は紙があります! !