ニューラルネットワークの解釈可能性-ネットワーク分析:深い視覚表現の解釈可能性の定量化



Interpretability Neural Networks Network Dissection



この記事は、ネットワークの解釈可能性に焦点を当てた、2017年のZhouBoleiのCVPR記事です。

著者はまず、この方法を、ImageNetとPlacesでトレーニングされたAlexNet、VGG、GoogLeNet、ResNetなどの一般的なCNNモデルに適用して、各ネットワークのニューロンを視覚化および調整します。次に、ネットワーク分析を使用して、異なるニューラルネットワーク間の解釈可能性の概念分布の違いを比較します。次に、著者は、トレーニングプロセス中のネットワークの内部表現に対する、さまざまな監視、ネットワークの変更、およびバッチノルム、ドロップアウトなどのさまざまな正則化の影響を分析し、多くの興味深い結論に達しました。以前の直感的な認識。一貫性のない結論を知っています。



スピン

著者は、AlexNetのconv5レイヤーを回転させることにより、ネットワークの解釈可能性が軸に依存しないことを発見しました。言い換えると、特徴マップを回転させると、ネットワーク内の一意の検出器の数に影響し、それによってネットワークの解釈可能性に影響します。ただし、回転されたフィーチャには、元のフィーチャと同じ識別力があります。著者は、ネットワークの解釈可能性は、ネットワークの識別力の結果または前提条件ではなく、独立して測定する必要がある品質であると結論付けています。
画像

解釈可能性に対するネットワーク構造と監視の影響

ネットワーク構造の解釈可能性ランキング:ResNet> VGG> GoogLeNet> AlexNet。ネットワークが深いほど、解釈可能性が高くなります。
同時に、トレーニングデータは[場所]> [ImageNet]にも影響します。これは、シーンに含まれるターゲットが多く、ターゲット検出器を増やすのに役立つためです。
画像
教師あり学習と比較して、自己教師ありモデルは、より多くのテクスチャ検出器を生成しますが、ターゲット検出器は少なくなります。



トレーニング条件と解釈可能性

さまざまなトレーニング条件(反復回数、ドロップアウト、バッチ正規化、ランダム初期化)について、ネットワークの解釈可能性が次のように比較されます。
画像

結論として

  1. 異なるランダム初期化によって得られるネットワークの解釈可能性は基本的に同じです
  2. ドロップアウトのないネットワークでは、テクスチャ検出器が多く、ターゲット検出器が少なくなります
  3. BNは、ネットワークの解釈可能性を大幅に低下させます。
    最後のものに関しては、BNはネットワークトレーニングを加速することができます。これはある意味でネットワークの識別力に有益ですが、ネットワークの解釈可能性を低下させます。これは、BNが各レイヤーの応答を白くし、スケールを滑らかにし、ネットワークがトレーニングプロセス中に中間表現をより簡単に回転できるため、前述の回転が解釈可能性に影響を与えるためである可能性があります。 。
    次の図は、トレーニング中の変更を示しています。
    画像
    トレーニングプロセス中、異なるタイプのコンセプト検出器間で相互変換はありませんでした。