AlexNetペーパー(ディープ畳み込みニューラルネットワークを使用したImageNet分類)研究ノート



Alexnet Paper Study Notes



深い畳み込みニューラルネットワークによるImageNet分類 研究ノート

最初の典型的なCNNはLeNet5ネットワーク構造ですが、誰もが注目した最初のネットワークは、このホワイトペーパーで提案したAlexNetでした。この記事のAlexNetネットワークは、2012年のImageNetコンテストで優勝したモデルを照合した後に公開された記事です。著者はトロント大学のAlexKrizhevskyらです。 Alex Krizhevskyは実際にはヒントンの学生であり、チームリーダーはヒントンです。



このメモは、レビューペーパー「ディープ畳み込みニューラルネットワークを使用したImageNet分類」に関するメモです。メモは、記事の構造に厳密に基づいています。

紙の住所: https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf



同時に、中国語と英語の対応する翻訳へのリンクが提供されています。 https://www.jianshu.com/p/ea922866e3be

  • 前書き
  1. オブジェクト認識のための大規模で実際の高品質の画像データセットの重要性について説明します。オブジェクト認識に対処するためのソリューション:より大きなデータセット+より強力なモデル+過剰適合を回避するためのより優れた手法。
  2. 現在、ImageNet、LabelMeなどの大規模なデータセットがあり、より強力なモデルには、このサイズのデータ​​セットを運ぶのに十分な学習能力を備えたニューラルネットワークを使用できます。
  3. しかし、ImageNetのようなデータセットでさえ、実際には複雑なオブジェクト認識の問題には十分ではありません。したがって、1つの方法は、この記事で使用されているCNNネットワークなど、問題の理解に基づいて事前知識をモデルにブレンドすることです。完全に接続されたネットワークと比較して、CNNは接続が少なく、パラメーターが少なく、トレーニングが容易であり、理論的には、効果は完全に接続されたネットワークと同等です。
  4. CNNにはさまざまな利点がありますが、トレーニングは依然として困難な作業です。現在のGPUにより、ImageNetなどの大規模データセットにCNNモデルをデプロイできます。
  5. 論文の主な貢献:

1)ILSVRC-2012データ(ImageNetのサブセット)で最良の結果を達成しました。

2)AlexNetのニューラルネットワークを設計し、トレーニング用に高度に最適化されたGPU並列展開スキームを実現し、RELU、LRNを使用して、プーリングの技術的詳細を重複させました



3)過剰適合を回避するために、データ拡張やドロップアウトなどの技術的手法が使用されます

  • データセット
  1. ImageNetには、人工的に注釈が付けられた1,500万枚の高解像度画像、約22,000のカテゴリが含まれています。
  2. ILSVRCは毎年コンテストを開催しています。使用されるデータセットは次のとおりです。ImageNetから1000のカテゴリが抽出され、各カテゴリの約1000の画像の総数は120万の画像です。
  3. コンテストで使用される評価指標は、Top-1エラー率とTop5エラー率です。
  4. 紙のデータの処理:元のデータセットのサイズは異なります。各画像の短辺の長さはスケーリングによって256であり、次にその中心の256の長さの部分が長辺で遮断されて256x256の画像が得られます。
  5. 各画像のRGBチャネルは白くなり、各RGBのピクセル値はゼロ平均処理に変換されて、露出過度または露出不足の画像の影響を回避します。
  • ニューラルネットワークアーキテクチャ
  1. ReLU非線形活性化関数

1)従来の飽和活性化関数(tanh、sigmoid関数など)のトレーニング時間が長すぎる、実験によると、ReLUの使用はトレーニングプロセスを大幅に圧縮する可能性があります

2)この論文は、不飽和活性化関数の使用を検討する最初の方法ではありません。たとえば、ジャレットは非飽和活性化関数f(x)= | tanh(x)|を提案しましたが、2つの活性化関数の焦点は異なります。 Jarrettこれは主に過剰適合を回避することであり、ReLUは主に高速化して大規模ニューラルネットワークのトレーニング時間を短縮することです。

2.マルチカード並列トレーニング

1)作成者は、並列コンピューティングに2つのGTX-580 GPUを使用し、2つのGPUが特定のレイヤーでのみ相互作用できるようにします。例:3番目の畳み込み層の各フィルターは2番目の畳み込み層のすべての特徴マップを使用します。また、畳み込み層の4番目の層では、同じGPU上の畳み込み層の3番目の層の特徴マップのみが使用されます。

2)マルチカード並列トレーニングを使用すると、相互検証がより困難になりますが、相互作用の量を調整して、許容可能な実行時間内にトレーニングを完了することができます。

3)小規模ネットワークのシングルカードトレーニングと比較して、大規模ネットワークのDokaトレーニングでは、Top1とTop5のエラー率を1.7%と1.2%削減できます。

3.ローカル応答の正規化(ローカル応答の正規化)

1)局所反応の動機:神経生物学には、側方抑制と呼ばれる概念があります。これは、活性化されたニューロンが隣接するニューロンの発現を抑制することを意味します。

式は複雑に見えますが、実際には非常に簡単に説明できます。現在の位置に隣接し、同じ位置にある値を正規化することです。アイデアは、いくつかの近くのニューロンを取り出して、それらを正規化することです。次に、異なるニューロンの相対的なサイズの差が大きくなり(ソフトマックス関数にいくらか似ています)、「サイド抑制」の効果を実現します。

2)AlexNetでは、第1畳み込み層と第2畳み込み層でのみ使用されます。具体的には、ReLU活性化関数の後に使用されます。

3)後の段階で継続的なテストを行った後、研究者(VGGネットワ​​ーク)は、このLRNが実際には他のネットワークではうまく機能しないことを発見しました。 LRNは、CNNに含める必要のあるレイヤーではありません。一部のネットワークでさえ、LRNを追加した後の影響が減少しているため、LRNは少なくなっています。

4)畳み込みカーネル行列の順序はランダムで任意であり、順序はトレーニングの前に決定されています。このLPNは、水平方向の抑制メカニズムを形成します。

4.オーバーラッププーリング方式

1)従来のプーリングレイヤー方式は重複していません。グリッドに似ています。各フィーチャレイヤーはz * zサイズのネットワークに分割され、ネットワーク内の要素が処理されます。

2)この記事では、最初にオーバーラッププーリング方式を使用して、Top1とTop5のエラー率をそれぞれ0.4%と0.3%削減します。

3)従来の重複しないプーリングと比較して、重複するプーリング方法を使用すると、過剰適合しにくくなります。

5.完全なネットワーク構造

上の写真はから引用されています https://zhuanlan.zhihu.com/p/47391705 、同時に、ネットワーク構造の特定の説明もあります。これは繰り返されません。

  • 過剰適合を減らす
  1. データの強化(ラベルを変更しないでくださいデータセットを手動で拡大する)。

1)最初の1データ拡張方法には、画像変換と水平反転の生成が含まれます。から256×256ランダム抽出224×224次に、画像ブロックは、これらの抽出された画像ブロックでトレーニングされます。このようにして、トレーニングセットが拡大されます2048タイムズ(2 *(256-224)*(256-224))、最終的なトレーニングサンプルには高い相関関係がありますが。そしてテスト段階で写真ごとに上、下、左、右を選択します4取得するコーナー位置と中間位置5ピクチャーこれにまた5画像が水平方向に反転しました取得するだけ10張テストセット。

2)セクションデータの強化トレーニングイメージを変更するRGBチャネル強度論文は、各ピクセルの共分散行列を取得します(3 * 3)、固有値と固有ベクトルを取得するために、固有値の一部が変動し、新しい共分散行列が計算されます。これは、元のピクセルに追加されてフィルター効果を実現します。この方法では、多数の新しいサンプルを生成することもできます。この論文は、この操作が自然画像の重要な情報を取得でき、明るさと照明の不変性があり、1%認識率。

2.ドロップアウト

1)ニューラルネットワークの統合は非常にコストのかかる操作です。ドロップアウト方式も統合と見なすことができますが、トレーニング中のコストは約2倍です。

2)0.5になります各隠れ層ニューロンの出力の確率は次のように設定されます。0、これら「」不活化「」のニューロンは、順方向伝搬を繰り越さなくなり、逆方向伝搬に参加しなくなります。

3)ニューロンは特定の他のニューロンの存在に依存できないため、ドロップアウトはニューロンの適応の複雑さを軽減します。したがって、ニューロンはより堅牢な機能を学習することを余儀なくされます。これは、他のニューロンの多くの異なるランダムサブセットと組み合わせると便利です。

4)テストでは、すべてのニューロンが使用されますが、それらの出力は0.5倍され、多くの指数関数的に非アクティブなネットワークの予測分布の幾何平均が取られます。これは妥当な近似です。

後で省略...