スケーラブルな画像認識のための転送可能なアーキテクチャの学習



Learning Transferable Architectures



スケーラブルな画像認識のための転送可能なアーキテクチャの学習

ネットワーク構造の設計



要約:このアプローチはデータセットが大きい場合にコストがかかるため、アモールデータセットでアーキテクチャビルディングブロックを検索してから、ブロックをより大きなデータセットに再転送することを提案します。この作業の主な貢献は、転送可能性を可能にする新しい検索スペース(「NASNet検索スペース」と呼ばれる)の設計です。

NASNetモデルの一般化を大幅に改善するScheduledDroppath。



1.はじめに

このホワイトペーパーでは、畳み込みアーキテクチャを設計するための新しいパラダイムを検討し、対象のデータセットで畳み込みアーキテクチャを最適化するための拡張可能な方法について説明します。

アーキテクチャの複雑さがネットワークの深さや入力画像のサイズに依存しないように検索スペースを設計することで、この転送可能性を実現します。



もっと早く

畳み込みセルの数と畳み込みセル内のフィルターの数を変えるだけで、さまざまな計算要求を持つさまざまなバージョンのNASNetを作成できます。

2.関連作業

ハイパーアラメータの最適化

私たちの検索スペースの設計は、LSTMとニューラルアーキテクチャ検索セルから多くのインスピレーションを得ました。畳み込みセルのモジュラー構造は、VGG、InceptionなどのImageNetの以前の方法にも関連しています。

3.方法

NASメソッドの簡単な要約は、RNNを介して異なる構造のサブネットワークをサンプリングし、検証セットへの影響に基づいてRNNにフィードバックするようにこれらのサブネットワークをトレーニングすることです。 NASの問題は、直接実行するには遅すぎることです。ImageNetのような大規模なデータセットで使用することは現実的ではありません。したがって、著者は、合理的なデザイン検索スペースを通じて合理的なデザインを学習できることを望んでいます。つまり、小さなデータセットで学習したネットワーク構造を大きなデータセットに移行できます。

この作業の主な貢献は、CIFAR-10データセットで見つかった最高のアーキテクチャを、一連の計算設定でより大きく、より高解像度の画像データセットに拡張できる新しい検索スペースを設計することです。この検索スペースをNASNet検索スペースと名付けたのは、実験で見つけた最高のアーキテクチャであるNASNetを生成したためです。 NASNet検索スペースの意味の1つは、CNNのアーキテクチャエンジニアリングが、畳み込みフィルターバンク、非線形および目立たない接続の選択の組み合わせで構成される反復パターンを認識して、 InceptionモデルとResNetモデル。これらの観察結果は、コントローラーRNNがこれらのモチーフによって表されるユニバーサルコンボリューションセルを予測する可能性があることを示しています。次に、セルを直列に積み重ねて、任意の空間次元とフィルタリング深度の入力を処理できます。

同じ構造でパラメータが異なる繰り返し畳み込み構造で構成されます。任意のサイズの画像に対してスケーラブルなアーキテクチャを簡単に構築するには、特徴マップを入力として取り込むときに2つの主要な機能を提供する2種類の畳み込みセルが必要です(1)同じ次元の特徴マップを返す畳み込みセルと(2)特徴マップの高さと幅が2分の1に減少した特徴マップを返す畳み込みセル。これらの2つの構造は、ノーマルセルとリダクションセルと呼ばれます。リダクションセルでは、高さと幅を下げるために、ステップサイズ2のセルの入力に初期化操作を適用しました。すべての操作には、畳み込みセルの構築を検討するためのステップサイズを設定するオプションがあります。

図2は、CIFAR-10とImageNet用に配置した通常のユニットと縮小されたユニットを示しています。 ImageNetの考慮事項に関しては、入力イメージサイズが299x299でCIFARが32x32であるため、復元ユニットが増えています。リデュースセルとノーマルセルは同じアーキテクチャを持つことができますが、経験から、2つの別々のアーキテクチャを学ぶことが有益であることがわかりました。空間アクティベーションサイズが減少するたびに、一般的なヒューリスティックを使用して出力内のフィルターの数を2倍にし、実質的に一定の非表示状態の次元を維持します。重要なのは、InceptionモデルやResNetモデルと同様に、被験者の繰り返し数Nと初期畳み込みフィルターの数を、画像分類問題のサイズに基づいてカスタマイズする自由パラメーターと見なすことです。

最後に、私たちの作業ではNAS [71]の強化学習の推奨事項を使用していますが、ランダム検索を使用してNASNet検索スペースのアーキテクチャを検索することもできます。ランダム検索では、コントローラーRNNのsoftmax分類器から決定をサンプリングするのではなく、一様分布から決定をサンプリングできます。私たちの実験では、ランダム検索はCIFAR-10データセットの強化学習よりもわずかに悪いことがわかりました。強化学習の使用は価値がありますが、ギャップは[71]元の作業のギャップよりも小さくなっています。結果は、1)NASNet検索スペースが適切に構築されているため、ランダム検索をかなり適切に実行できること、および2)ランダム検索がベースラインを上回ることが難しいことを示しています。セクション4.4では、強化学習とランダム検索を比較します。

問題の鍵は、合理的な探索空間をどのように設計するかです。 1つの洞察は、多くの成功したCNNネットワークにはいくつかの反復構造が含まれているため、RNNにいくつかの小さな畳み込みセルの構造を予測させ、そのような構造を繰り返し積み重ねて深いネットワークを構築できるでしょうか。全体的な構造を決定した後、特定の正常セルと還元セルが予測されます。

このアーキテクチャは通常、ResNetやDenseNetなどの最先端のネットワークアーキテクチャと同じスタイルを示しますが、内部モジュールの組み合わせと構成は異なります。アーキテクチャの品質は、多くの場合、選択したモジュールとその間に構築されたモジュールに依存します。接続。

次のステップは、ネットワークをトレーニングし、彼を収束させ、検証セットを離れる精度を取得することです。次に、この正解率を使用して、ポリシー勾配を介してコントローラーを更新し、コントローラーがますます高くなるアーキテクチャレベルを生成できるようにします。

アルゴリズムでいくつかのブロックを選択し、それらを組み立ててニューラルネットワークを作成します。この結果に基づいて、ビルディングブロックの標準と組み立てのトレーニング、テスト、調整を行います。

仮説:ニューラルネットワークが、同様に構造化された小さなデータセットでより良い結果を達成できる場合、より大きくより複雑なデータセットでより良いパフォーマンスを発揮できます。

ディープラーニングの分野では、この仮定は基本的に確立されています。

基本的なアーキテクチャを前提として、NASNetは主に、基盤となるアーキテクチャの基本コンポーネントとそれらの接続方法を再定義します。

建築検索の開発:

効率的なニューラルアーキテクチャ検索:ENAS

ディープラーニングの新しいメソッドAutoML

オートハード