ディープフィードフォワードニューラルネットワークのトレーニングの難しさを理解する



Understanding Difficulty Training Deep Feedforward Neural Networks



ディープフィードフォワードニューラルネットワークのトレーニングの難しさを理解する

参照:
http://blog.csdn.net/shuzfan/article/details/51338178
http://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS2010_GlorotB10.pdf



概要
2006年以前は、深い多層ニューラルネットワークは正常にトレーニングされていなかったようですが、それ以降、いくつかのアルゴリズムが正常にトレーニングされることが示され、実験結果は、より深いアーキテクチャとより深いアーキテクチャの優位性を示しています。これらの実験結果はすべて、新しい初期化またはトレーニングメカニズムで得られました。ここでの私たちの目的は、ランダム初期化からの標準勾配降下法がディープニューラルネットワークでうまく機能しない理由をよりよく理解し、これらの最近の相対的な成功をよりよく理解し、将来のより良いアルゴリズムの設計を支援することです。最初に、非線形活性化関数の影響を観察します。ロジスティックシグモイド活性化は、その平均値のためにランダムな初期化を伴う深いネットワークには適していないことがわかります。これは、特に最上位の隠れ層を飽和状態にする可能性があります。驚いたことに、飽和したユニットは、ゆっくりではありますが、それ自体で飽和状態から抜け出すことができ、ニューラルネットワークのトレーニング時に時々見られるプラトーを説明していることがわかりました。飽和度が低い新しい非線形性がしばしば有益であることがわかります。最後に、各層に関連付けられたヤコビアンの特異値が1から離れている場合、トレーニングがより困難になる可能性があるという考えで、アクティベーションと勾配がレイヤー間およびトレーニング中にどのように変化するかを研究します。これらの考慮事項に基づいて、大幅に高速な収束をもたらす新しい初期化スキーム。
ただし、2006年以前は、いくつかのアルゴリズムが正常にトレーニングされていたため、深層多層ニューラルネットワークは正常にトレーニングされていないようでした。実験結果は、構造の優位性を示しています。これらの実験結果はすべて、新しい初期化またはトレーニングメカニズムを通じて取得されます。私たちの目標は、ランダム初期化を使用した標準勾配降下法がディープニューラルネットワークでうまく機能しない理由をよりよく理解し、これらの最近の相対的な成功をよりよく理解し、将来より良いアルゴリズムを設計するのに役立つことです。まず、非線形活性化関数の影響を観察します。ロジスティックシグモイドアクティベーションは、ランダムな初期化を伴うディープネットワークには適していないことがわかりました。これは、その平均値、特に最上位の隠れ層が飽和状態になる可能性があるためです。驚いたことに、飽和ユニットは低速ではありますが、それ自体で不飽和になる可能性があることを発見し、ニューラルネットワークのトレーニング時に時々発生するプラトー現象を説明します。飽和度の低い新しいタイプの非線形性がしばしば有益であることがわかりました。最後に、さまざまなレイヤーおよびトレーニング中のアクティベーションと勾配がどのように変化するかを調べました。各層に関連付けられたヤコビ行列の特異値が1よりはるかに小さい場合、トレーニングはより困難になる可能性があると考えています。これらの考察に基づいて、収束速度を大幅に加速する新しい初期化スキームを提案します。

it appears since thenSince then, ever since experimental results gradient descent in the future: future, future because ofBecause of mean valueAverage average [value] hidden layer move out ofMove out by themselves rely on themselves

1ディープニューラルネットワーク
深層学習手法は、下位レベルの特徴の構成によって形成された階層の上位レベルからの特徴を使用して、特徴階層を学習することを目的としています。それらには、多くの隠れ層を持つニューラルネットワーク(Vin?cent et al。、2008)や多くのレベルの隠れ変数を持つグラフィカルモデル(Hinton et al。、2006)など、さまざまな深いアーキテクチャの学習方法が含まれます(Hinton et al。、2006)。 Zhu et al。、2009 Weston et al。、2008)。彼らの理論的魅力、生物学と人間の認知からのインスピレーション、そして視覚における経験的成功のために、最近多くの注目が彼らに向けられています(レビューについては(Bengio、2009)を参照)(Ranzato et al。、 2007 Larochelle et al。、2007 Vincent et al。、2008)および自然言語処理(NLP)(Collobert&Weston、2008 Mnih&Hinton、2009)。 Ben?gio(2009)によってレビューおよび議論された理論的結果は、高レベルの抽象化(たとえば、視覚、言語、およびその他のAIレベルのタスク)を表すことができる複雑な関数の種類を学習するために、深いアーキテクチャが必要



1.ディープニューラルネットワーク
深層学習法の目的は、特徴の階層構造を学習することであり、その特徴は、低レベルの特徴で構成される階層構造の高レベルの特徴です。それらには、多くの隠れ層ニューラルネットワーク(Vin cent et al。、2008)や隠れ変数のマルチレベルグラフィカルパターン(Hinton et al。、2006)など、学習方法の一連の深い構造が含まれています。 。、2009 Weston et al。、2008)。彼らは、理論的な魅力、生物学と人間の認知からのインスピレーション、そして視覚体験の成功のために多くの注目を集めました((bengio、2009)コメントを参照)(Ranzato et al。、2007 LaRochelle et al。、2007 Vincent et al。 al。、2008)およびNatural Language Processing(NLP)(Collobert&Weston、2008 Mnih&Hinton、2009)。理論的研究結果はBengio(2009)によってレビューされ、議論されました。これは、高レベルの抽象クラス(視覚、言語、その他の人工知能タスクなど)を表すことができる複雑な関数を学習するために、深い構造が必要になる可能性があることを示しました。

aim atAim at aim aim at plan higher levels lower lower level et al and others, and others among among others, among others devoted toLoyal to Bengio (Bengio) name Bengio because ofBecause of human cognition success inThe success of

深いアーキテクチャを使用した最近の実験結果のほとんどは、深い教師ありニューラルネットワークに変換できるモデルで取得されますが、初期化またはトレーニングスキームは、従来のフィードフォワードニューラルネットワークとは異なります(Rumelhart et al。、1986)。これらの新しいアルゴリズムが、教師ありトレーニング基準の標準のランダム初期化および勾配ベースの最適化よりもはるかに優れているのはなぜですか?答えの一部は、教師なし事前トレーニングの効果の最近の分析(Erhan et al。、2009)にあり、「より良い」魅力の盆地のパラメーターを初期化するレギュレーターとして機能することを示しています。より良い一般化に関連する見かけの極小値に対応する最適化手順。しかし、以前の研究(Bengio et al。、2007)は、純粋に監視されているが貪欲な層ごとの手順でさえ、より良い結果をもたらすことを示していました。したがって、ここでは、教師なし事前トレーニングまたは半教師あり基準が深いアーキテクチャにもたらすものに焦点を当てるのではなく、古き良き(しかし深い)多層ニューラルネットワークで何がうまくいかないかを分析することに焦点を当てます。

最も深い建物の最新の実験結果とモデルは、深く教師ありニューラルネットワークに変換できますが、初期化またはトレーニング計画は、従来のフィードフォワードニューラルネットワークとは異なります(Rumelhart et al。、1986)。これらの新しいアルゴリズムが、標準のランダム初期化および勾配ベースの教師ありトレーニング基準最適化アルゴリズムよりもはるかに優れているのはなぜですか?答えの一部は、教師なしトレーニングの影響に関する最近の分析(およびet al。、2009)にあり、「より良い」流域最適化プロセスを初期化するための正則化パラメーターとしての魅力を示しています。正則化相関。しかし、初期の研究(Bengio et al。、2007)は、純粋な監督でさえも示しましたが、欲張り層の賢明なアプローチはより良い結果を得るでしょう。したがって、ここでは、教師なし事前トレーニングまたは半教師あり標準がディープアーキテクチャに与える影響に焦点を当てるのではなく、古い(ディープ)多層ニューラルネットワークで何がうまくいかないかを分析することに焦点を当てます。



experimental results be turned over different fromDifferent from better than supervised training basin of attraction basin optimization procedureoptimization process corresponding toEquivalent to, consistent with local minimumLocal minima associated withAssociated files

私たちの分析は、レイヤー間およびトレーニングの反復全体で、モニターのアクティブ化(隠れたユニットの飽和を監視)と勾配に対する調査実験によって推進されています。また、アクティブ化関数の選択のこれらへの影響を評価します(飽和に影響を与える可能性があります)および初期化手順(教師なし事前トレーニングは特定の形式の初期化であり、大幅な影響があるため)
私たちの分析は、調査実験を通じて活性化を監視する(隠れたユニットの飽和を監視する)ことです。そして、勾配、クロスレイヤー、クロストレーニングの反復。
また、これらの活性化関数の選択の影響(飽和に影響を与える可能性があるという考え)と初期化手順(教師なしトレーニングは特殊な形式であるため、初期の強い影響があります)を評価します。

investigative research investigative nature love investigative research saturation saturation degree Saturated state gradients the slope of the road (the noun plural of gradient) the degree of change the rate of change iterations evaluate seek the value of to evaluate seek the value of evaluate activation functionActivation function initializationSet initial value, initialize unsupervisedUnsupervised particular formSpecial way drasticintense Extreme violent severe