論文の解釈:リカレントニューラルネットワークの正則化



Interpretation Paper



論文アドレス:https://arxiv.org/pdf/1409.2329.pdf

1.RNNの概要
RNN(リカレントニューラルネットワーク)は、シーケンスデータを処理するためのニューラルネットワークの一種です。ニューラルネットワークには、入力層、隠れ層、および出力層が含まれます。出力は活性化関数によって制御され、レイヤーはウェイトによって接続されます。次の図は、標準のRNN構造図です。図の各矢印は変換を表しています。つまり、矢印の接続には重みがあります。左側が折りたたまれ、右側が拡張され、左側のhの横にある矢印は、隠れ層に反映されたこの構造の「ループ」を表しています。この図では、Oは出力を表し、yはサンプルによって与えられた決定値を表し、Lは損失関数を表します。



画像
この定義を行うことができます:
X(t):時間tでの入力を表し、o(t):時間tでの出力を表し、h(t):時間tでのメモリを表します。
ニューラルネットワークが最も得意とするのは、一連のパラメーターを介して多くのコンテンツを統合し、このパラメーターを学習することです。RNNはこの点で類似しているため、RNNの基礎は次のように定義されます。
St = f(U ∗ X(t)+ W ∗ h(t)-1)
RNNのアイデアは、予測するときに現在の瞬間のメモリh(t)を使用して予測を行うことです。次の単語の出現確率を予測したい場合は、softmaxを使用して各単語の確率を予測できますが、マトリックスを使用して予測を直接予測することはできません。すべての予測では、次の式で表される重み行列Vを取得する必要もあります。
o(t)= softmax(Vh(t))

2.LSTMネットワーク
長短期記憶ネットワーク(以下、LSTMと呼びます)は、長依存性の問題を解決するためにHochreiter&Schmidhuber(1997)によって設計された特別な種類のRNNネットワークです。
すべてのリカレントニューラルネットワークは、ニューラルネットワークの繰り返しモジュールチェーンの形式を持っています。標準のRNNでは、この繰り返しモジュールは、単一のtanh層などの非常に単純な構造になります。標準のRNNネットワークを以下に示します。
画像
LSTMにもこのチェーン構造がありますが、その繰り返し単位は標準のRNNネットワークの単位とは異なります。ネットワーク層は1つだけで、内部には4つのネットワーク層があります。 LSTMの構造を以下に示します。
画像
図の黄色はCNNの活性化関数操作に似ており、ピンクの円はポイント操作を示し、単一の矢印はデータフローの方向を示し、矢印マージはベクトルマージ操作(連結)を示し、矢印フォークはベクトルコピー操作。



3.論文の解釈
要約:この論文では、長短期記憶(LSTM)ユニットを備えたリカレントニューラルネットワーク(RNN)の単純な正則化手法を提案します。ドロップアウトはニューラルネットワークを正規化するための最も成功した手法ですが、RNNとLSTMではうまく機能しません。著者は、DropoutをLSTMに適用することに成功し、さまざまなタスクでの過剰適合を大幅に削減することを実験的に証明しました。
1.はじめに(RNNの詳細については上記を参照)
リカレントニューラルネットワーク(RNN)は、言語モデル、音声再構成、機械翻訳などの問題を解決するために使用される連続ニューラルネットワークです。残念ながら、ドロップアウトはRNNでうまく機能せず、比較的大規模なRNNネットワークでは、過剰適合が頻繁に発生します。この論文は、この過剰適合問題を解決するためにドロップアウトを使用するための良いトリックを提案しています。
RNNでのドロップアウトのパフォーマンスの低下は、ループ内のノイズの増加が原因であり、学習効果に悪影響を及ぼします。この論文で提案されている方法は、RNNの一部のサブセット接続でドロップアウトを使用することでこの問題を解決できます。
2.関連作業
著者は、近年のいくつかの成果を挙げています
3.LSTMユニットでRNNを正規化する
3.1、LSMTユニット
RNNの式は次のとおりです。 RNNは、前の状態と現在の状態の間の遷移を動的に記述します。
画像
従来のRNNネットワークでは、方程式は次のように表すことができます。
画像
LSTMの導入により、RNNは特定のステップ数の情報を記憶できるようになり、上記のプロセスが複雑になります。CtL∈Rnはベクトルに格納されます。LSTMの構造は次の式で表すことができます。

画像
次の図は、LSTMの構造を示しています。
画像
:、tl。
3.2。ドロップアウトによる正則化
この記事の最大の進歩は、循環接続のない構造でドロップアウトを使用することです。サイクリック接続の構造では、ドロップアウトは適用されません。式は次のように変更されます。データフローと操作は右のとおりです。点線はドロップアウトが使用されていることを示し、実線はドロップアウトが使用されていないことを示します。
画像
このホワイトペーパーで採用されている方法により、RNN間の情報転送とデータ計算がより堅牢になり、データ間の相関と整合性も確保されます。下の図は、ステップt-2からステップt +2までの情報の流れを示しています。実線は情報データの流れを示しています。
画像
4.実験
この記事の結果は、言語モデリング、音声認識、機械翻訳、画像キャプションの生成の3つの領域になります。
4.1、言語モデリング
ペンシルバニアツリーバンク(PTB)データセットMarcus etal。に基づいて単語レベルの予測実験が行われました。以前の結果をLSTMと比較すると、結果は次のとおりです。
画像
4.2、音声認識
音響モデリングは、音響信号を単語シーケンスにマッピングする重要なコンポーネントです。t| X)モデリング用、ここでstは時間tでの音声状態であり、Xは音響観測です。調査結果は、ドロップアウトがLSTMのフレーム精度を向上させることを示しています。結果は次のとおりです。
画像
4.3、機械翻訳
機械翻訳の問題を言語モデリングタスクとして説明します。LSTMは、ソースセンテンスの正しい翻訳に高い確率を割り当てるようにトレーニングされています。調査結果は、DropoutがLSTMの翻訳パフォーマンスを改善することを示しています。結果は次のとおりです。
画像
4.4、画像字幕
ドロップアウトバリアントをVinyalsらの画像キャプション生成モデルに適用します。結果は以下の表にまとめられています。ドロップアウトを使用しない場合と比較して、ドロップアウトは役立ちますが、統合を使用すると、ドロップアウトが得るゲインがなくなります。結果は次のとおりです。

画像
5。結論
ドロップアウトをLSTMに適用する簡単な方法を示します。これにより、さまざまな分野のいくつかの問題のパフォーマンスが大幅に向上しました。このホワイトペーパーで提案する方法により、DropoutはRNNに役立ちます。実験結果は、ドロップアウトの実装がさまざまなアプリケーションのパフォーマンスを向上させることができることを示しています。



参照:
https://blog.csdn.net/qq_39422642/article/details/78676567
https://blog.csdn.net/qq_32172681/article/details/100060263
https://www.jianshu.com/p/95d5c461924c