LSTMネットワークを理解する(colahによるLSTMネットワークを理解する)



Understanding Lstm Networks



@:huangyongye

元のリンク: LSTMネットワークを理解する



序文 :実際、私は以前にLSTMを使用しました。ディープラーニングフレームワークのケラで直接使用されていますが、LSTMの詳細なネットワーク構造はまだわかりません。気になります!今日、私はtensorflowドキュメントで推奨されているこのブログ投稿を読みました。これを読んで、LSTMの構造理解には基本的に問題がないことに気づきました。このブログ投稿は本当に良いです! ! !みんなに理解してもらうために、忘れてしまった言葉をすぐに思い出せるのではないかと思いますので、原文の翻訳を書きたいと思います。まず、レベルが限られているため、翻訳が不十分だったり、誤解があったりした場合は、指摘したいと思います。また、この翻訳は元のテキストに対応しておらず、理解を容易にするためにいくつかの調整や修正が行われる場合があります。 )。

元のテキストのこのセクションでは、LSTMのいくつかのバリアントとこれらのバリアントの効果を紹介します。ここには書きません。興味があれば、原文を直接読むことができます。



以下は主に、より有名なバリアントGRU(ゲート付き回帰ユニット)について説明しています。 Cho、etal。 (2014) 提唱する。 GRUには、図13に示すように、リセットゲートと更新ゲートの2つのゲートしかありません。同時に、この構造では、セル状態と非表示状態が組み合わされます。最終的なモデルは標準のLSTM構造よりも単純であり、この構造は後に普及しました。

図13。 GRU構造

その中で、 r t



Rtはドアをリセットすることを意味します。 t Ztはゲートを更新することを意味します。 **ドアをリセットして、前の状態を忘れるかどうかを判断します。 いつ r t rtが0に近づく前の瞬間のステータス情報 h t -1 Ht-1は忘れられ、隠された状態になります h t

Ht〜は現在入力されている情報にリセットされます。 ゲートを更新して、非表示の状態を新しい状態に更新するかどうかを決定します $ tilde {h_t} $ (この効果は、LSTMのForgotten GateとIncoming Gateの組み合わせと同等です)。

LSTMと比較してください:

  • (1)GRUのゲートとセルのステータスが1つ少なくなります C t
  • Ct。
  • (2)LSTMでは、忘却ゲートと着信ゲートの制御情報が保持され、GRUに渡されて、ゲートをリセットすることによって元の非表示状態情報を保持するかどうかを制御しますが、着信情報を制限しなくなりました。
  • (3)LSTMでは、新しいセル状態$ C_t $が取得されますが、直接出力することはできませんが、フィルターを介して処理する必要があります。 h t = または tt n h (( C t )。
  • Ht = ot ∗ tanh(Ct)同様に、GRUでは、(2)で新しい非表示状態$ tilde {h_t} $も取得しましたが、直接出力することはできませんが、ゲートを更新します。最終出力を制御するには: h t =(1− t )∗ h t -1+ th t
    • ht =(1 − zt)∗ ht − 1 + zt ∗ ht〜。

    追記: さて、ここでLSTMの一般的な形式の構造が完成しました。 LSTMのさまざまなバリエーションの説明は比較的簡単です。ここには書きません。興味があれば、原文を直接読むことができます。上記では、元の論文を組み合わせて、GRUをより詳細に紹介しました。個人的なレベルは限られており、必然的に失敗します。実際、英語の理解力に問題がなければ、原文を読んだほうがいいです。翻訳されているものもあり、表現方法すらわかりません。何かおかしいと感じたら教えてください。翻訳後、インターネット上にはすでに多くの翻訳版があることがわかったので、主に参考のために、それらのバージョンを参考にして調整を行いました。 [翻訳] LSTMネットワークを理解する この記事。後で時間があれば、TensorFlowを使用してLSTMを実装する例を作成する必要がありますので、しばらくお待ちください。