「リカレントネットワークの視覚化と理解」紙の読書ノート



Visualizing Understanding Recurrent Networkspaper Reading Notes



私はオリジナルであり、示されたソースで再版されています。

1論文の主な内容

リカレントニューラルネットワーク(RNN)、特に長短期記憶(LSTM)を備えたバリアントは、シーケンスデータを含む幅広い機械学習問題への適用に成功したため、関心を取り戻しました。 LSTMは実際には非常に良い結果を示していますが、そのパフォーマンスの原因と制限についてはまだほとんどわかっていません。 LSTMの理解を深めるために、この論文の著者は、文字レベルの言語モデルを解釈可能なテストベッドとして使用して、LSTMの表現、予測、およびエラータイプを分析しました。この記事では、分析を通じて、行の長さ、引用符、括弧など、長期的な依存関係を追跡できる解釈可能な単位の存在を明らかにします。さらに、n-gramモデルとの包括的な比較を通じて、このペーパーではLSTM予測をさらに定量化し、長距離推論を必要とする文字に対してLSTMのパフォーマンスが大幅に向上することを発見しました。最後に、この記事では残りのエラーを分析し、さらなる調査の方向性を提案します。



2値の座標

これまで、一部の分析では、LSTMの効果を評価するために、最終テストセットのグローバルな混乱に依存していました。実際のデータでは分析されておらず、直感的ではありません。このホワイトペーパーで提案するLSTM分析方法は、これらの問題を克服し、LSTMパフォーマンスの向上の原因と制限についての理解を深めます。

基本的なLSTMアーキテクチャを変更または拡張するために多くの作業が行われていますが、これまでの研究では、LSTMの表現と予測を理解することにほとんど注意が払われていませんでした。このホワイトペーパーの作業は、LSTMの予測と実際のデータの学習表現の最初の経験的調査を提供します。 LSTMの視覚化と詳細な理解を通じて、研究者はより詳細な調査を実施し、LSTMモデルを継続的に最適化できます。



3ナレッジマップ

(1)当時のLSTMあなたの理解はどうですか?制限は何ですか?

(二)意志RNNLSTMGRU実験のために3つのモデルを比較します。どのモデルが優れていますか?

(3)LSTMパフォーマンスは実際には非常によく改善されています。改善の理由は?



(4)この記事LSTM内部メカニズムは何ですか?

(5)LSTMn-NNモデル、n-gramモデルと比較して、リモートインタラクションの能力の違いは何ですか?

(6)正しいLSTMエラー分析を実施し、LSTMエラーの種類は何ですか?

(7)減らす方法LSTMエラー、特定のタイプのエラーに対するパフォーマンスを向上させますか?

4構造

  1. CNN 現在、広く使用されていますが、その応用分野は何ですか?

CNNは、言語モデリング、手書き認識、テキスト生成、機械翻訳、音声認識、ビデオ分析、画像記述など、シーケンスデータに関連する問題でよく使用されます。

二。 前の研究では、データの制限は何ですか?この記事の実験にはどのような改善が加えられましたか?

過去には、いくつかの分析は、最終テストセットの世界的な混乱によって評価されていましたLSTM効果は実際のデータでは分析されておらず、直感的でもありません。したがって、この論文の実験で使用されたデータセットは実際のデータ、すなわち「戦争と平和」と「Linuxそれぞれカーネルのコード3,258,246ワードサム6,206,996語。

3.3。 RNN、LSTM、GRUの3つのモデルを簡単に紹介しますか?

RNN:標準RNNの繰り返しモジュールには、単一のレイヤーであるtanhレイヤーが含まれています。 RNNの再帰形式は次のとおりです。

その中で、各層のパラメータマトリックス これは各層のパラメータ行列であり、次元は[n×2n]です。

LSTM:一方ではLSTMは、勾配消失問題を軽減するように設計されています。隠された状態ベクトルに加えて さらに、LSTMはメモリベクトルも維持します 。各タイムステップで、LSTMは明示的なゲーティングメカニズムを使用して、セルの読み取り、書き込み、またはリセットを選択できます。更新の正確な形式は次のとおりです。

[4n×2n]行列です。 3つのベクトルI、f、およびoは、各メモリセルを更新するか、ゼロにリセットするか、およびそのローカル状態を非表示のベクトルに表示するかどうかを制御するバイナリゲートと見なされます。ベクトルgは、保存されたコンテンツをさらに変更するために、-1から1の間に配置されます。

GRU:2015年に、LSTMのより簡単な代替手段として次の形式で提案されました。

その中で、 寸法はい[2n×2n]、そして の次元は[n×n]。 GRU最初に候補の隠れたベクトルを計算することです 、次に、ベクトルzで補間して結果を取得します。

四。 まず、いくつかの種類のリカレントネットワークモデルから分析を実行し、CNN、LSTM、およびGRUを比較します。実験プロセスとは何ですか?

CNN、LSTM、GRUの層数をそれぞれ1、2、3に設定し、隠れ層のサイズをそれぞれ64、128、256、512に設定して、合計36の実験モデルを作成します。上記のモデルを使用して、2つのデータセットで言語モデルをトレーニングし、最後にテストセットでクロスエントロピー損失を計算し、3つのカテゴリの36のモデル間の結果を比較します。

5.5。 上記のCNN、LSTM、GRUの比較実験の結論は何ですか?

上の写真は、前の質問の実験のテストセットの結果です。この図から、パフォーマンスを向上させるためにモデルレイヤーに少なくとも2つあることがわかります。隠れ層のサイズに関する限り、実行可能な範囲内で、各モデルの隠れ層のサイズが大きいほど、クロスエントロピー損失が小さくなり、モデルのパフォーマンスが向上します。つまり、複数の隠れ層モデルは、単一の隠れ層モデルよりも優れています。さらに、図の各行の最適なパフォーマンスモデルには、LSTMとGRUの両方が含まれていますが、RNNはほとんど含まれていません。比較結果は、LSTMとGRUのパフォーマンスが区別できないことを示していますが、どちらもRNNよりも大幅に優れています。

6.6。 著者の分析によると、 LSTM 長距離情報を保存するための鍵となる設計の詳細はどれですか?

メモリーセル(メモリーセル)、ゲートメカニズム(ゲートメカニズム)、およびコンスタントエラートロイの木馬(コンスタントエラーカルーセル-CEC)。 LSTMには、入力ゲート、出力ゲート、忘却ゲートの3種類のゲートがあります。ドアは主にスイッチとして機能し、情報を選択的に渡すことができます。ゲートメカニズムの存在により、LSTMはシーケンス内の長距離依存関係を明示的にモデル化できます。 LSTMは、元のRNNユニットをCECと呼ばれるコンポーネントに変換します。このコンポーネントは、勾配の爆発や勾配の消失の問題なしに、エラーが一定の形でネットワークに流れることを保証します。 LSTMの基本単位はメモリ要素と呼ばれ、CECに基づいて拡張されます。 LSTMは原則として、メモリ要素を使用してリモート情報を記憶し、現在処理されているテキストのさまざまな属性を追跡できます。

7。 LSTMおよびGRUモデルのゲーティングメカニズムを理解するにはどうすればよいですか?(これは論文外の補足コンテンツです)

ゲートは、主にS状結腸神経層とポイントごとの乗算演算を介して情報を選択的に渡すことができます。 LSTMには、忘却ゲート、入力ゲート、出力ゲートの3種類のゲートがあります。忘却ゲートは、セル状態の情報を選択的に忘れることです。入力ゲートは、新しい情報をセル状態に選択的に記録することです。出力ゲートは、前の情報を隠れ層に保存します。リセットゲートとアップデートゲートの2つのゲートを持つ2つのGRUがあります。直感的に、リセットゲートは新しい入力情報を前のメモリと組み合わせる方法を決定し、更新ゲートは現在のタイムステップに保存された前のメモリの量を定義します。

8.LSTM スリーイン ' 沿って ' GRU 写真の2つの「ゲート」の浸透統計は何を示していますか?

上の図では、ドアのアクティブ化度が0.1未満または0.9より大きい場合、ドアは飽和状態のまままたは飽和状態のままです。
。忘れたしきい値が0.9を超えると、セルが大きくなり、以前の情報を常に記憶できることを示します。入力値が0.9を超えると、ニューロンの比率が大きくなり、現在の入力に対してより敏感であることを示します。出力ゲート値の比率が0.9を超えると、ニューロンが出力サイズを制御します。 LSTMの場合、最初の層の比率は0の近くに密に分布しており、それらのほとんどが0.1から0.9の間にあることを示しています。これは、不飽和の場合です。第2層と第3層の一部のセルには、0.9を超える忘れられたしきい値があり、それらはずっと前からの情報を記憶しています。 GRUの場合、更新ゲートはLSTMの入力ゲートと忘却ゲートに対応し、リセットゲートは前面の非表示状態に直接作用します。第1層の更新しきい値は一般に比較的大きく、リセットしきい値は一般に比較的小さいです。 GRUの最初の層が古い情報を使用することはめったになく、上位層に到達した後でも、現在の入力を使用する傾向があることを説明します。この2つを組み合わせると、多層LSTM / GRUで、上部のセルが分化し始め、新しい情報を受け取る傾向があるものと、古い情報を記憶する傾向があるものがあります。

9.9。 比較 LSTM n-gram 長距離情報を追跡する能力の違いは何ですか?分析例

LSTM長距離情報を追跡し、長距離依存をモデル化する機能は、はるかに優れていますn-gramモデル。


1.上の写真は
正しい文字に割り当てられた「linuxkernel」データセットと「warandpeace」データセットで計算された平均確率統計チャート。ここでは、10文字を選択して表示しています。左の図、つまり「Linuxカーネル」データセットでは、LSTMは、Cプログラムの構築に使用される特殊文字(スペースと角かっこを含む)で、20グラムモデルよりも大きな利点を示しています。 「戦争と平和」データセットには、興味深い長期依存現象があり、キャリッジリターン文字は約70文字ごとに表示されます。右の図から、LSTMはこの現象の処理に非常に優れていることがわかります。

2.上の図は、「Linuxカーネル」テキストデータセットで右中括弧(「}」)を推論する平均確率を示しています。上図のデータによると、 '{'と・ '}'の距離が20未満の場合、LSTMと20グラムモデルの性能差は大きくないことがわかります。その後、20グラムモデルのパフォーマンスはほとんど変わらず、LSTMのパフォーマンスは大幅に向上します。シーケンスの長さが60のときにシーケンスの長さがピークに達しますが、その後、パフォーマンスの増分は時間とともにゆっくりと減衰し、依存関係を追跡することが困難になります。

10.10。 n-NN モデルの比較、 LSTM トレーニングの反復中に、情報距離に対する感度はどのように変化しますか?

示されているように、この記事は3LSTMn-NNモデルの類似性が比較されます。左の図は反復プロセス中の平均です。KL発散線、右の図は反復プロセス中のテストセット損失線です。初期のトレーニング反復では、LSTMのパフォーマンスは1-NNモデルと同様であり、次に逸脱し、次に2-NN、3-NN、および4-NNモデルと同様でした。実験から、LSTMのパフォーマンスは長期依存の成長とともに強化されます。一般に、反復トレーニングの過程で、LSTMは最初に短距離の依存関係をモデル化し、次にこれに基づいて長距離の依存関係のモデリング能力を徐々に学習します。

11.LSTM テストデータセット「戦争と平和」のテキストの誤分類は何ですか?

1. n-gramエラー:1〜9次のn-gramモデルは正しい部分を予測できますが、LSTM予測は失敗します。

2.動的n-longメモリエラー:テキスト予測中に、文字の最初の出現が2回目に現れる可能性が非常に高くなります。しかし、LSTMはこのアルゴリズムを学習していないようです。

3まれな単語エラー:単語の頻度が5以下の単語によって引き起こされるエラー。エラーのこの部分は、データセットを拡張して事前トレーニングすることで軽減できます。

4単語モデリングエラー:スペース、改行、引用符などの単語区切り文字が検出された後、次の単語の最初の文字が正しく予測されません。前の動的長期記憶エラーとは異なり、これは前の単語に基づいて単語を選択するのと同じであり、前の単語はすでにどの単語を知っているのと同じですが、それを完了するには、2つの情報の量は完全に違います。

5.句読点の予測が間違っています。

6.最後に残ったエラーはブーストエラーと呼ばれます。

12.12。 LSTMのエラーを減らすための提案はありますか?

1.トレーニングデータセットを増やすか、教師なし事前トレーニングを使用して、レアワードに対するLSTMの効果を改善し、レアワードエラーを減らすことができます。

2.モデルサイズを大きくすると、n-gramエラーは大幅に減少しますが、他のタイプのエラーの明らかな改善はありません。これは、モデルサイズを増やすだけでは不十分であり、より適切に設計および更新する必要がある可能性があることを示しています。構造。

13.13。 この論文の結論は何ですか?

A:この記事では、文字レベルの言語モデルを解釈可能なテストプラットフォームとして使用して、リカレントニューラルネットワークの予測、動的表現のトレーニング、およびエラータイプを分析します。特に、この論文の定性的視覚化実験、細胞活性化統計、およびn-gramモデルとの比較は、これらのネットワークが実世界のデータの強力で解釈可能なリモート相互作用を学習したことを示しています。この論文のエラー分析は、クロスエントロピー損失をいくつかの解釈可能なカテゴリーに分解し、現在の制限のいくつかを説明し、さらなる研究領域を提案します。さらに、このペーパーでは、拡大されたモデルがn-gramカテゴリのエラーをほぼ排除していることを発見しました。これは、残りのエラーを解決するために、さらなるアーキテクチャの革新が必要になる可能性があることを示しています。