文をモデル化するための畳み込みニューラルネットワーク(DCNN)はメモを読む



Convolutional Neural Network



原紙 文をモデル化するための畳み込みニューラルネットワーク
インフォメーションペーパー ACL2014
論文を読む Hytn Chen
更新しました 2020-02-20

文プロファイルの開発のモデリング

分散文は次のことを表します。単語が表現され、ベクトルの次元が高いことが多いため、単語が高次元の空間に埋め込まれていると見なすことができます。これは、固定長の埋め込み文ベクトルとも呼ばれます。単語と埋め込まれたアイデアは一貫していますが、固定長のベクトルで単語を表すこともできます。

したがって、分散された意味論的アイデアがあります。中心的なアイデアは、意味論的単語は通常、周囲の単語に頻繁に現れることによって提供されます。次に、現在の単語を隣接する単語でどのように特徴付けますか? 共起行列 現在の単語コンテキストのトラバース、コンテキストウィンドウは通常5〜10であり、テキスト(以下、上記)情報に関する公平性が必要なため、通常は対称であるという考えが提案されました。



共起行列の前の概念については、 読書ノート

ベクトルの使用として共起行列に直接持ち込まれた場合、次のようないくつかの問題が発生します。



  • 語彙のサイズとの共起行列のサイズは急速に成長しています

  • 寸法も多くのメモリを必要とします

  • スパース行列が多すぎます(解決策:特異値分解、次元削減を実現するために有用な部分を抽出します)



  • モデルのロバスト性は弱く、一部の単語を考慮に入れることができず、時間のコンテキストで関連する単語の場合には発生しません。

回避策の特異値分解がありますが、行列の大部分では、直交特異値分解は上記の欠点について計算できませんが、新しい項に対してはロバストではありません。

したがって、共起行列のアイデアを主なソリューションとして使用することはできません。今回は、ニューラルネットワークに基づくword2vecソリューションが発生しますが、word2vecの概念については詳しく説明しません。

その単語はどのようにベクトル文にベクトル化されますか?

このようにして、最も影響力のある期間、つまり論文の畳み込みニューラルネットワークモデリングが生まれました。

ニューラルネットワークに基づく古典的な文モデル

たとえば、バッグワードモデル、時間遅延ネットワーク、リカレントニューラルネットワーク、リカレントニューラルネットワーク、

言葉の袋モデル トレーニングは特定の単語の影響のみを反映できます。単語と単語の間のリンクは反映されません。これは、単語と単語の間でペアワイズ直交を特徴付けるため、ワンホット表現であるためです。

その学者は提案しました 言葉の深さの袋モデル このようなモデルは、バッグオブワードモデルとは異なり、このフレーズを嫌わないことを認識するように十分にトレーニングできるということです。モデルの深さを深めるために最も重要な変更をもたらすのは、機能の組み合わせであり、その後の新しい機能です。結果の組み合わせの再分類はより良いでしょうが、あなたがエラーをキャッチした場合、憎しみの組み合わせに属していないことは説明されません、それは間違っています。

提案されたこの組み合わせの効果を捉えたい n-gramモデル 、Nワードウィンドウ、ステップバイステップのスライド、この特徴として、n個の連続するワードの複数のそのような組み合わせを取得する。これは有利であり、継続的な情報をキャプチャできますが、パラメータが大きすぎ、これらのウィンドウ間に関連付けがありません。

そして 時間遅延ニューラルネットワーク 畳み込みのアクティブ化後、1次元畳み込みニューラルネットワーク畳み込みカーネルウィンドウ2に相当し、分類された畳み込みの特性評価のためにすべての文の結果を追加することによって取得されます。

リカレントニューラルネットワーク 関連する概念については、を参照してください。 記事の前 モデル紹介セクション。GRUを使用して、LSTMの内容とリンクを説明します。

リカレントニューラルネットワーク 主に構文解析ツリー、つまり構文ツリーで、最初のNLPツールによってすべての単語構文ツリーを作成し、リカレントニューラルネットワークを介して段階的に情報を抽出し、最後にベクトル空間に情報を投影します。これは最も効果的です。以下の図の例

画像

論文の名前は、感情ツリーバンクEMNLP2013上の意味構成性の再帰的ディープモデルです。書記言語には不利な点がないため、規範的な構造を抽出することは困難です。

論文発表モデル

スケッチモデルは以下の通りです

画像

一番下のグリッド列は単語の数を表し、単語の線はベクトルの次元を表します。ここで、モデルの各部分について説明します。

接触幅畳み込み後k-maxpooling

まず、明確な基本概念、第2.2条では、畳み込みの概念のいくつかについて言及しました。1次元の畳み込み式は次のとおりです。
c j = m⊤sj− m + 1:j mathbf {c} _ {j} = mathbf {m} ^ { top} mathbf {s} _ {j-m + 1:j}
ここで、mはm次元の畳み込みカーネルであり、文のs sワードがあり、広い畳み込みの2つの1次元畳み込みがあります(拡張エッジ部分情報、パディングは、両側のパディング4ビットで隠されます。図面)狭い畳み込み(弱いエッジ部分)、以下に示す構造

画像

畳み込み全体の利点は、エッジ情報を弱めるのではなく、文全体に関する情報を統合できることです。畳み込みカーネルは大きな問題にはならず、もう一度検討される大きな単語の畳み込みカーネルです。

私たちのモデルは、セクション2.3で述べた最大遅延ネットワークの記事、一連の重みmによる入力シーケンスTDNNのネットワークの畳み込み、1990年の音声認識タスク、時間次元のシーケンスの畳み込みに基づいて実際に改善されています。各s j s_j単一の変数ではなく、次元dのベクトルなので、s∈Rd×s mathbf {s} in mathbb {R} ^ {d times s}。同じ、mは畳み込みカーネルですd×md times mの。 mとsのすべての行の各行は狭い畳み込みであり、次のレベルは最後の畳み込みの複数の層の後に続く場合があります。

Max-TDNNセンテンスモデルは2008年のTDNN構造に基づいており、このモデルでは、式は次のようになります。
s = [∣∣∣w1⋯ws∣∣∣] s = left [ begin {array} {ccc} && \ {w_ {1}}&{ cdots}&{w_ {s}} && end {array} right]
畳み込みカーネルの狭いサイズをmダウンして、行列サイズcを取得します。d×s− m + 1 d times s-m + 1文の長さが異なる問題を解決するために、Max-TDNNの最終結果行列は各行cで最大値を取るため、次の行列式c
cmax⁡= [max⁡(c 1、:)⋮max⁡(cd、:)] mathbf {c} _ { max} = left [ begin {array} {c} { max left( mathbf {c} _ {1 、:} right)} \ { vdots} \ { max left( mathbf {c} _ {d 、:} right)} end {array} 正しい]
これの目的は、最も関連性のある機能、固定マトリックスのサイズを取得することです。c m a x c_ {max}完全な接続層を分類することができます。

要約すると、リカレントニューラルネットワークの時間遅延ネットワークの長所と短所とは異なり、最上位の単語は、語順に敏感で、ツリーを解析する必要がない利点ですが、各単語について、最終的な結果がより大きく影響すると考えるのは公平です他の単語のみの欠点は、エッジ情報の弱体化を考慮して考慮する必要がある最大値の選択方法、この方法の欠点は狭い畳み込みを持ち、maxpoolingはすでに元の語順を持っており、あきらめることですa。

これに関して、ここでは、畳み込みを使用して狭い幅の畳み込みを破棄し、maxpooling k-maxpoolingを最適化し、k個の最大情報を選択し、反対の順序で保持するように改善します。中間層のk値も動的に調整できます。これは次の式に従います。
k l =max⁡(k t o p、⌈L− lLs⌉)k_ {l} = max left(k_ {t o p}、 left lceil frac {L-l} {L} s right rceil right)
角括弧は切り上げを示し、Lは層畳み込みのすべての層のネットワークを表し、lは現在の層の層の数を表します。たとえば、感情的な理解は3階建ての畳み込み層です。k t o p = 3 k_ {top} = 3、文の長さは18で、最初のレイヤーのmaxpoolingコンボリューションフロントレイヤーを取得する必要がありますk 1 = 12 k_1 = 12Maxima、2番目のレイヤーのmaxpoolingコンボリューションフロントレイヤーを取得する必要がありますk 2 = 6 k_2 = 6Maxima、3番目のレイヤーを削除する前にk t o p = 3 k_ {top} = 3最大。

上記の解釈は、広い畳み込みとk-maxpoolingの使用が原因である理由と2つの方法です。さらに、著者は他の改善も実施しました。

K-maxpooling接触非線形特性関数の後

フィルタの全幅dを使用した最初の先行畳み込みでは、重み付け操作に対してMのmワードが実行され、各次元のワードから最終的に導出されるd次元ベクトルは、対応する次元を重み付けすることによって取得されたワードベクトルwmで構成されます。 。ここで私は最初は理解していませんでした、これを見てください ノートを読む 式の意味を理解した後、添付の図面への抜粋。ビューの準備後。

画像

ここで、複数の接触を示す非線形関数特性図

CNNは、複数のチャネル、すなわち、複数の特徴マップがあり、各チャネルがそれ自体の異なる情報を有することを容易に理解され、本明細書では以下の層に留意されたい。

画像

図2の特徴的な情報が重ね合わされているのは、式図3に続く多機能のこの部分である。
F ji + 1 = ∑ k = 1 nmj、ki + 1 ∗ F ki F_ {j} ^ {i + 1} = sum_ {k = 1} ^ {n} m_ {j、k} ^ {i + 1 } * F_ {k} ^ {i}
式nは、行の総数を意味し、iは、現在の層がi番目の層であることを意味し、Fは、FIGを表し、kはkを表し、FIGは、同じ層の並列計算で可能であり、それぞれが、 mを計算するためのFIGたたみ込みカーネル。ここで、mは4次のテンソルであり、記号*はたたみ込みを表します。m次の4 Fのたたみ込みは、実際には1次元たたみ込み並列演算と同等です。図1の畳み込みdxmサイズマッチング特性を畳み込むことによって理解され得るように、畳み込み。

FIG融合フィーチャーフォールディング

著者は、異なる次元間の情報は相互作用しないと考えているため、情報と相互作用したいだけでなく、黄色の線で描かれたモデル構造図の一部がとして折りたたまれているため、畳み込みニューラルネットワークを使用してそのような情報が相互作用する必要もあります。

このブログで説明されている実験部分の記事固有のチャートは繰り返されていません。