Gpt

OpenAIGPT生成的事前トレーニングによる言語理解の改善



Openai Gpt Improving Language Understanding Generative Pre Training



論文OpenAIGPT生成的事前トレーニングによる言語理解の改善

https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

信頼できるものではなく、個人的な翻訳



概要

自然言語理解には、テキストの含意、問題解決、意味的類似性の評価、文書分類などのさまざまなタスクが含まれます。
マークされていないテキストコーパスは非常に豊富ですが、特定のタスクを学習するためのタグデータはほとんどありません。
差別的なトレーニングモデルの完全な実装が課題になります。ラベルのないさまざまなテキストコーパスを使用することで、
言語モデル生成の事前トレーニングと、特定の各タスクの差分チューニングにより、膨大なタスクを実行できます。
収益。以前の方法とは対照的に、微調整中にタスク対応の入力変更を使用して、効率的な移行を実現します。
モデルの構造に最小限の変更を加えます。私たちの方法が自然言語理解のさまざまなベンチマークに基づいていることを証明しました。
動作します。私たちの普遍的な未知のタスクモデルは、各タスク用に設計された識別トレーニングのモデルよりも優れています。
すべての研究の12のタスクのうち9つである構造は、最新のテクノロジーを大幅に改善しました。たとえば、私たちは常識的な推論をしています
(Stories Cloze Test)は8.9%の絶対的な増加を達成し、質問への回答(RACE)で5.7%を達成しました
完全に改善され、テキストエントロピー(MultiNLI)の絶対1.5%の増加を達成しました。

1はじめに

自然言語処理(NLP)での教師あり学習への依存を軽減するには、元のテキストから効果的に学習する能力が重要です。
ほとんどの深層学習方法では、手動でタグ付けされたデータが大量に必要になるため、注釈リソースが不足している多くの領域での能力が制限されます。
での適用性。この場合、この方法は時間と費用がかかり、ラベルのないデータの言語情報を利用できます。
このモデルは、より多くのコメントを収集するための代替手段を提供します。また、大量の監督の場合でも、
教師なしの方法で適切な表現を学習することも、パフォーマンスを大幅に向上させることができます。断然最も説得力のある
証拠は、事前にトレーニングされた単語の埋め込みを使用して、さまざまなNLPタスクのパフォーマンスを向上させることです。



ただし、マークされていないテキストから単語レベルの情報を使用する主な理由は2つあります。まず第一に、どのタイプかは明確ではありません
の最適化の目標は、移行に役立つテキスト表現を学習するのに最も効果的です。最近の研究では、次のようなさまざまな目標に焦点が当てられています。
言語モデリング、機械翻訳、テキストの一貫性など、各方法はさまざまなタスクで他の方法よりも優れています。第二に、
これらの既知の表現をターゲットタスクに移行するための最も効率的な方法についてのコンセンサスはありません。既存のテクノロジーには次のものが含まれます
複雑な学習シナリオを使用し、補助的な学習目標を追加して、モデルアーキテクチャにタスク固有の変更を加えます。
これらの不確実性により、効果的な半教師あり言語処理学習方法の開発が困難になっています。

このホワイトペーパーでは、教師なし事前トレーニングと教師あり微調整を組み合わせた半教師あり言語理解タスクの方法について説明します。私たちの目標は
適応をほとんどまたはまったく行わずにさまざまなタスクに移行できる一般的な表現を学習します。私たちは得ることができると仮定します
マークされていない多数のテキストデータセットと、手動で注釈が付けられたトレーニングサンプルデータセット(ターゲットタスク)。私たちの
この設定では、これらのターゲットタスクがタグなしコーパスと同じドメインにある必要はありません。 2段階のトレーニングプロセスを使用します。
まず、言語モデリングの目標を使用して、ラベルのないデータのニューラルネットワークモデルの初期パラメーターを学習します。続いて、
対応する監視ターゲットを使用して、これらのパラメーターをターゲットタスクに合わせて調整します。

モデルアーキテクチャには、さまざまなタスク(機械翻訳など)で使用されるTransformerを使用します。
ドキュメントの生成と解析)は非常にうまく機能しました。このモデルを選択すると、より構造化されたモデルになります
循環ニューラルネットワークのような代替手段ではなく、テキストの長期的な依存関係を処理するためのメモリ
異なるタスク間で堅牢な移行パフォーマンスを実現します。移行プロセスでは、トラバーサルスタイルの方法を使用して
構造化テキスト入力を単一の連続した単語シーケンスに処理する、タスク固有の入力適応。なので
実験で示したように、これらの調整は、効果的に微調整し、事前トレーニングを行うことができるということです。
モデルのアーキテクチャは最小限の変更です。



私たちの方法を使用して、4種類の言語理解タスクを評価します-自然言語の推論、質問と回答、
意味的類似性とテキスト分類。私たちの一般的なタスクにとらわれないモデルは、訓練されたモデルよりも優れています。
これらのモデルは、各タスク用に特別に設計されたアーキテクチャを使用しており、調査した12のタスクのうち9つが重要です。
最新の技術を向上させました。たとえば、Stories Cloze Testでは8.9%の絶対的な増加を達成しました。
質問への回答(RACE)で5.7%の絶対的な改善を達成しました。テキスト含意に基づいて作成(MultiNLI)
最近のGLUEマルチタスクベンチマークを5.5%改善し、1.5%の絶対的な増加。また、分析しました
4つの異なる環境での事前トレーニングモデルのゼロサンプル動作は、ダウンストリームタスクに役立つ言語知識を獲得したことを証明します。

関連作業

NLP半教師あり学習 私たちの仕事は、一般的に半教師ありの自然言語学習です。このモデルは人々の
シーケンスのタグ付けやテキストの分類などのタスクに適用されます。最も初期の方法では、ラベルのないデータを使用して単語を計算します
レベルまたはフレーズレベルの統計を作成し、これらの統計を監視対象モデルの機能として使用します。過去数年間で
で、研究者は、ラベルのないコーパスに単語を埋め込むことの利点を実証しました。これにより、さまざまなタスクを改善できます。
パフォーマンス。ただし、これらのメソッドは主に単語レベルの情報を移行するため、より高いレベルのセマンティクスをキャプチャすることに取り組んでいます。

最近のアプローチでは、マークされていないデータを使用して、単語レベルのセマンティクス以上のものを学習および使用することが研究されています。マークのないコーパスを使用できます
トレーニング用のフレーズレベルまたは文レベルの埋め込みは、さまざまなターゲットタスクのベクトル表現にテキストをエンコードするために使用されています。

教師なし事前トレーニング 教師なし事前トレーニングは、半教師あり学習の特殊なケースです。目標は、適切な初期点を見つけることです。
教師あり学習の目的を変更する代わりに。初期の研究では、画像の分類と回帰のタスクにおけるこの手法の適用が検討されていました。
その後の研究では、ディープニューラルネットワークでより良い一般化を実現するための正則化スキームとして事前トレーニングを使用できることが示されています。
最近の研究では、この方法は、画像分類、音声認識など、ディープニューラルネットワークのさまざまなタスクのトレーニングに使用されています。
エンティティのあいまいさと機械翻訳。

私たちの仕事に最も近いのは、言語モデリングの目標を使用してニューラルネットワークを事前にトレーニングし、その後、監督下に置くことです。
ターゲットタスクを微調整します。 Dai、Howward、Ruderはこのアプローチに従って、テキストの分類を改善します。しかし、にもかかわらず
事前トレーニングフェーズは、一部の言語情報を取得するのに役立ちますが、使用するLSTMモデルでは、予測力が短くなります。
範囲内。代わりに、私たちが選択したTransformerネットワークを使用すると、私たちのような幅広い言語構造をキャプチャできます。
の実験を示します。さらに、自然言語を含む幅広いタスクでのモデルの有効性を示します。
推論、解釈の検出、およびストーリーの完成。他の方法は、事前に訓練された言語または機械翻訳モデルに隠されています
トレーニング教師ありモデルがターゲットタスク上にある場合、は補助関数として表されます。これには、個々のターゲットタスクが大量に含まれます
新しいパラメータ。移行中に、モデルアーキテクチャに最小限の変更を加える必要があります。

補助訓練システム 補助的な教師なしトレーニングの目的を追加することは、半教師あり学習の代替手段です。コロバートと
Westonの初期の作業では、POSタグ付け、ブロック、名前付きエンティティの認識など、さまざまな補助NLPタスクを使用していました。
セマンティックロールのタグ付けを強化するための言語モデリング。最近、Reiはターゲットタスクの目標に二次言語モデリングを追加しました。
ターゲットは、シーケンスタグタスクのパフォーマンスの向上を示しています。私たちの実験も補助的な目標を使用していますが、
私たちが示すように、教師なし事前トレーニングは、ターゲットタスクに関連しないいくつかの言語の側面を学習しました。

3フレーム

私たちのトレーニングプロセスは2つのフェーズで構成されています。最初の段階は、大規模なテキストコーパスで大量の言語モデルを学習することです。
次は、タグ付けされたデータを使用してモデルを特定のタスクに適応させる微調整フェーズです。

3.1教師なし事前トレーニング

教師なし文言ライブラリを提供する
U = {u 1、。 。 。 、u n}
以下の可能性を最大化するために、標準の言語モデリングの目標を使用します。

(式は書けません)

ここで、kはコンテキストウィンドウのサイズであり、条件付き確率pはパラメーター化されたニューラルネットワークを使用してモデル化されます。これらのパラメータが使用されます
確率的勾配降下法のトレーニング。

私たちの実験では、言語モデルとしてマルチレイヤーTransformerデコーダーを使用しました。これはTansformerです。
のバリアント。このモデルは、入力コンテキスト分詞に多頭自己注意操作を適用します。
その後に位置ごとのフィードフォワード層が続き、ターゲット語彙の出力分布が生成されます。
h 0 = U W e + W p
h l = transform_block(h l−1)∀i∈[1、n]
P(u)= softmax(h n W e T)

ここで、U =(u −k、。。。、u −1)は分詞の文脈ベクトル、nは層の数、Weは単語埋め込み行列です。
Wpは位置埋め込み行列です。

3.2監視付き微調整

式1のターゲットを使用してモデルをトレーニングした後、ターゲットタスクの監視に対応するようにパラメーターを調整します。と仮定しましょう
タグ付きデータセットC。各インスタンスは、いくつかの列入力タグx1 ... xmとタグyで構成されます。入力パス
事前にトレーニングされたモデルは、最終的なトランスフォーマーブロックのアクティベーション値hmlを取得し、パラメーターWyを使用して入力します。
yを予測するための追加の線形出力層:
P(y | x 1、。。。、x m)= softmax(hml Wy)

これにより、次の最大化目標が得られます。

(数式テキストは書き込めません)

また、微調整の2番目のターゲットとして言語モデリングを使用すると、を学習するのに役立つことがわかりました。昇格した監督モデルの一般化、bは収束を加速します
これは以前の作業と一致しており、この補助ターゲットのパフォーマンスが向上していることが確認されています。具体的には、
次の目標(重みλ)を最適化します。
L3©= L2©+λ∗ L1©
一般に、微調整プロセス中に必要な追加のパラメーターは、Wyと区切り文字タグの埋め込みだけです。
(セクション3.3で説明)。

3.3特定のタスク入力変換

テキストの分類などの一部のタスクでは、上記のようにモデルを直接微調整できます。他のいくつか
質問と回答やテキストの推論などのタスクには、順序付けられた文のペアやドキュメント、質問と回答のトリプルなどの構造化された入力があります。
事前トレーニングモデルは連続テキストシーケンス用にトレーニングされているため、いくつかの変更を加える必要があります。
これらのタスクに適用します。以前の研究では、具体化されたアーキテクチャを学習し、送信された表現の上に配置することを提案しました。
このアプローチでは、タスク固有のカスタマイズが多数再導入され、これらの追加のアーキテクチャコンポーネントは移行学習を使用しません。
代わりに、トラバーサルアプローチを使用して、構造化された入力を、事前にトレーニングされたモデルが処理できるモデルに変換します。
順序付けられたシーケンス。これらの入力変換により、タスクゴーストアーキテクチャ全体での大幅な変更を回避できます。以下に提供します
これらの入力変換の簡単な説明である図1は、視覚的な例を示しています。すべての変換には、ランダムな初期化の追加が含まれます
開始フラグと終了フラグ(、)

テキスト含意 暗黙のタスクでは、前提pを仮想のhマーカーシーケンスと連結し、中央に区切り文字$を付けます。

類似性 類似性タスクの場合、比較される2つの文の順序は決まっていません。これを反映するために、
2つの可能な文シーケンス(間に区切り文字を含む)を含むシーケンスを入力し、各シーケンスを個別に処理して生成します
線形出力層に供給される前に要素ごとに追加される2つのシーケンス表現hml。

質疑応答と常識推論 これらのタスクでは、コンテキストドキュメントz、質問q、および可能な回答のセット{ak}を取得します。
ドキュメントのコンテキストと質問をそれぞれの可能な回答にリンクし、2つの間に区切りタグを追加します。
[zq $ ak]です。これらの各シーケンスは、モデルの腹で処理されてから、SoftMaxレイヤーを通過します。
正規化して、可能な回答の出力分布を生成します。

図1(左)作業で使用されたTransformerのアーキテクチャとトレーニングの目的。 (右)さまざまなタスクの微調整用
の入力変換。すべての構造化された入力を一連の単語に変換し、事前にトレーニングされたモデルで処理してから、
linear + softmaxレイヤー。

4実験

4.1設定

教師なし事前トレーニング BooksCorpusデータセットを使用して、言語モデルをトレーニングします。 7,000以上のユニークなものが含まれています
あらゆる種類の冒険、ファンタジー、ロマンスを含む未発表の本。重要なのは、それは長期間の継続性を含んでいることです
テキスト。生成されたモデルが長期的な情報を条件として学習できるようにします。別のデータセット1Bワードベンチマーク
(同様の方法で使用されるELMo)はほぼ同じサイズですが、文の境界でシャッフルされ、リモート構造が破壊されます。
私たちの言語モデルは、このコーパスに18.4の複雑さという非常に低い単語レベルを実装しています。

表1:実験で使用したさまざまなタスクとデータセット

仕事 データセット
自然言語の推論 SNLI、MultiNLI、NLI質問、RTE、SciTail
質疑応答 RACE、ストーリークローズ
文の類似性 MSR言い換えコーパス、Quora質問ペア、STSベンチマーク
分類 スタンフォードセンチメントツリーバンク-2、CoLA
------------ -----------------------------

モデル仕様 私たちのモデルは、元のTransformerの動作方法にほぼ従っています。私たちは訓練しました
マスクされた自己注意ヘッドを備えた12層デコーダーのみのトランスフォーマー
および12個のアテンションヘッド)、位置ごとのフィードフォワードネットワークの場合、3072次元を使用します
内部状態フィードフォワードネットワークでは、最大学習率2.5e-4のAdam最適化スキームを使用しました。
最初の2000回の更新では、学習率は0から直線的に増加し、コサインスケジュールを使用してゼロにアニーリングされました。
ランダムにサンプリングされた64個の連続する512語シーケンスの小さなバッチで100エポックをトレーニングしました。モデルのため
layerNormはで広く使用されているため、単純な重みでN(0、0.02)を初期化するだけで十分です。私達
40,000のマージされたバイトペアエンコーディング(BPE)と、残差、埋め込み、および
正則化のための0.1の割合の注意ドロップアウト。 [37]で提案された修正も採用しました。
バージョンのL2正則化、すべての非偏差またはゲインの重みに対してw = 0.01。活性化関数には、ガウス誤差線形性を使用します
ユニット(GELU)。元の作品で提案された正弦波形式の代わりに、学習した位置埋め込みを使用しました。を使用しております
ftfyライブラリは、BooksCorpusの元のテキストをクリーンアップし、句読点と空白を正規化し、spaCyトークナイザーを使用します。

詳細の微調整 特に指定がない限り、教師なし事前トレーニングでハイパーパラメータ設定を再利用します。ドロップアウトします
0.1の比率で分類器に追加されます。ほとんどのタスクでは、6.25e-5の学習率と32のバッチサイズを使用します。
サイズ。私たちのモデルは微調整されており、ほとんどの状況で3エポックトレーニングで十分です。を使用しております
線形学習率の減衰スケジュール、トレーニングの0.2%以上を予熱します。 λは0.5に設定されています。

4.2監視付き微調整

自然言語の推論、質問と回答、意味の類似性、テキストの分類など、さまざまな監視タスクについて実験を行いました。その中で
一部のタスクは、最近リリースされたGLUEマルチタスクベンチマーク[64]の一部として提供されており、これを使用しています。

図1は、すべてのタスクとデータセットの概要を示しています。

自然言語の推論 自然言語推論(NLI)タスクは、テキストの含意としても知られ、1組の文を読むこと、および含意から、
矛盾と中立性が彼らの関係を判断します。最近多くの人がこの問題に興味を持っていますが[58、35、44]、
語彙含意、共参照、語彙および構文のあいまいさなど、さまざまな現象がありますが、それでもまだ困難です。
画像字幕(SNLI)、音声文字変換、人気の小説、政府報告書(MNLI)など、5つの異なるソースからのデータセットを評価しました。
ウィキペディアの記事(QNLI)、科学試験(SciTail)、またはニュース記事(RTE)。

表2に、さまざまなモデルと以前の最先端の方法に対するNLIタスクのさまざまな結果の詳細を示します。私たちの方法は明らかです
5つのデータセットの4つのデータセットのベースラインよりも優れており、MNLI、SciTail、QNLI、およびSNLIの絶対的な改善率
前回の最良の結果よりもそれぞれ1.5%、5%、5.8%、0.6%高くなりました。これは、私たちのモデルがよりよく説明できることを示しています
複数の文と言語のあいまいさの問題に対処します。 RTEでは、より小さなデータセットを評価します
(2490例)、56%の精度を達成しました。これは、マルチタスクbiLSTMモデルレポートの61.7%よりも低い値です。
より大きなNLIデータセットに対する私たちのアプローチの力を考えると、私たちのモデルはマルチタスクからも恩恵を受ける可能性があります
トレーニングですが、これについてはまだ説明していません。

表2:モデルを現在の最先端の方法と比較した自然言語推論タスクの実験結果。 5倍の表現
5つのモデルの統合。すべてのモデルは、評価の指標として精度を使用します。

メソッドデータセット MNLI-m MNLI-mm SNLI SciTail QNLI RTE
ESIM + ELMo(5x) - 89.3 - - -
CAFE(5x) 80.2 79.0 89.3 - - -
確率的回答ネットワーク(3x) 80.6 80.1 - - - -
------------------------------ -------- -------- -------- -------- -------- --------
カフェ 78.7 77.9 88.5 83.3 - -
------------------------------ -------- -------- -------- -------- -------- --------
GenSen 71.4 71.3 - - 82.3 59.2
マルチタスクBiLSTM + Attn 72.2 72.1 - - 82.1 61.7
------------------------------ -------- -------- -------- -------- -------- --------
微調整されたTransformerLM(ours) 82.1 81.4 89.9 88.3 88.1 56.0
------------------------------ -------- -------- -------- -------- -------- --------

質疑応答と常識推論 単一または複数の文の推論を必要とする別のタスクは、質問に答えることです。最新のものを使用しました
公開されたRACEデータセット。英語のパッセージと高校の試験の関連する質問で構成されています。このコーパスは
より推論的な質問が含まれていることが示され、CNNやSQuaDなどの他のデータセットがモデルを提供します。
完璧な評価で、モデルは遠距離恋愛を処理するように訓練されています。さらに、StoryClozeもあります
2つのオプションから正しい多文の語尾を選択することを含め、テストが評価されました。これらのタスクでは、
私たちのモデルは、以前の最良の結果よりも大幅に優れています-Story Clozeで8.9%、5.7%と大幅に異なります
RACE全体で。これは、モデルがリモートコンテキストを効果的に処理できることを示しています。

表3:私たちのモデルを現在の最先端の方法と比較した質問と回答および常識的な推論の結果。 9xは9を意味します
モデルの統合。

メソッドデータセット ストーリークローズ RACE-m RACE-h 人種
秋-LS-スキップ 76.5 - - -
隠されたコヒーレンスモデル 77.6 - - -
------------------------------ -------- -------- -------- --------
ダイナミックフュージョンネット(9x) - 55.6 49.4 51.2
BiAttention MRU(9x) - 60.2 50.3 53.3
------------------------------ -------- -------- -------- --------
微調整されたTransformerLM(ours) 86.5 62.9 57.4 59.0
------------------------------ -------- -------- -------- --------

意味的類似性 意味的類似性(または言い換え検出)タスクには、2つの文が意味的に同等であるかどうかを予測することが含まれます。チャレンジ
概念の書き換えを理解し、否定を理解し、構文のあいまいさに対処することにあります。このタスクを実行するために、3つのデータセットを使用しました。
– Microsoft Interpretation Corpus(MRPC)(ニュースソースから収集)、Quora Question Pair(QQP)データセットおよびセマンティックテキスト
類似性ベンチマーク(STS-B)。 3つの意味的類似性タスクのうちの2つ(表4)、STS-Bの最新の結果を取得しました。
の絶対的なメリットには1つのポイントがあります。 QQPのパフォーマンスの向上は、単一タスクのBiLSTM + ELMo + Attnと比較して、絶対に重要です。
4.2%増加しました。

分類 最後に、2つの異なるテキスト分類タスクも評価しました。言語受容性コーラ(CoLA)
文が構文に準拠しているかどうかに関する専門家の判断が含まれ、トレーニングモデルの固有の言語設定をテストします。一方、
スタンフォード感情ツリーライブラリ(SST-2)は、標準の二項分類タスクです。私たちのモデルはCoLAで45.4ポイントを獲得しました。
これは、モデルから学んだ生来の言語を示す、以前の35.0の最高スコアからの大きな飛躍です。
環境設定。このモデルは、SST-2で91.3%の精度も達成しました。これは、最先端の結果と競合します。 GLUEベンチマークで
テストでは、合計スコアも72.8ポイントに達し、以前の68.9ポイントよりも大幅に向上しました。

表4:意味的類似性と分類結果は、モデルを現在の最先端の方法と比較しています。この方法では
すべてのタスク評価は、GLUEベンチマークを使用して行われます。 (mc =数学的相関、acc =精度、pc =ピアソン相関)

メソッドデータセット CoLA(mc) SST2(acc) MRPC(F1) STSB(pc) QQP(F1) 接着剤
スパースバイトmLSTM - 93.2 - - - -
-------------------------- -------- --------- -------- -------- ------- --------
TF-KLD - - 86.0 - - -
-------------------------- -------- --------- -------- -------- ------- --------
ECNU(混合アンサンブル) - - - 81.0 - -
-------------------------- -------- --------- -------- -------- ------- --------
シングルタスクBiLSTM + ELMo + Attn 35.0 90.2 80.2 55.5 66.1 64.8
マルチタスクBiLSTM + ELMo + Attn 18.9 91.6 83.5 72.8 63.3 68.9
-------------------------- -------- --------- -------- -------- ------- --------
微調整されたTransformerLM(ours) 45.4 91.3 82.3 82.0 70.3 72.8
-------------------------- -------- --------- -------- -------- ------- --------

全体として、私たちのアプローチは、12のデータセットのうち9つのデータセットの中で最新かつ最先端のものを持っています。
多くの場合、統合よりも優れています。私たちの結果は、私たちの方法が異なるサイズのデータ​​セットにあることも示しています
小さいデータセット(STS-B(約5.7Kトレーニングサンプル))から最大データセット(SNLI)まで、でうまく機能します
(約550Kトレーニングサンプル))

5分析

転写された層の数の影響 教師なし事前トレーニングから教師付きターゲットタスクまでの変数を観察しました。
層数の影響。図2(左)は、MultiNLIとRACEでのメソッドのパフォーマンスを示しています。
転送されたレイヤーの数の関数。埋め込みを転送して、標準の結果を観察しました
パフォーマンスが向上し、各トランスフォーマーレイヤーは転送全体で最大9%のさらなるメリットを提供します。
これは、事前にトレーニングされたモデルの各レイヤーに、ターゲットタスクを解決するための便利な関数が含まれていることを示しています。

図2 :(左)RACEおよびMultiNLIで事前トレーニングされたモデルに対する転送成長の層数の影響。
(右)は、さまざまなタスクのゼロサンプルパフォーマンス言語モデルのトレーニング前の更新の変更のグラフ​​を示しています。タスクごと
パフォーマンスは、ランダムな推測のベースラインと現在の最先端のシングルタスクモデルの間で標準化されています。

サンプルの動作がゼロ 事前にトレーニングされたTransformers言語モデルが効果的である理由をよりよく理解したいと思います。
仮説は、基礎となる世代モデルが、言語モデリング機能を改善するために評価するタスクの多くを実行することを学習するというものです。
Transformerのより構造化されたアテンションメモリは、LSTMよりも移行を促進します。一連のヒューリスティックを設計しました
このソリューションは、基盤となるビルドモデルを使用して、監視された微調整なしでタスクを実行します。これらのヒューリスティックを使用します
このソリューションは、図2(右)の事前トレーニングプロセスの効果の視覚化を生成します。これらのヒューリスティックを観察しました
パフォーマンスは安定しており、トレーニング中に着実に向上します。これは、トレーニング前のサポートがさまざまなタスクの学習をサポートしていることを示しています。
関連機能。また、LSTMは、ゼロサンプルパフォーマンスの変動が大きいことを確認しました。これは、Transformerアーキテクチャを示しています。
帰納的選好は移行に役立ちます。

CoLA(Language Acceptability)の場合、モデルの割り当てと予測を生成するために使用される平均語彙対数確率が例としてスコアリングされます。
SST-2(感情分析)では、各例に記号を追加し、言語モデルの出力を配布しました。
は、正と負の単語のみを含み、予測としてより高い確率の記号に割り当てられていると推測することに限定されています。
RACE(質問と回答)の場合、回答を選択し、ドキュメントと質問に基づいて最高の平均語彙を割り当てるモデルを生成します。
対数確率。
DPRD(winogradスキーマ)の場合、代名詞を2つの可能な参照に置き換え、次の場所で生成モデルを予測します。
置換後、シーケンスの残りの部分の解像度に、より高い描画語彙確率を割り当てます。

アブレーション分析 3つの異なるアブレーション研究を実施しました(表5)。まず、微調整の過程でチェックします。
補助言語モデルターゲットのパフォーマンスはありません。二次ターゲットがNLIタスクとQQPに寄与することを確認しました。一般に、
この傾向は、大きなデータセットはセカンダリターゲットの恩恵を受けますが、小さなデータセットはそうではないことを示しています。第二に、同じを通して
フレームワークの下での単層2048LSTMユニットの比較は、変圧器の役割を分析します。代わりにLSTMを使用する場合
Transformerの場合、平均スコアは5.6ポイントでした。 LSTMはTransformerのパフォーマンスデータセットよりも優れています
–MRPCは1つだけです。最後に、ターゲットタスクを直接監視するTransformerアーキテクチャを比較しました。
トレーニング、事前トレーニングなし。事前トレーニングの欠如は、特定のタスクのパフォーマンスに影響を与え、完全なモデルと比較して減少することがわかります。
14.8%でした。

表5:さまざまなタスクのさまざまなモデルアブレーション分析。平均スコアは、すべての結果の重み付けされていない平均スコアです。
(mc =数学的な相関、acc =精度、pc =ピアソンの相関)

メソッドデータセット 平均スコア CoLA(mc) SST2(acc) MRPC(F1) STSB(pc) QQP(F1) MNLI(acc) QNLI(acc) RTE(acc)
aux LM付きの変換(フル) 74.7 45.4 91.3 82.3 82.0 70.3 81.8 88.1 56.0
-------------------------- --------- -------- --------- -------- -------- ------- --------- --------- --------
事前トレーニングなしの変圧器 59.9 18.9 84.0 79.4 30.9 65.5 75.7 71.2 53.8
w / oをLMに変換します 75.0 47.9 92.0 84.9 83.2 69.8 81.1 86.9 54.4
LSTM w /からLM 69.1 30.3 90.5 83.2 71.8 68.1 73.7 81.1 54.6
-------------------------- --------- -------- --------- -------- -------- ------- --------- --------- --------

6結論

生成的事前トレーニングの識別的微調整を通じて未知のタスクモデルを通じて強力な力を達成するためのフレームワークを紹介します。
自然言語理解。長距離連続テキストの多様なコーパスによる事前トレーニング。私たちのモデルは
重要な世界の知識と遠距離恋愛を処理する能力、そしてこの知識を特定のものにうまく移す
Q&A、意味的類似性評価、識別の含意、テキスト分類などのタスク。調査した12のデータセットを改善しました
の最新の9つのテクノロジー。教師なし(事前)トレーニングを使用して認識タスクのパフォーマンスを向上させることは、機械学習にとって常に重要です。
目標。私たちの仕事は、大幅なパフォーマンスの向上を達成することが実際に可能であることを示し、モデルを提供します
(Transformerは)およびデータセット(長距離の依存関係を持つテキスト)この方法の最適な使用方法。