生成的事前トレーニングによる言語理解の改善



Improving Language Understanding Generative Pre Training



記事のディレクトリ

実験のセットアップ

実験データセット
画像

教師なし事前トレーニング

1つ目は、言語モデルの事前トレーニングフェーズです。
この段階で、著者は教師なし事前トレーニングにBookCorpusデータセットを使用します。このデータセットには、7000冊を超える未公開の書籍が含まれています。



最終的な言語モデルのトークンレベルの複雑さは18.4に達しました。

モデル仕様

  • 言語モデルは、12層のトランスデコーダー(768次元の状態と12
    注意の頭)。
  • 位置ごとのフィードフォワードネットワーク部分は3072次元に設定されています。
  • 最適化手法では、最大学習率を設定しながら、Adamを使用します2.5 e-4 2.5e ^ {-4}
  • エポック:100
  • バッチサイズ:64
  • 各入力には512個のトークンが含まれています
  • L2規則性:0.01
  • 活性化関数:GELU
  • 50個のspaCyライブラリを使用してコーパスを前処理します

詳細の微調整

  • 微調整段階で0.1ドロップアウトを追加
  • 学習率:6.25 e-5 6.25e-5
  • バッチサイズ:32
  • エポック:3エポックのみ
  • 0.2%のウォームアップ

実験結果

4つのタスク



  • 自然言語推論
    画像
  • 質問応答と常識的な推論
    画像
  • 意味的類似性
  • 分類
    画像