生成的事前トレーニングによる言語理解の改善
Improving Language Understanding Generative Pre Training
記事のディレクトリ
実験のセットアップ
実験データセット
教師なし事前トレーニング
1つ目は、言語モデルの事前トレーニングフェーズです。
この段階で、著者は教師なし事前トレーニングにBookCorpusデータセットを使用します。このデータセットには、7000冊を超える未公開の書籍が含まれています。
最終的な言語モデルのトークンレベルの複雑さは18.4に達しました。
モデル仕様
- 言語モデルは、12層のトランスデコーダー(768次元の状態と12
注意の頭)。 - 位置ごとのフィードフォワードネットワーク部分は3072次元に設定されています。
- 最適化手法では、最大学習率を設定しながら、Adamを使用します2.5 e-4 2.5e ^ {-4}
- エポック:100
- バッチサイズ:64
- 各入力には512個のトークンが含まれています
- L2規則性:0.01
- 活性化関数:GELU
- 50個のspaCyライブラリを使用してコーパスを前処理します
詳細の微調整
- 微調整段階で0.1ドロップアウトを追加
- 学習率:6.25 e-5 6.25e-5
- バッチサイズ:32
- エポック:3エポックのみ
- 0.2%のウォームアップ
実験結果
4つのタスク
- 自然言語推論
- 質問応答と常識的な推論
- 意味的類似性
- 分類