生成的事前トレーニングによる言語理解の改善

Improving Language Understanding Generative Pre Training

記事のディレクトリ

概要概要
フレームワーク

1.教師なし事前トレーニング
2.監視された微調整

実験

実験のセットアップ

教師なし事前トレーニング
モデル仕様
詳細の微調整
実験結果

実験のセットアップ

実験データセット

教師なし事前トレーニング

1つ目は、言語モデルの事前トレーニングフェーズです。
この段階で、著者は教師なし事前トレーニングにBookCorpusデータセットを使用します。このデータセットには、7000冊を超える未公開の書籍が含まれています。

最終的な言語モデルのトークンレベルの複雑さは18.4に達しました。

モデル仕様

言語モデルは、12層のトランスデコーダー（768次元の状態と12
注意の頭）。
位置ごとのフィードフォワードネットワーク部分は3072次元に設定されています。
最適化手法では、最大学習率を設定しながら、Adamを使用します2.5 e-4 2.5e ^ {-4}
エポック：100
バッチサイズ：64
各入力には512個のトークンが含まれています
L2規則性：0.01
活性化関数：GELU
50個のspaCyライブラリを使用してコーパスを前処理します

詳細の微調整

微調整段階で0.1ドロップアウトを追加
学習率：6.25 e-5 6.25e-5
バッチサイズ：32
エポック：3エポックのみ
0.2％のウォームアップ

実験結果

4つのタスク

自然言語推論
質問応答と常識的な推論
意味的類似性
分類