連合学習研究ノート-紙の理解「分散データからのディープネットワークの通信効率の高い学習」



Federated Learning Study Notes Paper Understandingcommunication Efficient Learning Deep Networks From Decentralized Data



元の: 《分散データからのディープネットワークの通信効率の良い学習》

私は最近、連合学習を提案し、詳細なメモをまとめたこの記事を研究しました。内容は主に原文の理解と配置であり、連邦学習について学んでいる友人を助けたいと思っています。

⚠️作者はFLを理解し始めたばかりなので、よく理解されていない場所やエラーがある場所があるかもしれません。皆様とコミュニケーションを取り、共に進歩していきたいと思います〜



目次

  • 1.研究の背景

    モバイル通信デバイスには多くの有用なデータがあり、モデルのトレーニング後にユーザーエクスペリエンスを向上させることができますが、これらのデータは通常機密性が高いか非常に大きく、データセンターに直接アップロードすることはできません。従来の方法を使用してモデルをトレーニングします。

    最新のモバイルデバイスは、モデルの学習に適した豊富なデータにアクセスできるため、デバイスのユーザーエクスペリエンスを大幅に向上させることができます。たとえば、言語モデルは音声認識とテキスト入力を改善し、画像モデルは適切な写真を自動的に選択できますが、この豊富なデータはプライバシーに敏感であるか、大量であるか、またはその両方であることが多く、データセンターへのログインとそこでのトレーニングが不可能になる可能性があります従来のアプローチを使用します。



  • 2.主な研究内容

モデルをトレーニングする別の方法を提案しました 連合学習

  • トレーニングデータをモバイルデバイスに配布したままにします。

    • ローカルで計算された更新を集約することにより、共有モデルを学習します。

    トレーニングデータをモバイルデバイスに分散させたままにし、ローカルで計算された更新を集約することで共有モデルを学習する代替案を提唱します。この分散型アプローチを 連合学習



  • 実用的な連合学習アルゴリズムを提案する-反復モデルの平均化

    • に適用する 不均衡で非IIDのデータ分布;
    • 通信費 これが主な制約であり、同期確率的勾配降下法と比較して10〜100倍減少します。

    に基づく深層ネットワークの連合学習のための実用的な方法を提示します。 反復モデルの平均化 、および5つの異なるモデルアーキテクチャと4つのデータセットを考慮して、広範な経験的評価を実施します。これらの実験は、アプローチが 不均衡で非IIDのデータ分布 これがこの設定の特徴です。通信コストが主な制約であり、同期確率的勾配降下法と比較して、必要な通信ラウンドが10〜100倍削減されることを示しています。

  • にロバストな提案されたFederatedAveragingアルゴリズム 不均衡で非IIDのデータ分布;トレーニングに必要な通信のラウンドを減らす

    具体的には、 FederatedAveragingアルゴリズム。各クライアントのローカル確率的勾配降下法(SGD)と、モデルの平均化を実行するサーバーを組み合わせます。 このアルゴリズムで広範な実験を行い、それを実証します 不均衡で非IIDのデータ分布に対してロバストです 、およびできます トレーニングに必要なコミュニケーションのラウンドを減らす 桁違いの分散データに関する深いネットワーク。

  • 3.連合学習

    • FLデータには、次の特性(標準)が必要です。
    1. モバイルデバイスから実際のデータをトレーニングすることには、データセンターが提供するプロキシデータに比べて明らかな利点があります
    2. データはプライバシーに配慮したものまたは大規模なものであり、モデルのトレーニングのみを目的としてデータセンターに記録する必要はありません。
    3. 監視タスクの場合、データのラベルはユーザーの操作から自然に推測できます。

    フェデレーション学習フェデレーション学習の理想的な問題には、次の特性があります。1)モバイルデバイスからの実世界のデータのトレーニングは、データセンターで一般的に利用可能なプロキシデータのトレーニングよりも明確な利点があります。 2)このデータはプライバシーに敏感であるか、サイズが大きい(モデルのサイズと比較して)ため、純粋にモデルトレーニングの目的で(集中収集の原則に基づいて)データセンターに記録しないことが望ましいです。 3)監視ありタスクの場合、データのラベルはユーザーの操作から自然に推測できます。

    • モバイルデバイス上の多くのスマートアプリケーションには、上記の基準を満たすデータがあります
    1. 画像分類 :共有される可能性が最も高い写真を予測します。
    2. 言語モデル :タッチスクリーンキーボードでの音声認識とテキスト入力を改善するために使用されます。

    データは機密です: ユーザーの写真またはキーボード入力

    データの分布も、プロキシデータによって提供されるものとは異なります。 より多くのユーザー特性と利点

    データのラベルも直接入手できます :たとえば、ユーザーの写真と入力テキストはそれ自体がタグ付けされており、ユーザーの操作によって写真にタグを付ける(削除、共有、表示)ことができます。

    同時に、両方のタスク ニューラルネットワークの学習に最適 。画像分類については、深いネットワーク、特に言語モデル、ニューラルネットワーク、LSTM(Hochreiter and Schmidhuber、1997 Kim et al。、2015)の畳み込みネットワーク(LeCun et al。、1998 Krizhevsky et al。、2012)をフィードフォワードします。

    これらの両方のタスク(ユーザーが撮影するすべての写真と入力するすべての写真)の潜在的なトレーニングデータは、プライバシーに敏感な場合があります。これらの例が描かれている分布も、簡単に入手できるプロキシデータセットとは大幅に異なる可能性があります。チャットやテキストメッセージでの言語の使用は、一般に、標準言語のコーパスとは大きく異なります。たとえば、Wikipediaや写真を撮るその他のWebドキュメントなどです。彼らの電話は、典型的なFlickrの写真とはかなり異なる可能性があります。そして最後に、これらの問題のラベルは直接利用できます。入力されたテキストは言語モデルを学習するために自己ラベル付けされ、写真ラベルは写真アプリとの自然なユーザー操作(写真の削除、共有、表示)によって定義できます。

  • 第四に、プライバシー(プライバシー)

    1. FLによって送信される情報は、特定のモデルを改善するために必要な最小限の更新です(プライバシーの利点の強さは、更新の内容によって異なります)
    2. アップデート自体は短命であり、含まれる情報が元のトレーニングデータを超えることはなく、通常ははるかに少なくなります
    3. 集約アルゴリズムはソースを更新する必要がないため(ユーザーが誰であるかを知る必要はありませんか?)、更新はメタデータを識別せずにハイブリッドネットワーク(Torなど)または信頼できるサードパーティを介して送信できます。
    4. この記事の最後に、共同学習と安全なマルチパーティコンピューティングおよび差分プライバシーを組み合わせる可能性について簡単に説明します。

    プライバシーフェデレーション学習には、永続データに関するデータセンタートレーニングと比較して、プライバシーに関する明確な利点があります。 「匿名化された」データセットを保持している場合でも、他のデータとの結合によってユーザーのプライバシーが危険にさらされる可能性があります(Sweeney、2000)。 対照的に、連合学習のために送信される情報は、特定のモデルを改善するために必要な最小限の更新です。 (当然、プライバシーの利点の強さは、更新の内容によって異なります。)更新自体は一時的なものである可能性があります(また、そうすべきです)。 (データ処理の不平等により)生のトレーニングデータより多くの情報が含まれることはなく、通常ははるかに少ない情報が含まれます。さらに、更新のソースは集約アルゴリズムに必要ないため、Tor(Chaum、1981)などの混合ネットワークまたは信頼できるサードパーティを介してメタデータを識別せずに更新を送信できます。論文の最後で、フェデレーション学習と安全なマルチパーティ計算および差分プライバシーを組み合わせる可能性について簡単に説明します。

  • 5.フェデレーション最適化

    • フェデレーションの最適化: 連合学習に内在する最適化問題(分散最適化問題と比較して)
    • フェデレーション最適化問題の主な属性 (典型的な分散最適化問題と比較して)
    1. ユーザーデータは独立しておらず、同じように分散されています。 特定のユーザーデータは、ユーザーの全体的な分布を表すことはできません
    2. 不均衡なユーザーデータ量: 一部のユーザーはより多く使用し、一部のユーザーはより少なく使用するため、データの量は不均一です
    3. ユーザー(配布)は大規模です: 最適化に参加しているユーザー数>ユーザーあたりの平均データ量
    4. ユーザー機器の通信制限: 多くの場合、モバイルデバイスはドロップされ、低速で、高価です。

    非IID 特定のクライアントのトレーニングデータは、通常、特定のユーザーによるモバイルデバイスの使用状況に基づいているため、 特定のユーザーのローカルデータセットは、人口分布を表すものではありません。

不均衡 同様に、一部のユーザーは他のユーザーよりもサービスやアプリを多用し、 さまざまな量のローカルトレーニングデータ。

>**Massively distributed** We expect **the number of clients** participating in an optimization to be **much larger than the average number of examples per client.** >**Limited communication** Mobile devices are frequently offline or on slow or expensive connections. **⚠️Key points: **non-IID[1]** and **unbalanced[2]** characteristics in the federated optimization problem, and **key properties in communication constraints**. -The actual deployment of the federal optimization system still has to solve many **practical problems**: 1. Client data sets that **constantly change** as data is added and deleted 2. **The availability of the client (update)** has a complicated relationship with its local data distribution 3. Clients that never **do not respond or send information** will corrupt the update.

この作業では、最適化の非IIDおよび不均衡なプロパティ、および通信制約の重要な性質に重点を置いています。展開されたフェデレーション最適化システムは、無数の実際的な問題にも対処する必要があります。データが追加および削除されると変化するクライアントデータセットは、複雑な方法でローカルデータ分散と相関し、クライアントは応答したり破損した更新を送信したりしません。

Note: These practical problems are beyond the scope of current work. This article uses a controlled environment suitable for experiments, and still solves the key issues of client usability, imbalance and non-IID data. ** >These issues are beyond the scope of the current work instead, we use a controlled environment that is suitable for experiments, but still address the key issues of client availability and unbalanced and non-IID data.
  • 6.最適化の方法(基本的なアイデアと最適化の公式)

    • 実装のアイデア:

      仮定:同期更新スキームは、通信の各ラウンドで実行され、サイズがKのクライアントの固定セットがあり、各クライアントには固定のローカルデータセットがあります。

    1. 更新の各ラウンドの開始時に、一部のクライアントがランダムに選択され、サイズはC-fractionです(比率、C≤1である必要があります)
    2. 次に、サーバーは現在のグローバルアルゴリズムステータスをこれらのクライアントに送信します(たとえば、現在のモデルパラメータ)
    3. 次に、各クライアントはグローバル状態とそのローカルデータセットに基づいてローカル計算を実行し、サーバーに更新を送信します
    4. 最後に、サーバーはこれらの更新をグローバル状態に適用してから、プロセスを繰り返します。

    通信のラウンドで進行する同期更新スキームを想定しています。 K個のクライアントの固定セットがあり、それぞれに固定のローカルデータセットがあります。各ラウンドの開始時に、クライアントのランダムな割合Cが選択され、サーバーは現在のグローバルアルゴリズムの状態をこれらの各クライアントに送信します(たとえば、現在のモデルパラメーター)。次に、各クライアントは、グローバル状態とそのローカルデータセットに基づいてローカル計算を実行し、サーバーに更新を送信します。次に、サーバーはこれらの更新をグローバル状態に適用し、プロセスが繰り返されます。

    • 非凸型ニューラルネットワークの目的関数

    私たちが焦点を当てている間 非凸型ニューラルネットワークの目的 、私たちが考えるアルゴリズムは、次の形式の有限和の目的に適用できます。

    min⁡w∈Rdf(w)、ここでf(w)= def 1 n ∑ i = 1 nfi(w) min _ {w in mathbb {R} ^ {d}} f(w)、 text {where} f(w) stackrel { text {def}} {=} frac {1} {n} sum_ {i = 1} ^ {n} f_ {i}(w)

    機械学習の問題の場合、通常、データがK個のクライアントに分散され、Dkがクライアントのk個のデータポイントのセットを表し、nkがDkのサイズであり、目的関数であると仮定して、fi(w)= L(xi、yiw)を定義します。次のように書き換えることができます:

    f(w)= ∑ k = 1 K nkn F k(w)ここで、F k(w)= 1 nk ∑i∈Pkfi(w)f(w)= sum_ {k = 1} ^ {K} frac {n_ {k}} {n} F_ {k}(w) quad text {where} quad F_ {k}(w)= frac {1} {n_ {k}} sum_ {i mathcal {P} _ {k}} f_ {i}(w)

    除算Dkがすべてのユーザーデータのランダムサンプリングである場合、目的関数f(w)はDkに対する損失関数の期待値と同等です。

    E P k [F k(w)] = f(w) mathbb {E} _ { mathcal {P} _ {k}} left [F_ {k}(w) right] = f(w)

    (これは、従来の分散最適化問題の独立した同一分散の仮定です)

    • 非IID:この方程式が真でない状況を指します(つまり、Fkはfの悪い近似値である可能性があります)

    これが当てはまらない場合(つまり、 Fkはfの任意に悪い近似である可能性があります )非IID設定として。

  • セブン、通信コストと計算コストのバランス

    • データセンターの最適化問題では、通信コストが比較的小さく、コンピューティングコストが支配的です。焦点は、GPUを使用してこれらのコストを削減することです
    • 共同最適化では、一方で、通信コストが支配的です。
    1. 通常、1 MB / s以下で問題が発生します アップロード帯域幅の制限
    2. そして顧客は通常のみ 充電時、プラグイン時、メーターなしWi-Fi接続 最適化への自発的な参加
    3. 各お客様が毎日少数の更新ラウンドにのみ参加することを願っています
    • 一方、計算コストは​​比較的小さいです。
    1. 単一のデバイス上 データセットがデータセットの合計サイズよりも小さい
    2. 現代のスマートフォン 比較的高速なプロセッサを搭載 (GPUを含む)

    ⚠️だから私たちの目標は 追加の計算を使用して、モデルのトレーニングに必要な通信の数を減らします

    • 計算量を追加する2つの方法:
    1. 並列処理を改善する :より多くのクライアントを使用して、各通信ラウンド間で独立して作業する
    2. 各クライアントの計算量を増やします。 勾配計算のような単純な計算を実行する代わりに、各クライアントは各通信ラウンド間でより複雑な計算を実行します。

    ⚠️これら2つの方法を検討しましたが、クライアント側の並列処理の最低レベルを使用すると、 達成されたスピードアップは、主に各クライアントでの計算の追加によるものです

したがって、私たちの目標は、モデルのトレーニングに必要な通信のラウンド数を減らすために、追加の計算を使用することです。 計算を追加する主な方法は2つあります。 1)並列処理の増加、 ここでは、各通信ラウンド間で独立して動作するより多くのクライアントを使用します。 2)各クライアントでの計算の増加 、ここで、各クライアントは、勾配計算のような単純な計算を実行するのではなく、各通信ラウンド間でより複雑な計算を実行します。これらのアプローチの両方を調査しますが、達成するスピードアップは、クライアントに対して最小レベルの並列処理が使用されると、主に各クライアントでより多くの計算を追加することによるものです。

  • 8.関連作業

    • マクドナルドら。ローカルトレーニングモデルを通じて学習しました 分散トレーニングパーセプトロンの反復平均 (2010)Povey etal。勉強した 音声認識用のDNN (2015)Zhang etal。勉強した 「ソフト」平均非同期メソッド (2015)。

    既存の問題: これらのタスクは、クラスター/データセンターの設定(最大16ワーカー、高速ネットワークに基づく実時間)のみを考慮し、不均衡で非IIDのデータセットは考慮しません。このスタイルのアルゴリズムをフェデレーション学習に適した設定に調整し、適切な経験的評価を実行します。これにより、データセンターとは異なる質問が発生し、異なる方法が必要になります。

    ローカルでトレーニングされたモデルを繰り返し平均化することによる分散トレーニングは、マクドナルドらによって研究されています。 (2010)パーセプトロンとPovey etal。 (2015)音声認識DNN用。張ら。 (2015)「ソフト」平均化による非同期アプローチを研究しています。 これらの作業は、クラスター/データセンターの設定のみを考慮します (最大16人のワーカー、高速ネットワークに基づく実時間)、不均衡で非IIDのデータセット、つまりフェデレーション学習設定に不可欠なプロパティは考慮しません。このスタイルのアルゴリズムをフェデレーション設定に適合させ、適切な経験的評価を実行します。これは、データセンター設定に関連する質問とは異なる質問をし、異なる方法論を必要とします。

    • ショクリとシュマティコフの作品には複数のつながりがあります(2015年)。 ディープネットワークのトレーニング 、プライバシーの重要性を強調し、 通信の各ラウンドでパラメータの一部のみを共有することにより、通信コストを解決します

    既存の問題: 不均衡で非IIDのデータは考慮されないため、経験的評価は限られています。

    Shokri and Shmatikov(2015)の作業は、いくつかの点で関連しています。深いネットワークのトレーニングに焦点を当て、プライバシーの重要性を強調し、通信の各ラウンド中にパラメーターのサブセットを共有するだけで通信コストに対処しますが、不均衡で非IIDのデータを考慮せず、経験的評価は限られています。 参照: RezaShokriとVitalyShmatikov。プライバシーを保護するディープラーニング。 CCS、2015年。

    • 凸設定(凸最適化)では、分散最適化と推定の問題が大きな注目を集めています (Balcan et al。、2012 Fercoq et al。、2014 Shamir and Srebro、2014)、および 特定のアルゴリズムは、特に通信効率を対象としています (Shamir et al。、2013 Yang、2013 Ma et al。、2015 Zhang and Xiao、2015)。

    既存の問題: 凸最適化を想定すると、これらの既存の作業には通常、クライアントの数も必要です。

    凸型の設定では、分散最適化と推定の問題が大きな注目を集めており(Balcan et al。、2012 Fercoq et al。、2014 Shamir and Srebro、2014)、一部のアルゴリズムは特に通信効率に焦点を当てています(Shamir etal。 、2013 Yang、2013 Ma et al。、2015 Zhang and Xiao、2015)。凸性を想定することに加えて、この既存の作業では、一般に、クライアントの数がクライアントあたりの例の数よりもはるかに少なく、データがIID方式でクライアントに分散され、各ノードに同じ数のデータポイントがあることが必要です。 —フェデレーション最適化設定では、これらのすべての仮定に違反しています。

    • SGDの非同期分散形式は、Dean etalなどのニューラルネットワークのトレーニングにも使用されています。 (2012)、しかしこれらの方法は連合学習において多くの更新を必要とします。
    • 多くの(パラメータ化された)アルゴリズムの中で、最終的に検討するのは単純な1回限りの平均です。 単純なワンショット平均 、各顧客がモデルを解決してローカルデータ(おそらく正則化)の損失を最小限に抑え、次にこれらのモデルを平均して最終的なグローバルモデルを生成します。この方法は、IIDデータを使用した凸型の場合に広く研究されています。最悪の場合、生成されたグローバルモデルは、単一のクライアントでモデルをトレーニングするよりも優れていないことはよく知られています(Zhang et al。、2012 Arjevani and Shamir、2015 Zinkevich et al。、2010)。

    SGDの非同期分散形式は、ニューラルネットワークのトレーニングにも適用されています(例:Dean et al。)。 (2012)が、これらのアプローチでは、フェデレーション設定で法外な数の更新が必要です。私たちが検討する(パラメータ化された)アルゴリズムファミリの1つのエンドポイントは次のとおりです。 単純なワンショット平均 ここで、各クライアントは、ローカルデータの(場合によっては正則化された)損失を最小限に抑えるモデルを解決し、これらのモデルを平均して最終的なグローバルモデルを作成します。このアプローチは、IIDデータを使用した凸型のケースで広く研究されており、最悪の場合、生成されるグローバルモデルは、単一のクライアントでモデルをトレーニングするよりも優れていることが知られています(Zhang et al。、2012 Arjevani and Shamir 、2015 Zinkevich et al。、2010)。

  • 9、FederatedAveraging(FedAvg)アルゴリズム

    • 確率的勾配降下法の重要性
    1. ディープラーニングの最新の成功したアプリケーションは、ほとんどすべてに依存しています 確率的勾配降下法(SGD) バリアントの最適化
    2. 実際、多くの開発は、モデルの構造(または損失関数)を調整して、単純な勾配ベースの方法を使用して最適化するのを容易にすることとして理解できます(Goodfellow et al。、2016)。

    したがって、 SGDから開始して、フェデレーション最適化のアルゴリズムを構築します

    ディープラーニングの最近の多数の成功したアプリケーションは、実際、最適化のために確率的勾配降下法(SGD)のバリアントにほぼ独占的に依存しており、多くの進歩は、モデルの構造(したがって損失関数)をより受け入れやすくすることとして理解できます。単純な勾配ベースの方法による最適化(Goodfellow et al。、2016)。したがって、SGDから開始して、フェデレーション最適化のアルゴリズムを構築するのは当然です。

    • ベースラインアルゴリズム-FederatedSGD(FedSGD)

    直感的な方法: SGDは、フェデレーション最適化に直接適用できます。つまり、すべてのラウンドで適用できます。 ランダムに選択されたクライアントで勾配計算を実行します

    問題: 計算効率は非常に高く、 しかし、良いモデルを生成するには、多くのトレーニングが必要です。

    SGDは、フェデレーション最適化問題に単純に適用できます。 単一バッチ勾配計算 (たとえば、ランダムに選択されたクライアントで)通信のラウンドごとに実行されます。このアプローチは計算効率が高いですが、優れたモデルを作成するには非常に多くのトレーニングラウンドが必要です(たとえば、バッチ正規化、Ioffe and Szegedy(2015)などの高度なアプローチを使用する場合でも サイズ60のミニバッチで50000ステップのトレーニングを受けたMNIST )。私達 CIFAR-10実験では、このベースラインを考慮してください。

    ベースラインアルゴリズム:SGDを一括で同期する (実験によると、非同期方式よりもデータセンターで最も進んでいます)。

    FLフォーム: 各ラウンドで、クライアントのCフラクションを選択し、これらのクライアントのすべてのデータの損失関数の勾配を計算します。

    パラメータC: 制御グローバルバッチサイズC = 1は、完全なバッチ(非ランダム)勾配降下を意味します。

    フェデレーション設定では、 より多くのクライアントを巻き込むための実時間のコストはほとんどありません 、そして私たちのベースラインについては 大規模な同期SGDを使用する による実験 Chen etal。 (2016)は、このアプローチがデータセンター設定の最先端であり、非同期アプローチよりも優れていることを示しています。 フェデレーション設定でこのアプローチを適用するために、各ラウンドでクライアントのCフラクションを選択し、これらのクライアントが保持するすべてのデータの損失の勾配を計算します。したがって、Cはグローバルバッチサイズを制御し、C = 1はフルバッチ(非確率的)勾配降下法に対応します。 このベースラインアルゴリズムをFederatedSGD(またはFedSGD)と呼びます。

    • FedSGD対。 FedAvg
      (これは、FedSGDとFedAvgの関係についての私自身の理解です)
      画像

    主な違い: FedAvgは、ユーザーのFedSGDと同等です 複数のローカルグラデーションの更新

    主なパラメータ:C、B、E

    B =∞: minibatch =ユーザーのすべてのローカルデータを表します

    B =∞&E = 1: FedAvgはFedSGDと同等です

    計算量は、3つの主要なパラメータによって制御されます。C、各ラウンドで計算を実行するクライアントの割合E、各クライアントが各ラウンドでローカルデータセットに対して行うトレーニングパスの数、およびB、に使用されるローカルミニバッチサイズクライアントの更新。完全なローカルデータセットが単一のミニバッチとして扱われることを示すために、B =∞と記述します。したがって、このアルゴリズムファミリの1つのエンドポイントで、FedSGDに正確に対応するB =∞およびE = 1を取ることができます。完全な擬似コードはアルゴリズム1で与えられます。

    • モデル平均効果分析

    一般的な非凸目的関数の場合、 パラメータ空間の平均モデルは、任意に悪いモデル結果を生成する可能性があります 。 Goodfellowらの方法によると。 (2015)、平均して2つ さまざまな初期条件からトレーニングする MNIST数字認識モデルを使用すると、この悪い結果が発生しました(図1、左)。注:「2NN」多層パーセプトロンモデルを使用してください。
    [、、(img-KkOfU8JO-1581922280021)(Google%20Federated%20Learning / Untitled%201.png)]
    最近の研究では、実際には、十分なハイパーパラメータを備えたニューラルネットワークがうまく機能し、極小値が悪い可能性が低いことが示されています(Dauphin et al。、2014 Goodfellow et al。、2015 Choromanska et al。、2015)。

    から 同じランダムな初期化 2つのモデルから始めて、異なるデータサブセットで各モデルを個別にトレーニングします。 単純なパラメータは平均的に効果的です (写真1、右)。

    • ドロップアウトトレーニングとの関係

    ドロップアウトトレーニング また、モデルの平均についての直感も提供します。

    ドロップアウトトレーニング これは、「異なるアーキテクチャ(クライアント)の共有パラメータの平均モデル」として理解できます。

    ドロップアウトトレーニングの成功は、モデル平均化スキームの成功についての直感も提供します。ドロップアウトトレーニングは次のように解釈できます。 パラメータを共有するさまざまなアーキテクチャのモデルの平均化 、およびモデルパラメータの推論時間スケーリングは、FedAvgで使用されるモデル平均化に類似しています(Srivastava et al。、2014)。

  • 10.実験結果

    • 仕事: 画像分類、言語モデリングタスク
    • データセット:
    1. 最初に1つ選択してください 適度なサイズのプロキシデータセット 、FedAvgアルゴリズムのハイパーパラメータを徹底的に調査できるようにします。 (各トレーニングの規模は比較的小さいですが、これらの実験のために2,000を超える個別のモデルをトレーニングしました。)
    2. 次に紹介します ベンチマークCIFAR-10画像分類タスク 結果として。
    3. FedAvgがデータの自然なパーティションにあることを証明するため 実用的な問題 の有効性 大規模な言語モデリングタスク
    • モデル設定(2つのデータセット上の3つのモデルファミリ)

    • MINIST数字認識用2つ(画像分類)

      モデル1:単純な多層パーセプトロン

      ReLuアクティベーション(合計パラメーター199,210)を使用する200ユニットの2つの隠れ層を持つ単純な多層パーセプトロン。これをMNISTと呼びます。

      モデル2:CNN

      2つの5×5畳み込み層(最初は32チャネル、2番目は64チャネル、それぞれに2×2の最大プーリングが続く)を備えたCNN、完全に接続された層
      512ユニットとReLuアクティベーション、および最終的なソフトマックス出力レイヤー(合計パラメーター1,663,370)。

      2つのデータ分割(IIDと非IID)

      IID:100のクライアントでデータを中断し、各クライアントには平均600の例があります

      非IID:番号ラベル(0〜9)に従ってデータを並べ替えてから、サイズが300の200個の「セグメント」に分割してから、100個のクライアントに2個の「セグメント」を割り当てます。 (1人あたり600個のデータ、および最大2つのデータのデジタルラベル)

      私たちは勉強します クライアント上でMNISTデータを分割する2つの方法IID、 データはどこにありますか シャッフル 、その後100クライアントに分割 それぞれが600の例を受け取ります 、および 非IID 、私たちが最初に 数字ラベルでデータを並べ替える 、サイズ300の200個の破片に分割し、 100個のクライアントのそれぞれに2つのシャードを割り当てます 。ほとんどのクライアントには2桁の例しかないため、これはデータの病理学的な非IIDパーティションです。したがって、これにより、アルゴリズムが非IIDデータでどの程度壊れるかを調べることができます。これらのパーティションは両方とも バランスが取れていますが

    • シェイクスピア全集の言語モデリング

      データセット: ウィリアムシェイクスピア全集

      データ分割: 各プレイのキャラクターごとに少なくとも2行の顧客データセットを作成します。

      合計 1146クライアント (役割)、各クライアントは持っています トレーニング行データの80% 、と テスト行データの20% トレーニングセットには3,564,579文字、テストセットには870,014文字があります。

      データは基本的に 不均衡 、多くの文字には数行しかなく、一部の文字には多くの行があります テストセットはランダムサンプルではありません 、ただし、各スクリプトは、行を時系列でトレーニングセットとテストセットに分割します。

      また、同じトレーニング/テスト分割を使用して、 また、データセットのバランスの取れたIIDバージョンを構築しました 、1146のクライアントがあります。

      言語モデリングについては、ウィリアムシェイクスピア全集からデータセットを作成しました。少なくとも2行で、各プレイの各スピーキングロールのクライアントデータセットを構築します。これにより、次のデータセットが作成されました 1146クライアント。

      モデルデザイン: スタックされた文字レベルのLSTM言語モデル

      仕事: 行の各文字を読み取った後、次の文字が予測されます(Kim et al。、2015)。

      モデル 一連の文字を入力として受け取ります そして これらのそれぞれを学習した8次元空間に埋め込みます 。埋め込まれた文字は、 それぞれ256ノードの2つのLSTMレイヤー 。最後に、2番目のLSTMレイヤーの出力が softmax出力層 文字ごとに1つのノードがあります。フルモデルには866,578個のパラメーターがあり、80文字の展開長を使用してトレーニングしました。

    • 特記事項:SGDは、学習率パラメーターηの調整に非常に敏感です。

    SGDは、学習率パラメーターηの調整に敏感です。ここで報告される結果は、学習率の十分に広いグリッド(通常、解像度10 ^ -3または10 ^ -6の乗法グリッド上のηの11〜13の値)でのトレーニングに基づいています。最高の学習率がグリッドの中央にあり、最高の学習率の間に有意差がないことを確認しました。 特に明記されていない限り、x軸の値ごとに個別に選択された最高のパフォーマンス率のメトリックをプロットします。 最適な学習率は、他のパラメーターの関数としてあまり変化しないことがわかります。

    • 実験結果
    • 並列処理の増加
    • クライアントあたりの計算量の増加
      -実験部分はまだ終了しておらず、更新される予定です