分散型ディープラーニングCaffeOnSpark



Distributed Deep Learning Caffeonspark



CaffeOnSparkの詳細な紹介

多くの既存のDLフレームワークでは、ディープラーニング用に個別のクラスターが必要であり、一般的な機械学習パイプラインでは、複雑なプログラムを作成する必要があります(図1を参照)。個別のクラスターでは、クラスター間で大規模なデータセットを転送する必要があるため、システムの複雑さとエンドツーエンドの学習の遅延は招かれません。



図1クラスター上の複雑なプログラムを分離するMLパイプライン


Yahooは、ディープラーニングは、機能エンジニアリングと従来の(非ディープ)機械学習をサポートする既存のデータ処理パイプラインと同じクラスターにあるべきだと考えています。 CaffeOnSparkは、ディープラーニングのトレーニングとテストをSparkアプリケーションに組み込むことができるように作成されました(図2)。



図2単一クラスター上の単一プログラムのMLパイプライン


CaffeOnSpark:APIと構成およびCLI

CaffeOnSparkは、Sparkディープラーニングパッケージとして設計されています。 Spark MLlibは、分類、回帰、クラスタリング、推奨などのさまざまな非深層学習アルゴリズムをサポートしていますが、現在、深層学習の主要な機能が不足しており、CaffeOnSparkはこのギャップを埋めることを目指しています。 CaffeOnSpark API Sparkアプリケーションをすぐに使用できるトレーニングデータセットに簡単に接続できるデータフレームをサポートし、MLLibまたはSQLデータ分析用のモデル予測または中間層の特徴を抽出します。



図3CaffeOnSparkがSparkディープラーニングパッケージになります

システム構造:

CaffeOnSparkシステムアーキテクチャを図4に示します(前のものと比較して変更はありません)。 Spark executorでは、Caffeエンジンは、きめ細かいメモリ管理のJNIレイヤーを呼び出すことにより、GPUデバイスまたはCPUデバイス上にあります。従来のSparkアプリケーションとは異なり、CaffeOnSparkエグゼキューターは、MPIallreduceスタイルのインターフェイスおよびTCP /イーサネットまたはRDMA / Infinibandを介して通信します。このSpark + MPIアーキテクチャにより、CaffeOnSparkは専用のディープラーニングクラスターと同様のパフォーマンスを実現できます。

ディープラーニングの仕事の多くは長期的な運用であり、潜在的なシステム障害に対処することが重要です。 CaffeOnSparkは、定期的なスナップショットトレーニングステータスをサポートしているため、ジョブが失敗した後、以前の状態に復元できます。 A

Yahooは複数のプロジェクトでCaffeOnSparkを使用しています。たとえば、Flickrチームは、画像認識の精度を大幅に向上させるために、数百万枚の写真を使用してHadoopクラスターでCaffeOnSparkをトレーニングしました。ディープラーニングの研究者は、AWSEC2クラウドまたは自作のSparkクラスターでCaffeOnSparkをテストできるようになりました。


それでもJavaエンジニアリング、高性能、分散型、理解しやすいものを学びたい場合。パフォーマンスチューニング、Spring、MyBatis、Nettyソースコード分析、その他の知識ポイントが私に伝わります。

そして今、私はあなたが学び、実践の経験を蓄積し、原則を習得するためのプラットフォームを持っています。主な方向性はJAVAアーキテクトです。高給を取得したい、ボトルネックを突破したい、他の人と競争してアドバンテージを得たい、BATに参加したいが面接が心配な場合は、私のJavaアーキテクチャ上級グループを追加できます:514790886

注:グループ要件を追加する

1.現在人気のあるテクノロジーに直面してどこから始めればよいかわからず、技術的なボトルネックを突破する必要がある2〜5人の実務経験を持つ人を追加できます。

2.久しぶりの会社生活はとても快適でしたが、転職時に面接が壁にぶつかりました。短期間で勉強して転職する必要がある人は、より高い給料を得ることができます。

3.作業経験がないが、基盤が非常にしっかりしている場合は、Java作業メカニズム、一般的な設計アイデア、および一般的なJava開発フレームワークに追加できます。

4.私はとても良いと感じています。私は一般的なニーズを得ることができます。しかし、学んだ知識のポイントは体系的ではなく、技術分野で突破を続けることは困難です。

5.アリババジャバのシニアダニエルライブブロードキャストで、知識のポイントを説明し、知識を共有し、長年の実務経験を整理して要約し、すべての人に独自の技術システムと技術認識を包括的かつ科学的に確立させます。

6.トランペットとグループはこれまでに与えられていません、ありがとう。