【SparkJavaAPI】Transformation（13）—zipWithIndex、zipWithUniqueId

Spark Java Api Transformation Zipwithindex Zipwithuniqueid

公式文書の説明：

Zips this RDD with generated unique Long ids. Items in the kth partition will get ids k, n+k,2*n+k, ..., where n is the number of partitions. So there may exist gaps, but this method won't trigger a spark job, which is different from [[org.apache.spark.rdd.RDD#zipWithIndex]].

関数プロトタイプ：

def zipWithUniqueId(): JavaPairRDD[T, JLong]

この関数は、RDDの要素と対応する一意のIDをキーと値のペアに結合します。ここで、ID生成アルゴリズムは、各パーティションの最初の要素のIDがパーティションのインデックス番号であり、各パーティションのN番目の要素がIDは（N * RDDのパーティションの総数）+（パーティションインデックス番号）です。

ソースコード分析：

def zipWithUniqueId(): RDD[(T, Long)] = withScope { val n = this.partitions.length.toLong this.mapPartitionsWithIndex { case (k, iter) => iter.zipWithIndex.map { case (item, i) => (item, i * n + k) } } }

ソースコードからわかるように、zipWithUniqueId（）関数はmapPartitionsWithIndex（）関数を使用して各要素のパーティションインデックス番号を取得し、対応する計算に（i * n + k）を使用します。

例：

List data = Arrays.asList(5, 1, 1, 4, 4, 2, 2) JavaRDD javaRDD = javaSparkContext.parallelize(data,3) List data1 = Arrays.asList(3,2,12,5,6,1,7) JavaRDD javaRDD1 = javaSparkContext.parallelize(data1) JavaPairRDD zipWithIndexRDD = javaRDD.zipWithUniqueId() System.out.println('~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~' + zipWithIndexRDD.collect())

【SparkJavaAPI】Transformation（13）—zipWithIndex、zipWithUniqueId

公式文書の説明：

関数プロトタイプ：

ソースコード分析：

例：

カテゴリー

興味深い記事

Pythonの例の説明-wxpythonの基本的なコントロール（ボタン）

ループと高度な文字列関数を備えた拡張可能なマクロ？

AndroidADBサーバーの起動に失敗しました 'adbサーバーから正常に読み取れませんでした'

Mysqlのインストールが表示されます===========サービスのインストール/削除が拒否されました

Pycharmを使用してPythonプログラムにパラメーターを渡します

DellR710ブートプロンプトiDRAC6通信障害IPMI

VMwareについてVMwareAuthorizationServiceを開始できませんでした

ゼロからのWTLエントリチュートリアル（3）WTLウィンドウの描画、ダブルバッファリング

JEECGオープンソースの説明JEECGは完全にオープンソースであり、費用はかからず、ビジネスに使用できます。

人気の投稿