Apache Spark
私が見ているように、パーティションが大きすぎるという問題があります(おそらくデータが大きいため)いくつかのアプローチを試すことができます:spark.sql.shuffle.partitionsを次のように定義してみてください
o.a.s.mllibには古いRDDベースのAPIが含まれ、o.a.s.mlにはデータセットとMLパイプラインを中心とした新しいAPIビルドが含まれています。 mlとmllibは2.0.0とmで機能パリティに達しました
ついに!これはSpark2.3.0の機能になりました:SPARK-20236これを使用するには、spark.sql.sources.partitionOverwriteMode設定を動的なデータに設定する必要があります
Spark 1.5以降、次のソリューションが適用可能です。以下の場合://日付が2015-03-14未満のデータをフィルター処理しますdata.filter(data( 'date')。lt(li