Я делаю следующий процесс
rdd.toDF.write.mode(SaveMode.Append).partitionBy("Some Column").parquet(output_path)
Однако в каждом разделе слишком много файлов паркета, и каждый из них имеет очень маленький размер, из-за чего мои следующие шаги будут очень медленными для загрузки всех файлов паркета. Есть ли лучший способ для каждого раздела сделать меньше файлов паркета и увеличить размер одного файла паркета?