В настоящее время я работаю над мультикластером с четырьмя узлами. Может ли кто-нибудь предложить мне подходящий размер блока для работы с входным файлом размером 22 ГБ? Заранее спасибо.
Вот мои результаты производительности: 64М - 32 мин. 128М - 19,4 мин 256М - 15 мин
Теперь, должен ли я подумать о том, чтобы увеличить его до 1 ГБ / 2 ГБ? Пожалуйста, объясните, если есть какие-либо проблемы, если это сделано.
Изменить: Кроме того, если производительность увеличивается с увеличением размера блока для входного файла размером 20 ГБ, почему размер блока по умолчанию составляет 64 МБ или 128 МБ? Пожалуйста, ответьте на аналогичный вопрос здесь