Я играю с некоторыми данными в кластере и хочу выполнить некоторые агрегации --- ничего сложного, но сложнее, чем сумма, есть несколько объединений и подсчет различных. Я реализовал эту агрегацию в Hive и Spark с помощью Scala и хочу сравнить время выполнения.
Когда я отправляю сценарии из шлюза, функции времени Linux дают мне реальное время меньше, чем системное время, как я и ожидал. Но я не уверен, какой из них выбрать для правильного сравнения. Может быть, просто использовать sys.time и выполнить оба запроса несколько раз? Это приемлемо или я полный нуб в этом случае?