Я хочу запустить дочерний поток в foreachRDD.
Моя ситуация:
задание постоянно читает из каталога hdfs, и каждые 100 пакетов я хочу запустить задачу обучения модели (в это время я сделаю снимок rdds и запущу задачу обучения. задача обучения занимает очень много времени ( 2 часа), и я не хочу, чтобы обучающая задача влияла на чтение нового пакета данных.
Является ли запуск нового дочернего потока хорошим решением? Может ли дочерний поток использовать SparkContext в основном потоке и использовать rdd в основном потоке?