Можем ли мы начать новый поток в foreachRDD в потоковой передаче искры?

Я хочу запустить дочерний поток в foreachRDD.

Моя ситуация:

задание постоянно читает из каталога hdfs, и каждые 100 пакетов я хочу запустить задачу обучения модели (в это время я сделаю снимок rdds и запущу задачу обучения. задача обучения занимает очень много времени ( 2 часа), и я не хочу, чтобы обучающая задача влияла на чтение нового пакета данных.

Является ли запуск нового дочернего потока хорошим решением? Может ли дочерний поток использовать SparkContext в основном потоке и использовать rdd в основном потоке?

apache-spark spark-streaming

11.05.2015

Подойдет ли вам встроенная асинхронная обработка? : spark.apache .org/docs/1.3.0/api/scala/ 11.05.2015
не лучше ли вместо этого запускать пакетное задание spark каждые 2 часа? 12.05.2015
@maasg, потому что данные довольно большие, загрузка их с диска займет 1 час. Я думаю, что это пустая трата дискового ввода-вывода и задержит задачу... 12.05.2015
@JustinPihony спасибо, но это действие rsync rdd слишком простое. Мне нужно запустить обучение модели в mllib... 12.05.2015
@user2848932 user2848932 Насколько велики данные? Вы планируете держать это в памяти в течение нескольких часов? 12.05.2015
@maasg да, я буду хранить в памяти данные за один месяц, около нескольких ТБ (старые данные за один месяц + 100 пакетов новых данных). Я не хочу загружать их каждые два часа... 12.05.2015

Ответы:

Вам не нужно запускать новый поток в операциях RDD. Чтобы запускать новое задание в каждой сотне пакетов, вы можете добавить BatchListner для подсчета количества пакетов и запускать новое задание, когда число равно 100. Пример пакетного прослушивания

21.09.2017

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Neural Networks Developer Computer Science NLP