Nano Hash - криптовалюты, майнинг, программирование

Сохраните искровой RDD в локальной файловой системе с помощью Java.

У меня есть RDD, созданный с помощью Spark. Теперь, если я запишу этот RDD в CSV-файл, мне будут предоставлены некоторые методы, такие как «saveAsTextFile()», которые выводят CSV-файл в HDFS.

Я хочу записать файл в свою локальную файловую систему, чтобы мой процесс SSIS мог выбирать файлы из системы и загружать их в БД.

В настоящее время я не могу использовать sqoop.

Возможно ли это где-то в Java, кроме написания сценариев оболочки для этого.

Любая необходимая ясность, пожалуйста, дайте знать.


  • Не уверен в каком-либо методе Spark для этого. Но вы всегда можете открыть поток вывода файлов, выполнить итерацию по RDD и сохранить его в файле. Старый добрый Java-способ! 06.07.2015
  • Эй, какой путь вы используете в методе saveAsTextFile() ?? вы можете предоставить фрагмент кода.. 06.07.2015
  • Я пробовал следующие пути: - hdfs://hadoop/bigdata/ Это сохраняет файл в hdfs - Также пробовал с этим, где я скопировал абсолютный путь к файлу /kanav/output/. Это возвращает без ошибок, но также не создает никакого файла. 06.07.2015
  • абсолютный путь должен начинаться с файла:///, как показано в ответе ниже 06.07.2015

Ответы:


1

saveAsTextFile может принимать пути локальной файловой системы (например, file:///tmp/magic/...). Однако, если вы работаете в распределенном кластере, скорее всего, вы захотите collect() верните данные обратно в кластер, а затем сохраните их стандартными файловыми операциями.

06.07.2015
  • хорошо. этот метод передачи параметра с помощью file:/// успешно возвращается с файлом _SUCCESS, но выходные файлы не видны. Я запускаю его в распределенном кластере, однако моих данных так много, что вызов collect() ограничивает JVM. 06.07.2015
  • Если ваш файл слишком велик для одной машины, нет особого смысла сохранять его локально вместо hdfs или другой распределенной файловой системы. 06.07.2015
  • Не размер файла, а количество файлов в значительной степени. Мой процесс фактически предназначен для обработки около 400 ГБ данных в час. @holden На данный момент мне удалось сделать это с помощью FileSystem.copyToLocalFile(). Я должен проверить его в течение дня на достоверность, и я хотел бы больше информации. 06.07.2015
  • @holden Дайте мне знать, если мой подход нуждается в изменении. 06.07.2015
  • Если ваши данные слишком велики для драйвера, вам нужно будет либо сохранить данные в HDFS (или аналогичную распределенную файловую систему), либо, если вы действительно хотите сохранить их в драйвере, используйте toLocalIterator (но не забудьте кэшировать RDD заранее) потребуется ровно столько памяти, сколько самому большому разделу. 06.07.2015
  • В этом ответе отсутствует код для сохранения этого с помощью стандартных операций с файлами. 16.09.2015
  • Новые материалы

    Кластеризация: более глубокий взгляд
    Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

    Как написать эффективное резюме
    Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

    Частный метод Python: улучшение инкапсуляции и безопасности
    Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

    Как я автоматизирую тестирование с помощью Jest
    Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

    Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
    Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

    Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
    В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

    Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
    В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..