Nano Hash - криптовалюты, майнинг, программирование

Кластер Slurm в облаке Google: данные в смонтированном каталоге в контроллере / узле входа недоступны на вычислительных узлах

Я создал кластер slurm, следуя этому руководству. . Я также создал корзину данных, в которой хранятся некоторые данные, к которым необходимо получить доступ на вычислительных узлах. Поскольку вычислительные узлы используют общий домашний каталог узла входа в систему, я смонтировал корзину в своем узле входа, используя gcsfuse. Однако, если я выполню простой скрипт test.py, который печатает содержимое смонтированного каталога, он просто пуст. Папка там же, как и файл python.

Есть ли что-то, что я должен указать в файле конфигурации yaml, что позволяет получить доступ к смонтированному каталогу?

Я записал шаги, которые я предпринял, чтобы смонтировать каталог:

При создании кластера Slurm с использованием

gcloud deployment-manager deployments create google1 --config slurm-cluster.yaml

Важно, чтобы узел, который должен монтировать каталог хранилища, имел достаточные разрешения. Укажите / добавьте следующее в файл slurm-cluster.yaml, если ваш узел входа должен монтировать данные. (Сделайте то же самое только с узлом контроллера, если хотите).

login_node_scopes          :
     - https://www.googleapis.com/auth/devstorage.read_write

Затем войдите в узел входа и установите gcsfuse. После установки gcsfuse вы можете смонтировать бакет, используя следующую команду

gcsfuse --implicit-dirs <BUCKET-NAME> target/folder/

Обратите внимание: учетная запись службы, которая подключается к вашей виртуальной машине, должна иметь права доступа к корзине. Вы можете найти имя учетной записи службы в сведениях о вашей виртуальной машине в облачной консоли или выполнив следующую команду на виртуальной машине:

gcloud auth list

Ответы:


1

У меня только что работает аналогичная установка. У меня нет однозначного ответа на вопрос, почему вашего нет, но несколько замечаний:

  • gcsfuse установлен по умолчанию, нет необходимости устанавливать его явно.
  • Вам нужно дождаться полного завершения установки Slurm, прежде чем корзина станет доступной.
  • Кажется, нужен devstorage.read_write.
  • У меня есть следующее под login_machine_type в файле yaml:
network_storage        :
- server_ip: none
  remote_mount: mybucket
  local_mount: /data
  fs_type: gcsfuse
  mount_options: file_mode=664,dir_mode=775,allow_other
09.11.2020
  • Я больше не работаю с этим, но ответ может быть полезен другим, так что спасибо! 10.11.2020
  • @bolind вы монтируете и к контроллеру, и к логину? 03.03.2021
  • Да, если используется network_storage, общий ресурс NFS монтируется повсюду: логин, контроллер и вычислительные узлы. Если вы используете login_network_storage, он монтируется только на узле входа в систему. 09.03.2021
  • Новые материалы

    Кластеризация: более глубокий взгляд
    Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

    Как написать эффективное резюме
    Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

    Частный метод Python: улучшение инкапсуляции и безопасности
    Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

    Как я автоматизирую тестирование с помощью Jest
    Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

    Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
    Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

    Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
    В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

    Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
    В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..