Я хочу, чтобы задание Samza выполнялось в удаленной системе, а задание Samza хранилось в HDFS. Пример (https://samza.apache.org/startup/hello-samza/0.7.0/) для выполнения задания Samza на угольной машине включает создание tar-файла, затем распаковку tar-файла, а затем запуск сценария оболочки, который находится в tar-файле.
Пример здесь для HDFS вообще плохо документирован (https://samza.apache.org/learn/tutorials/0.7.0/deploy-samza-job-from-hdfs.html). В нем говорится скопировать файл tar в HDFS, а затем выполнить другие шаги в примере без HDFS.
Это означает, что tar-файл, который сейчас находится в HDFS, необходимо распаковать в HDFS, а затем запустить сценарий оболочки для этого разархивированного tar-файла. Но вы не можете распаковать tar-файл HDFS с помощью оболочки Hadoop fs...
Без распаковки tar-файла у вас не будет доступа к run-job.sh для запуска задания Samza.
Кому-нибудь удалось заставить это работать, пожалуйста?
run-job.sh
), иметь работающий менеджер ресурсов? 01.11.2015yarn.resourcemanager.hostname
вyarn-site.xml
? 03.11.2015hadoop1
в качестве имени хоста, и у нас есть перевод на IP во всех/etc/hosts
файлах на всех серверах. 03.11.2015