Невозможно прочитать локальный файл в Pig

Я использовал Pig (установленный из Cloudera) в «локальном режиме», а не в режиме MapReduce. Скрипты отлично работали на моем ноутбуке (Mac OS). Но когда я пытаюсь использовать Pig на сервере AWS, Pig не может прочитать или записать файл.

Вот команды Pig:

$ pwd
/root/ert/test

$ pig -x local -l /tmp

grunt> pwd
file:/root/ert/test
grunt> ls
file:/root/ert/test/t.pig<r 1>  1697
file:/root/ert/test/test5.csv<r 1>  330
file:/root/ert/test/test5.pig<r 1>  120
file:/root/ert/test/test5.tsv<r 1>  293

grunt>  testdata    = load 'test5.tsv' as (name:chararray, lob:chararray, date:chararray);

Файл входных данных (test5.tsv) находится в текущем каталоге, и его содержимое:

John    WIRELESS    2014-01-01 00:30:15
Doe TELECOM 2014-02-02 00:30:15
NYC WIRELESS    2014-03-03 00:30:15
Chicago WIRELINE    2014-04-04 00:30:15
SanFrancisco    WIRELESS    2014-05-05 00:30:15

Ошибка, которую я получаю:

Input(s):
Failed to read data from "file:///root/ert/test/test5.tsv"

Output(s):
Failed to produce result in "file:/tmp/temp-1810274881/tmp1793050127"

Я установил только Pig, используя yum ($ yum install pig) с репозиторием Cloudera CDH5. Я читал в Интернете, что это может быть связано с правами на чтение и запись в «промежуточном» каталоге, но понятия не имею, какой это промежуточный каталог.

Pig изначально жаловался на отсутствие HBase. После установки HBase эти ошибки прекратились, но по-прежнему не удалось прочитать входной файл.

apache-pig

22.07.2014

Не могли бы вы показать вывод pwd и ls из grunt? 23.07.2014
Я обновил свою исходную публикацию, указав запрошенные вами результаты. Команды ls и pwd отлично работают с grunt 23.07.2014
Возможно ли, что свинья ищет файл в HDFS, хотя я использовал опцию -x local при входе в оболочку свиньи? Вот сообщение, которое я вижу при выполнении команды pig -x local: .... [main] INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: file:/// ..... 23.07.2014

Ответы:

Мой коллега разобрался с проблемой. В сообщениях Java было скрыто следующее сообщение: java.net.UnknownHostException: <host name>.local: <host name>.local. Он создал файл /opt/mapr/hostname и сохранил там имя хоста, а также обновил файл /etc/hosts и указал значение localhost. Это решило проблему.

23.07.2014

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Neural Networks Developer Computer Science NLP