Nano Hash - криптовалюты, майнинг, программирование

Обработка данных PIG

У меня есть следующее требование. Пожалуйста, помогите мне, как я могу обработать его с помощью apache pig?

ВВОД:

**

SYSTEM IP : 1.1.1.1

KERNEL : CENT OS

UP TIME : 0.00 , 0.00

**

IP-адрес системы: 2.2.2.2

ЯДРО: ЦЕНТР ОС

ВРЕМЯ РАБОТЫ: 0,00, 0,00

Ожидаемый результат:

SYSTEM IP : 1.1.1.1|KERNEL : CENT OS|UP TIME : 0.00 , 0.00

SYSTEM IP : 2.2.2.2|KERNEL : CENT OS|UP TIME : 0.00 , 0.00
08.09.2016

  • является ** частью вашего входного файла или чем-то, что вы использовали для различения двух наборов. 08.09.2016
  • Для различения двух множеств 08.09.2016
  • Как вы планируете различать их при обработке входного файла? 08.09.2016
  • Каждый набор записей начинается с ** , поэтому, если я могу проверить от одного ** к другому ** и взять набор и сделать его одной строкой, используя разделитель каналов, и в этом цикле я сделаю то же самое для другого набора, но вещь Я не могу реализовать это, потому что всего пару дней я изучил Pig. 09.09.2016

Ответы:


1

Основываясь на вашем вводе, я думаю, что мы могли бы решить эту проблему, написав собственный загрузчик, который читает входной файл с ** в качестве разделителя записи. Поэтому, когда у вас есть запись в отношении Pig, она представляет любой контент, который у вас есть между «**».

09.09.2016
  • Что я не умею писать. Не могли бы вы поделиться кодом? а также я хочу сделать запись, которая находится между **. 09.09.2016
  • У меня нет кода для этого. :-| , я думаю, вам придется потратить некоторое время на чтение документации и выяснение того, как написать собственный загрузчик. 09.09.2016
  • Ok . Я попробую . 10.09.2016
  • Хорошо, я использовал группу по всем, и у меня есть следующий вывод (все, {(Информация о дистрибутиве: CentOS, выпуск 6.5 (Final)), (IP-адрес СИСТЕМЫ: 1.1.1.1),(), (), (Информация о дистрибутиве: CentOS выпуск 6.5 (Final)),(SYSTEM IP:2.2.2.2 ),(),()}) так как я могу разделить с помощью ** и сделать каждую запись в новой строке? 12.09.2016
  • ИМХО, за создание записи отвечает функция загрузчика. Код, который вы в конечном итоге напишете (может быть UDF, который обрабатывает группу кортежей), может быть похож на loader. Это может быть полезно для вас, если вы выясните это вместо того, чтобы выполнять группировку и обрабатывать ее. Другой вариант уклониться от Loader — это обработать ввод с помощью сценария оболочки, чтобы объединить строки между *** в одну. 12.09.2016
  • Хорошо, я получил эту часть. Вы подключили aws elasticsearch к apache pig? 14.09.2016
  • Новые материалы

    Кластеризация: более глубокий взгляд
    Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

    Как написать эффективное резюме
    Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

    Частный метод Python: улучшение инкапсуляции и безопасности
    Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

    Как я автоматизирую тестирование с помощью Jest
    Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

    Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
    Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

    Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
    В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

    Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
    В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..