Обработка данных PIG

У меня есть следующее требование. Пожалуйста, помогите мне, как я могу обработать его с помощью apache pig?

ВВОД:

**

SYSTEM IP : 1.1.1.1

KERNEL : CENT OS

UP TIME : 0.00 , 0.00

**

IP-адрес системы: 2.2.2.2

ЯДРО: ЦЕНТР ОС

ВРЕМЯ РАБОТЫ: 0,00, 0,00

Ожидаемый результат:

SYSTEM IP : 1.1.1.1|KERNEL : CENT OS|UP TIME : 0.00 , 0.00

SYSTEM IP : 2.2.2.2|KERNEL : CENT OS|UP TIME : 0.00 , 0.00

bigdata apache-pig

08.09.2016

является ** частью вашего входного файла или чем-то, что вы использовали для различения двух наборов. 08.09.2016
Для различения двух множеств 08.09.2016
Как вы планируете различать их при обработке входного файла? 08.09.2016
Каждый набор записей начинается с ** , поэтому, если я могу проверить от одного ** к другому ** и взять набор и сделать его одной строкой, используя разделитель каналов, и в этом цикле я сделаю то же самое для другого набора, но вещь Я не могу реализовать это, потому что всего пару дней я изучил Pig. 09.09.2016

Ответы:

Основываясь на вашем вводе, я думаю, что мы могли бы решить эту проблему, написав собственный загрузчик, который читает входной файл с ** в качестве разделителя записи. Поэтому, когда у вас есть запись в отношении Pig, она представляет любой контент, который у вас есть между «**».

09.09.2016

Что я не умею писать. Не могли бы вы поделиться кодом? а также я хочу сделать запись, которая находится между **. 09.09.2016

У меня нет кода для этого. :-| , я думаю, вам придется потратить некоторое время на чтение документации и выяснение того, как написать собственный загрузчик. 09.09.2016

Ok . Я попробую . 10.09.2016

Хорошо, я использовал группу по всем, и у меня есть следующий вывод (все, {(Информация о дистрибутиве: CentOS, выпуск 6.5 (Final)), (IP-адрес СИСТЕМЫ: 1.1.1.1),(), (), (Информация о дистрибутиве: CentOS выпуск 6.5 (Final)),(SYSTEM IP:2.2.2.2 ),(),()}) так как я могу разделить с помощью ** и сделать каждую запись в новой строке? 12.09.2016

ИМХО, за создание записи отвечает функция загрузчика. Код, который вы в конечном итоге напишете (может быть UDF, который обрабатывает группу кортежей), может быть похож на loader. Это может быть полезно для вас, если вы выясните это вместо того, чтобы выполнять группировку и обрабатывать ее. Другой вариант уклониться от Loader — это обработать ввод с помощью сценария оболочки, чтобы объединить строки между *** в одну. 12.09.2016

Хорошо, я получил эту часть. Вы подключили aws elasticsearch к apache pig? 14.09.2016

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Smart Contracts Typescript Productivity Tech Startup Investing Neural Networks Developer Computer Science NLP