Скрипт Pig, генерирующий тысячи карт

По какой-то причине этот скрипт порождает 60 000 картографических заданий на небольшом входе:

A1 = LOAD '$directory1' USING CustomLoader AS key:chararray;
A = FOREACH A1 GENERATE CustomParser(key) AS key:chararray;

B = LOAD '$filename1' USING PigStorage AS (key:chararray);

result = JOIN A BY key, B BY key USING 'replicated';

directory1 содержит несколько файлов, которые составляют около 10 000 строк данных, а filename1 также содержит ~10 000 строк данных, все из которых по существу являются короткими строками. И каталог, и файл хранятся в HDFS. Ни один из них не является особенно большим, в масштабе от 10 до 100 килобайт. Однако, когда я запускаю скрипт в Hadoop, он порождает 60 000 картографических заданий. Это приводит к множеству других проблем - иногда диспетчеру приложений не хватает памяти, иногда он зависает на этапе перемешивания и другим ошибкам нехватки памяти различного рода.

Не похоже, что для такого небольшого входа нужно создавать так много разбиений. Я пытался увеличить max.CombinedSplitSize, mapred.min.split.size и dfs.block.size, но ничего не повлияло на количество карт (что имеет смысл, потому что я работаю с небольшим количеством небольших файлов) . Потенциально я мог бы продолжать увеличивать ресурсы, затрачиваемые на работу, но в какой-то степени эти значения находятся вне моего контроля.

Возможно, стоит отметить, что этот скрипт отлично работает локально — эта проблема возникает только тогда, когда он работает в реальном кластере Hadoop и фактически читает из HDFS.

Кто-нибудь еще сталкивался с подобной проблемой, и если да, то что вы изменили, чтобы решить проблему?

21.01.2017

установите соответствующее значение для pig.maxCombinedSplitSize, и вы также можете обратиться к stackoverflow.com/questions/24238341/ 21.01.2017
pig.maxCombinedSplitSize для меня не имеет значения - всего около 5 файлов, что составляет около 200 КБ данных. На всякий случай я установил maxCombinedSplitSize на 500 МБ, но ничего не изменилось (думаю, изначально было 64 МБ). Я также попытался установить min.split.size в попытке принудительно сгруппировать, но и для этого ничего не изменилось. 23.01.2017

Ответы:

Оказывается, проблема была в моем CustomLoader (чего я никак не ожидал). Загрузчик определяет свои собственные сплиты и создает огромное количество сплитов, что приводит к огромному количеству карт. Этот пользовательский загрузчик явно не группировал сплиты вместе (хотя я думаю, что они все равно не группируются по умолчанию), поэтому, несмотря на то, что многие сплиты были пустыми или маленькими, каждый из них порождал свое собственное задание карты. Поскольку пользовательский загрузчик загружался после всех моих изменений конфигурации, он переопределял конфигурации, которые позволили бы мне разделить группы.

Для тех, кому интересно, я обнаружил проблему разделения в методе List<InputSplit> getSplits(final JobContext context) подкласса класса InputFormat, который возвращается из InputFormat getInputFormat() в пользовательском подклассе LoadFunc.

24.01.2017

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Smart Contracts Typescript Productivity Tech Startup Investing Neural Networks Developer Computer Science NLP