Сбой задания AWS Glue ETL из AWS Redshift в S3

Я пробую сервис AWS Glue для ETL некоторых данных от красного смещения до S3. Сканер работает успешно и создает метатаблицу в каталоге данных, однако, когда я запускаю задание ETL (сгенерированное AWS), оно терпит неудачу примерно через 20 минут с сообщением «Ресурс недоступен».

Я не вижу журналов клея AWS или журналов ошибок, созданных в Cloudwatch. Когда я пытаюсь их просмотреть, появляется сообщение «Поток журнала не найден. Не удалось найти поток журнала jr_xxxxxxxxxx. Проверьте, правильно ли он был создан, и повторите попытку».

Буду признателен, если вы предоставите какие-либо рекомендации по решению этой проблемы.

22.08.2017

Вроде бы 2 проблемы. Первое, что привело к сбою задания ETL. Вторая проблема - поток журнала был создан неправильно. 29.09.2017
В настоящее время у меня возникла вторая проблема (поток журнала не найден), которая не позволяет мне определить настоящую ошибку моей работы. Я уже предоставил полный доступ к CloudWatch (для создания групп журналов и т. Д.) Для роли, которая выполняет мою работу. И я не уверен, что делать дальше. 29.09.2017

Ответы:

Таким образом, задание, которое вы добавляете в Glue, будет выполняться либо в том случае, если в регионе, где находится ваш Glue, не слишком много трафика. Если доступных ресурсов нет, вам нужно либо вручную повторно добавить задание, либо вы также можете привязать себя к событиям из CloudWatch через SNS.

Кроме того, есть параметры, которые можно передать заданию, например maximunRetry и timeout.

Если у вас есть Ressource not available, он не запустит повторную попытку, потому что задание не завершилось ошибкой, оно просто даже не началось. Но если вы установите timeout, скажем, 60 minutes, по истечении этого времени он вызовет ошибку, уменьшит ваш пул повторов и перезапустит задание.

26.04.2018

Самое близкое, что я вижу к документации Glue по этому поводу, находится здесь:

Если вы столкнулись с ошибками в AWS Glue, воспользуйтесь следующими решениями, чтобы найти источник проблем и исправить их. Примечание. Репозиторий AWS Glue на GitHub содержит дополнительные инструкции по устранению неполадок в разделе «Часто задаваемые вопросы по AWS Glue». Ошибка: ресурс недоступен. Если AWS Glue возвращает сообщение о недоступности ресурса, вы можете просмотреть сообщения об ошибках или журналы, чтобы узнать больше о проблеме. В следующих задачах описаны общие методы устранения неполадок. • Пользовательская конфигурация DNS без обратного просмотра может привести к сбою AWS Glue. Проверьте свою конфигурацию DNS. Если вы используете Amazon Route 53 или Microsoft Active Directory, убедитесь, что есть прямой и обратный поиск. Для получения дополнительной информации см. Настройка DNS в VPC (стр. 23). • Для любых подключений и конечных точек разработки, которые вы используете, убедитесь, что в вашем кластере не закончились эластичные сетевые интерфейсы.

13.09.2017

Я недавно боролся с недоступностью ресурса, вызванной Glue Job

Также мне не удалось установить прямое соединение в Glue с помощью RDS - он сказал, что "подходящей группы безопасности не найдено"

Я столкнулся с этой проблемой при попытке подключиться к AWS RDS и Redshift

Проблема была в группе безопасности, которую использовал Redshift. В группе безопасности необходимо разместить правило для входящих подключений.

Для тех, кто не знает, что такое правило для входящих подключений, выполните следующие действия.

1) Перейдите в группу безопасности, которую вы используете (VPC -> Security Group)

2) В Правилах для входящих подключений выберите Изменить правила для входящих подключений.

3) Добавить правило

a) Тип - Весь трафик b) Протокол - Все c) Диапазон портов - ВСЕ d) Источник - настраиваемый и в доступном месте напишите инициал вашей группы безопасности и выберите его. д) Сохраните его.

Это сделано !

если вы пропустили это условие в правилах для входящих подключений группы безопасности

Попробуйте создать соединение, вы сможете создать соединение.

И на этот раз работа должна работать.

02.06.2020

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Smart Contracts Typescript Productivity Tech Startup Investing Neural Networks Developer Computer Science NLP