Nano Hash - криптовалюты, майнинг, программирование

Ограничения ETL в отношении обработки различных алгоритмов

Мне были интересны проблемы, которые не могут быть решены с помощью ETL. Как мы все знаем, мы можем извлекать данные, выполнять некоторые преобразования и обработку, а также сохранять преобразованные данные в хранилище данных. В ETL обработка также может быть довольно сложной.

Итак, каковы возможности написания Java-кодов, если все можно сделать с помощью ETL, кроме создания приложения пользовательского интерфейса с использованием J2EE.

Какие алгоритмы хорошо работают в ETL, а какие следует запускать вне ETL.

Я больше люблю говорить об инструментах ETL, а не об ETL как о концепции в этом отношении, например, Talend — это инструмент, в котором код генерируется автоматически (в зависимости от того, как реализован поставщик ETL), а не написания собственного кода, чтобы это произошло, для скажем, изменить реализации, чтобы улучшить эффективность памяти по сравнению с эффективностью времени или улучшить эффективность времени по сравнению с эффективностью памяти, и, тем более, сделать вещи универсальными по своей природе.. !!

Таким образом, в этом отношении при создании продуктов и написании алгоритмов для долгосрочных целей рекомендуется использовать стандартные инструменты ETL или собственный код.

Может ли кто-нибудь уточнить эту тему с примерами использования и примерами, когда ETL терпит неудачу или имеет ограничения.

Заранее спасибо :)!!


  • ETL — очень широкое понятие. Все, что перемещает данные из одной системы в другую, может считаться ETL. Какую задачу, связанную с ETL, вам нужно выполнить? 13.08.2015
  • @mellamokb, привет!! задача, которую я пытаюсь выполнить, заключается в следующем: сгруппировать данные на основе телефонных номеров из источника данных, состоящего из различных других сведений о звонках, затем повторить эту группу по номеру телефона и вычислить некоторые KPI, такие как продолжительность звонка, сколько раз телефонный номер звонил, среднее время между следующими звонками и т. д. Я записал их в Map Reduce. Но я читал, что это можно сделать с помощью таких инструментов, как Talend или любого другого инструмента ETL. Я хотел знать, какие алгоритмы хороши для ETL, а какие не годятся для ETL. Спасибо за ответ. 13.08.2015

Ответы:


1

Как упомянул mellamokb, ETL - это концепция. Каждый раз, когда вы извлекаете данные из источника данных, преобразовываете их и загружаете в другое хранилище данных, вы выполняете ETL. Иногда буква «Т» в ее строгом смысле не является обязательной, потому что вы можете просто перемещать данные как есть.

Что касается выполнения ETL, вы можете сделать это с помощью таких инструментов, как Informatica и DataStage, или написать код самостоятельно, используя Java, PLSQL или какой-либо другой язык. Инструменты часто предлагают визуальный интерфейс и позволяют абстрагироваться от нескольких деталей, но функционально вы можете сделать то же самое самостоятельно. Так что выбор стоит не между ETL и Java, а между использованием инструмента и выполнением самостоятельно.


Ваши вопросы

Вопрос 1) Каков же смысл написания Java-кодов, если все можно сделать с помощью ETL, кроме создания приложения пользовательского интерфейса с использованием J2EE.

Java — язык программирования общего назначения. Вы можете решить практически любую проблему, которую можно решить с помощью программирования, используя его, включая ETL. В проблемной области слишком много типов проблем: сети, программное обеспечение базы данных, программное обеспечение ОС, обработка текстов...

Вопрос 2) Какие алгоритмы хорошо работают в ETL и какие типы алгоритмов следует запускать вне ETL.

Вопрос не в алгоритмах, а в том, какие проблемы подпадают под действие ETL. Если вы понимаете значение ETL, оно должно быть довольно очевидным.

Вопрос 3) Может ли кто-нибудь уточнить эту тему, указав варианты использования и примеры, когда ETL не работает или имеет ограничения.

Опять же, ETL — это концепция. Использование случая сбоя ETL не имеет особого смысла. Если вы хотите спросить, когда инструменты ETL терпят неудачу, это был бы резонный вопрос. Ответ зависит от того, чего вы пытаетесь достичь и какие функции поддерживает ваш инструмент. Большинство инструментов в наши дни поддерживают множество источников данных и целей и позволяют вам расширять предоставленные преобразования путем написания собственного кода с использованием различных языков, включая Java.

13.08.2015
  • Привет @Owl, я больше хотел поговорить об инструментах ETL, таких как Talend, где код генерируется автоматически, а не о написании собственного кода, чтобы сделать его, скажем, более эффективным с точки зрения памяти и более универсальным по своей природе .. !! 15.08.2015
  • Привет, @Owl, мне больше понравилось говорить об инструментах ETL, а не об ETL как о концепции в этом отношении, например, Talend - это инструмент, в котором код генерируется автоматически (в зависимости от того, как реализован поставщик ETL), а не писать собственный код для создания бывает, например, чтобы изменить реализации, чтобы улучшить эффективность памяти по сравнению с эффективностью времени или улучшить эффективность времени по сравнению с эффективностью памяти, и, тем более, сделать вещи универсальными по своей природе.. !! Таким образом, в этом отношении при создании продуктов и написании алгоритмов для долгосрочных целей рекомендуется использовать стандартные инструменты ETL или собственный код. 15.08.2015
  • Новые материалы

    Кластеризация: более глубокий взгляд
    Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

    Как написать эффективное резюме
    Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

    Частный метод Python: улучшение инкапсуляции и безопасности
    Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

    Как я автоматизирую тестирование с помощью Jest
    Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

    Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
    Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

    Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
    В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

    Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
    В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..