Dataiku — это платформа искусственного интеллекта, созданная во Франции в 2013 году. С тех пор она стала одним из мировых эталонов для студий обработки данных и машинного обучения.

Что такое Датаику?

Dataiku — это платформа для анализа данных французского происхождения. Он исторически выделяется своим очень упакованным и интегрированным характером. Это делает его доступным как для опытных, так и для начинающих специалистов по данным. Благодаря своей эргономике он позволяет создать модель в несколько кликов, при этом в качестве фона индустриализировать всю цепочку обработки: сбор, подготовка данных и т. д.

Компания Dataiku, основанная в 2013 году в Париже ее нынешним генеральным директором Флорианом Дуэтто и Клеманом Стенаком (оба бывшие сотрудники Exalead) вместе с Томасом Кабролем и Марком Бэтти, переживает стремительный рост. В 2015 году компания зарекомендовала себя в США. После привлечения 101 миллиона долларов в 2018 году Dataiku закрывает раунд в 400 миллионов долларов в 2021 году при оценке в 4,6 миллиарда долларов. В компании работает более 1000 сотрудников и более 300 клиентов среди крупнейших мировых групп. Среди них французские компании Accor, BNP Paribas, Engie и SNCF.

Dataiku DSS, что это такое?

Dataiku DSS (от Dataiku Data Science Studio) — это название платформы искусственного интеллекта Dataiku.

Каковы особенности Датаику?

Платформа Dataiku имеет около 90 функций, которые можно сгруппировать в несколько основных областей:

  • Интеграция. Платформа интегрируется с Hadoop, Spark, а также с облачными сервисами AWS, Azure, Google Cloud. Всего на платформе установлено более 25 разъемов.
  • Подключаемые модули. Галерея из более чем 100 плагинов позволяет вам использовать сторонние приложения во многих областях: перевод, NLG, погода, система рекомендаций, импорт/экспорт данных…
  • Подготовка данных/операции с данными. Графическая консоль занимается подготовкой данных. Поддерживаются временные ряды и геопространственные данные. Доступно более 90 готовых преобразователей данных.
  • Разработка. Dataiku поддерживает блокноты Jupyter, языки Python, R, Scala, SQL, Hive, Pig, Impala. Он поддерживает PySpark, SparkR и SparkSQL.
  • Машинное обучение. Платформа включает в себя движок автоматизации машинного обучения (auto ML), консоль визуализации для обучения глубоких нейронных сетей, поддержку Scikit-learn и XGBoost и др.
  • Совместная работа. Dataiku объединяет управление проектами, чат, вики, управление версиями (через Git)…
  • Управление. Платформа предлагает консоль мониторинга и аудита моделей, а также хранилище функций.
  • Млопс. Dataiku занимается развертыванием модели. Он поддерживает архитектуры Kubernetes, а также предложения Kubernetes как услуги от AWS, Azure и Google Cloud.
  • Визуализация данных. Интерфейс статистической визуализации дополняется 25 диаграммами визуализации данных для выявления взаимосвязей и идей в наборах данных.

Какова цена Датаику?

Dataiku предлагает бесплатную версию своей платформы для самостоятельной установки. Названный Dataiku Free, он ограничен тремя пользователями, но дает доступ к большинству функций. Он доступен для Windows, Linux, MacOS, Amazon EC2, Google Cloud и Microsoft Azure.

Кроме того, Dataiku продает три версии, цены на которые доступны по запросу: Dataiku Discover для небольших команд, Dataiku Business для средних команд и Dataiku Enterprise для развертывания платформы в масштабе крупного предприятия.

Что такое Датаику Онлайн?

Dataiku Online, предназначенный в основном для небольших структур, позволяет управлять проектами по науке о данных в умеренном масштабе. Это устройство SaaS (программное обеспечение как услуга). Функции аналогичны Dataiku, но настройка и запуск приложения происходит быстрее.

Dataiku Academy: обучение и сертификация Dataiku

Академия Dataiku объединяет серию обучающих онлайн-курсов на платформе Dataiku. Он предлагает программу Quicks Start, которая позволяет вам начать использовать решение через несколько часов, а также сеансы Learning Paths для приобретения более продвинутых навыков. Каждая программа приводит к сертификации Dataiku: сертификат Core Designer, сертификат ML Practitioner, сертификат Advanced Designer, сертификат разработчика и сертификат MLOps Practitioner.

Датаику против Датаробота

Американский DataRobot, созданный в 2012 году, можно считать историческим игроком в сфере автоматизированного машинного обучения (auto ML). Площадка, на которой Датаику расположился позже. По мере развития две платформы становятся все более и более сопоставимыми.

Однако по сравнению с DataRobot Dataiku выделяется на фронте совместной работы. Издатель умножает функциональные возможности в этой области: вики, совместное использование панелей результатов, система управления ролями и отслеживания действий и т. д.

Датаику против Альтерикса

В то время как Dataiku в первую очередь является платформой для обработки данных, ориентированной на машинное обучение, Alteryx позиционируется как решение для бизнес-аналитики, потенциально предназначенное для любого лица, принимающего бизнес-решения, а не только для групп специалистов по обработке и анализу данных.

Основная дополнительная ценность Alteryx заключается в автоматизации создания аналитических панелей. Панели мониторинга, которые могут включать прогнозные индикаторы на основе моделей машинного обучения. Имея это в виду, Alteryx интегрирует функции автоматического машинного обучения (auto ML), чтобы пользователи могли создавать индикаторы такого типа. В этом его главное общее с Датаику.

Датаику против Databricks

Dataiku и Databricks — очень разные платформы. Первый фокусируется на науке о данных, разработке и развертывании моделей машинного обучения. Второй представляет собой универсальную платформу данных, которая подходит как для хранилища данных, так и для сценариев использования, ориентированных на бизнес-аналитику и озеро данных, а также для потоковой передачи данных и распределенных вычислений.

Тем не менее, Databricks все больше обогащается функциями, ориентированными на машинное обучение. Компания из Сан-Франциско приобрела среду 8080 Labs для обработки данных с низким кодом / без кода в октябре 2021 года, а затем — платформу MLOps Cortex Labs в апреле 2022 года. Две технологии, которые она находится в процессе интеграции.

Сообщество Dataiku: учебные пособия и документация

Сообщество Dataiku — это пространство для обмена и документации, позволяющее совершенствовать свои знания о Dataiku и областях его применения. После регистрации можно присоединиться к дискуссионному форуму.

О КОМПАНИИ LONDON DATA CONSULTING (LDC)

Мы в компании London Data Consulting (LDC) предоставляем все виды решений для обработки данных. Сюда входят наука о данных (AI/ML/NLP), инженер данных, архитектура данных, анализ данных, CRM и генерация потенциальных клиентов, бизнес-аналитика и облачные решения (AWS/GCP/Azure).

Для получения дополнительной информации о нашем спектре услуг посетите: https://london-data-consulting.com/services

Если вы заинтересованы в работе в London Data Consulting, посетите нашу страницу вакансий на странице https://london-data-consulting.com/careers.

Дополнительная информация: https://london-data-consulting.com