Подготовьте свой проект к машинному обучению: пошаговое руководство

Многие из нас часто совершают ошибку, сразу бросаясь к кодированию при работе над сквозными проектами. Этот подход может хорошо работать при работе с небольшими наборами данных, которые не требуют серьезной предварительной обработки. В этих случаях мы можем быстро обучить прогнозную модель машинного обучения и развернуть ее в облаке. Но этот подход имеет свои ограничения. Если проект настроен неправильно, код может быть не «повторно используемым» или «масштабируемым», что может вызвать проблемы в будущем.

Что означает «многоразовый» и «масштабируемый» в проекте машинного обучения?

«Многократное использование» означает возможность повторного использования проекта или его компонентов в будущих проектах. Повторное использование может сэкономить время, деньги и ресурсы в будущих проектах за счет уменьшения необходимости начинать с нуля.

Мы говорим, что проект является «масштабируемым», когда его можно легко адаптировать для работы с большими или меньшими наборами данных без существенных изменений в его общем дизайне или структуре. Это важно, поскольку позволяет эффективно использовать проект в самых разных ситуациях, независимо от размера данных, с которыми он работает.

Если вам интересно, с чего начать, вот пошаговое руководство. Имейте в виду, что я не буду подробно объяснять код, а предоставлю обзор хода проекта.

Шаг 1. Не программируйте!

Перед началом работы с набором данных важно внимательно прочитать и понять постановку задачи и описание данных. Это может предоставить ценную информацию о наборе данных, такую ​​как его происхождение, количество и имена столбцов, а также способы доступа к данным. В некоторых случаях описание может даже указывать на то, что набор данных устарел или широко используется и, следовательно, может не давать новой информации. Давайте посмотрим на пример.

В настоящее время я работаю над прокатом велосипедов, который представляет собой набор данных 10-летней давности и используется многими энтузиастами науки о данных. Так что это не даст нам никакой новой информации. Итак, если вы посмотрите на набор данных, он даст нам описание набора данных, даже не заглядывая в данные. Он сообщает нам источник данных, который имеет самую актуальную версию. Мы можем это использовать.

В промышленности описания данных часто предоставляются вместе с набором данных. Это называется «Соглашением об обмене данными» или DSA. Важно прочитать и понять эту информацию, прежде чем приступать к анализу. Это подводит нас к следующему шагу.

Шаг 2. Документация!

В проекте по науке о данных или машинном обучении обычно участвуют несколько команд, например группа обслуживания данных, группа анализа данных, группа обучения модели и группа разработки интерфейса. Важно документировать проект четко и организованно, чтобы все члены команды могли понять его и быть в курсе последних событий. Это особенно важно при представлении проекта заинтересованным сторонам или когда к команде присоединяются новые участники, которым необходимо быстро освоиться. Последовательно и тщательно документируя проект, команда может убедиться, что все находятся на одной странице и работают над достижением одних и тех же целей.

Нам необходимо вести пять типов документов:

  • Проектный документ высокого уровня.Дизайн-документ высокого уровня, или HLD, – это общий документ, описывающий общий ход проекта. Обычно он включает описание данных, которые будут использоваться, этапы проекта, а также инструменты и ресурсы, которые потребуются для его завершения. Этот документ содержит общий обзор проекта и используется для руководства командой разработчиков при реализации проекта. Его также можно использовать для сообщения целей и задач проекта заинтересованным сторонам и другим заинтересованным сторонам.
  • Документ низкоуровневого проектирования.Документ низкоуровневого проектирования (LLD) — это более конкретный документ, в котором основное внимание уделяется деталям обработки данных и обучения модели машинного обучения. LLD обеспечивает более глубокий взгляд на технические аспекты проекта и то, как различные компоненты будут работать вместе.
  • Документ по проекту архитектуры:AD предоставляет подробное описание внутренней структуры программы. Он включает в себя диаграмму классов с методами и их взаимосвязями, а также описание спецификаций программы. Этот документ служит руководством для программиста, позволяя им писать код непосредственно из проекта.
  • Каркасный документ. Это предварительный просмотр того, как внешний интерфейс будет выглядеть после развертывания проекта.
  • Подробный отчет о проекте.DPR в основном ориентирован на заинтересованные стороны в отношении общих результатов проекта.

Высокоуровневое проектирование (HLD) и низкоуровневое проектирование (LLD) — это ранние этапы планирования проекта, на которых излагаются соответственно общая структура и подробные спецификации проекта. После утверждения HLD и LLD команда разработчиков может приступить к написанию кода и созданию дизайна приложения (AD) и документации каркаса. Ход выполнения проекта и результаты обычно обобщаются в итоговом документе, называемом «Подробный отчет по проекту» (DPR).

Шаг 3. Выберите шаблон!

Теперь, чтобы начать кодирование, мы можем создать репозиторий GitHub и отправить туда нашу работу.

Вот шаблон проекта, который может помочь вам при запуске нового проекта. В следующих частях я объясню назначение каждого каталога и файла в шаблоне. А пока вы можете клонировать этот репозиторий и исследовать каталог «documents».

Прочитав это, вы сможете использовать шаблон для создания высокоуровневого дизайна (HLD) и низкоуровневого дизайна (LLD) для вашего собственного проекта. Попробуйте, и дайте мне знать, как это идет.

Вы можете следить за мной на GitHub, LinkedIn и medium, чтобы быть в курсе последних обновлений и получать информацию о предстоящих сообщениях в блоге.

Использованная литература:



https://ineuron.ai/