Сквозной проект машинного обучения с развертыванием, часть 1: настройка проекта

Подготовьте свой проект к машинному обучению: пошаговое руководство

Многие из нас часто совершают ошибку, сразу бросаясь к кодированию при работе над сквозными проектами. Этот подход может хорошо работать при работе с небольшими наборами данных, которые не требуют серьезной предварительной обработки. В этих случаях мы можем быстро обучить прогнозную модель машинного обучения и развернуть ее в облаке. Но этот подход имеет свои ограничения. Если проект настроен неправильно, код может быть не «повторно используемым» или «масштабируемым», что может вызвать проблемы в будущем.

Что означает «многоразовый» и «масштабируемый» в проекте машинного обучения?

«Многократное использование» означает возможность повторного использования проекта или его компонентов в будущих проектах. Повторное использование может сэкономить время, деньги и ресурсы в будущих проектах за счет уменьшения необходимости начинать с нуля.

Мы говорим, что проект является «масштабируемым», когда его можно легко адаптировать для работы с большими или меньшими наборами данных без существенных изменений в его общем дизайне или структуре. Это важно, поскольку позволяет эффективно использовать проект в самых разных ситуациях, независимо от размера данных, с которыми он работает.

Если вам интересно, с чего начать, вот пошаговое руководство. Имейте в виду, что я не буду подробно объяснять код, а предоставлю обзор хода проекта.

Шаг 1. Не программируйте!

Перед началом работы с набором данных важно внимательно прочитать и понять постановку задачи и описание данных. Это может предоставить ценную информацию о наборе данных, такую как его происхождение, количество и имена столбцов, а также способы доступа к данным. В некоторых случаях описание может даже указывать на то, что набор данных устарел или широко используется и, следовательно, может не давать новой информации. Давайте посмотрим на пример.

В настоящее время я работаю над прокатом велосипедов, который представляет собой набор данных 10-летней давности и используется многими энтузиастами науки о данных. Так что это не даст нам никакой новой информации. Итак, если вы посмотрите на набор данных, он даст нам описание набора данных, даже не заглядывая в данные. Он сообщает нам источник данных, который имеет самую актуальную версию. Мы можем это использовать.

В промышленности описания данных часто предоставляются вместе с набором данных. Это называется «Соглашением об обмене данными» или DSA. Важно прочитать и понять эту информацию, прежде чем приступать к анализу. Это подводит нас к следующему шагу.

Шаг 2. Документация!

В проекте по науке о данных или машинном обучении обычно участвуют несколько команд, например группа обслуживания данных, группа анализа данных, группа обучения модели и группа разработки интерфейса. Важно документировать проект четко и организованно, чтобы все члены команды могли понять его и быть в курсе последних событий. Это особенно важно при представлении проекта заинтересованным сторонам или когда к команде присоединяются новые участники, которым необходимо быстро освоиться. Последовательно и тщательно документируя проект, команда может убедиться, что все находятся на одной странице и работают над достижением одних и тех же целей.

Нам необходимо вести пять типов документов:

Проектный документ высокого уровня.Дизайн-документ высокого уровня, или HLD, – это общий документ, описывающий общий ход проекта. Обычно он включает описание данных, которые будут использоваться, этапы проекта, а также инструменты и ресурсы, которые потребуются для его завершения. Этот документ содержит общий обзор проекта и используется для руководства командой разработчиков при реализации проекта. Его также можно использовать для сообщения целей и задач проекта заинтересованным сторонам и другим заинтересованным сторонам.
Документ низкоуровневого проектирования.Документ низкоуровневого проектирования (LLD) — это более конкретный документ, в котором основное внимание уделяется деталям обработки данных и обучения модели машинного обучения. LLD обеспечивает более глубокий взгляд на технические аспекты проекта и то, как различные компоненты будут работать вместе.
Документ по проекту архитектуры:AD предоставляет подробное описание внутренней структуры программы. Он включает в себя диаграмму классов с методами и их взаимосвязями, а также описание спецификаций программы. Этот документ служит руководством для программиста, позволяя им писать код непосредственно из проекта.
Каркасный документ. Это предварительный просмотр того, как внешний интерфейс будет выглядеть после развертывания проекта.
Подробный отчет о проекте.DPR в основном ориентирован на заинтересованные стороны в отношении общих результатов проекта.

Высокоуровневое проектирование (HLD) и низкоуровневое проектирование (LLD) — это ранние этапы планирования проекта, на которых излагаются соответственно общая структура и подробные спецификации проекта. После утверждения HLD и LLD команда разработчиков может приступить к написанию кода и созданию дизайна приложения (AD) и документации каркаса. Ход выполнения проекта и результаты обычно обобщаются в итоговом документе, называемом «Подробный отчет по проекту» (DPR).

Шаг 3. Выберите шаблон!

Теперь, чтобы начать кодирование, мы можем создать репозиторий GitHub и отправить туда нашу работу.

Вот шаблон проекта, который может помочь вам при запуске нового проекта. В следующих частях я объясню назначение каждого каталога и файла в шаблоне. А пока вы можете клонировать этот репозиторий и исследовать каталог «documents».

Прочитав это, вы сможете использовать шаблон для создания высокоуровневого дизайна (HLD) и низкоуровневого дизайна (LLD) для вашего собственного проекта. Попробуйте, и дайте мне знать, как это идет.

Вы можете следить за мной на GitHub, LinkedIn и medium, чтобы быть в курсе последних обновлений и получать информацию о предстоящих сообщениях в блоге.

Использованная литература:

GitHub — abhishek-jana/sample_project_tempplete
Внесите свой вклад в разработку abhishek-jana/sample_project_temple, создав учетную запись на GitHub.github.com

https://ineuron.ai/

материалы по теме:

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Smart Contracts Typescript Productivity Tech Startup Investing Neural Networks Developer Computer Science NLP