Машинное обучение набирает огромный спрос в индустрии программного обеспечения, и это касается не только рекрутеров. На предстоящих сессиях размещения многие первокурсники начали ориентироваться на машинное обучение или отрасль науки о данных по трем основным причинам: 1. Более высокий пакет 2. Умная работа 3. Стабильность в будущем.

Но главная проблема в том, что компании, занимающиеся машинным обучением, попадают в шорт-лист резюме, заключается в том, что они ищут проекты в области машинного обучения и науки о данных. Некоторые компании используют алгоритмы машинного обучения для автоматического составления списка резюме с проектами машинного обучения. Итак, в этой статье мы перечислим некоторые популярные проекты, которые можно упомянуть в резюме, чтобы увеличить шансы попасть в шорт-лист для собеседований по ML. Все эти проекты на Python; поэтому рекомендуется пересмотреть основы Python. Кроме того, проекты машинного обучения нуждаются в надлежащем конвейере для плавного завершения; поэтому можно посмотреть блог Руководство по созданию проектов машинного обучения.

Мы разделим эти проекты на две основные категории: 1. Проекты обучения под наблюдением 2. Проекты обучения без учителя. Кроме того, эти большие категории можно разделить на более мелкие подкатегории в зависимости от характера входных данных. Эту классификацию можно изучить отдельно в блоге Классификация моделей машинного обучения по пяти различным основаниям.

Учебные проекты под наблюдением

Обучение с учителем — это тип машинного обучения, при котором машины учатся сопоставлять математическую функцию между известными входными и известными выходными переменными. Его можно далее разделить на две основные подкатегории в зависимости от характера входных данных: 1. Проекты классификации 2. Проекты регрессии.

‣ Классификация проектов

Классификация — это тип контролируемого обучения, при котором известный результат представлен в виде категориальных или качественных данных. Например, классифицировать электронные письма по категориям спам и не спам. Обо всех типах данных можно узнать в блоге Предварительная обработка структурированных данных в машинном обучении.

Проекты со структурированными данными

Структурированные наборы данных содержат четко определенную структуру и обычно хранятся в форматах Excel или CSV. Эти наборы данных требуют предварительной обработки структурированных данных перед их вводом в модель машинного обучения. Классификация проектов со структурированными данными:

1. Классификация рака с использованием машинного обучения

Классификация рака — один из классических проектов и часть любой учебной программы по машинному обучению. В этом проекте используется SVM (машины опорных векторов) для классификации клеток как злокачественных и доброкачественных на основе свойств присутствующей в них жидкости. Этот курс нужно включить, чтобы привлечь внимание компаний, работающих с медицинскими диагнозами.

Вот полный код для проекта классификации рака.

2. Калькулятор цен Uber Surge

Uber не является поставщиком такси; это компания, занимающаяся машинным обучением. Он использует технологию машинного обучения для масштабирования бизнеса практически во всех сферах. В этом проекте перечислено использование машинного обучения в Uber и демонстрируется один из вариантов использования для расчета коэффициента увеличения цены. Компании по обслуживанию такси определяют стоимость проезда между пунктами отправления и назначения на основе спроса на такси с использованием этого коэффициента увеличения. В этом проекте для демонстрации используется алгоритм случайного леса.

Вот полный код для проекта прогнозирования роста множителя Uber.

3. Обнаружение читеров в PUBG с помощью машинного обучения

PUBG, также известная как BGMI, представляет собой мобильную онлайн-игру, пользующуюся самым высоким рейтингом среди молодежи. Поскольку игра онлайн, высока вероятность столкнуться с читерами/хакерами, что может негативно сказаться на росте. Следовательно, компании используют передовые методы машинного обучения, чтобы обнаруживать присутствие мошенников на поле боя и приостанавливать действие их учетных записей. Этот проект использует алгоритм случайного леса для обнаружения читеров в игре PUBG.

Вот полный код для проекта обнаружения читеров PUBG.

• Проекты с неструктурированными данными

Неструктурированные наборы данных не содержат какой-либо предопределенной структуры. Некоторыми известными примерами этих наборов данных являются аудиосигналы, текстовые документы и изображения. Наборы текстовых данных требуют предварительной обработки текстовых данных, а затем кодирования слов-векторов, чтобы машины могли понять эти данные. Классификация проектов с неструктурированными данными:

‣ Проекты с привлечением текстовых данных:

1. Спам по электронной почте, фильтрация не-спама с помощью машинного обучения

Почтовые компании, такие как Gmail, Outlook и Yahoo, вкладывают значительные средства в свои технологии для обеспечения безопасности своих пользователей. Одним из возможных методов является автоматическое разделение спам-писем, чтобы избежать фишинговых атак. Этот проект демонстрирует возможности машинного обучения в области кибербезопасности, где модель ML классифицирует электронные письма по категориям спама и не спама на основе внутреннего текстового содержимого. Для этой задачи используется классификатор KNN.

Вот полный код для проекта классификации спама в электронной почте.

2. Анализ настроений в Твиттере

Анализ настроений — это метод машинного обучения, с помощью которого компании понимают настроения своих клиентов. Клиенты пишут онлайн-отзывы, а компании классифицируют эти отзывы как положительные, отрицательные и нейтральные. Этот проект является модным в машинном обучении и считается одним из лучших проектов для работы с текстовыми данными. Упомянутый блог использует Наивный байесовский алгоритм для прогнозирования настроений пользователей Твиттера с помощью твитов.

Вот полный код для проекта Twitter Sentiment Analysis.

‣ Проекты, в которых задействованы данные изображения:

1. Оптическое распознавание символов

OCR (оптическое распознавание символов) — одно из самых инновационных применений машинного обучения в реальном мире. Многие компании, в том числе технологические гиганты Microsoft и Google, используют преимущества распознавания символов из текстовых документов. Этот проект представляет собой небольшую демонстрацию того, как простая линейная модель логистическая регрессия может распознавать рукописные символы после изучения известного набора данных MNIST.

Вот полный код проекта распознавания рукописных цифр.

‣ Регрессионные проекты

Регрессия — это тип контролируемого обучения с известными результатами, представленными в виде непрерывных, числовых или количественных данных. Используемые здесь наборы данных в первую очередь структурированы; следовательно, нам нужны методы предварительной обработки структурных данных. Регрессионные проекты со структурированными данными:

• Проекты со структурированным набором данных

1. Прогнозирование продолжительности жизни

Это один из классических проектов машинного обучения, который очень популярен среди новичков, пытающихся изучить машинное обучение или науку о данных. Ожидаемая продолжительность жизни напрямую связана с индексом развития любой территории. Следовательно, такие организации, как ВОЗ, используют методы машинного обучения для прогнозирования ожидаемой продолжительности жизни людей, живущих в любой части мира. В этом проекте используется алгоритм Линейная регрессия, чтобы согласовать входные характеристики (ВВП, смертность, население, доход и т. д.) с ожидаемой продолжительностью жизни в годах.

Вот полный код проекта прогнозирования ожидаемой продолжительности жизни.

2. Открытие лекарств с помощью машинного обучения

Машинное обучение помогает медицинской науке быстро открывать лекарства. Ранее открытие лекарства занимало значительное время, и болезнь сохранялась дольше. Даже в быстром открытии вакцины против COVID машинное обучение сыграло жизненно важную роль. Этот проект демонстрирует способность машинного обучения помогать и бороться с вновь возникающими и распространяющимися заболеваниями. Он использует алгоритм XG-Boost, чтобы предсказать влияние различных соединений на конкретный белок-мишень, а затем использует этот эффект для обнаружения лекарства.

Вот полный код проекта по поиску лекарств.

Неконтролируемые учебные проекты

Обучение без учителя – это тип машинного обучения, при котором машины пытаются подобрать функцию для известных входных данных и неизвестных выходных данных. Здесь машины внутренне генерируют псевдовывод, а затем подгоняют функцию к парам ввода и вывода. Эта область проектов считается истинным будущим грядущей эры машинного обучения. Причина в том, что алгоритмы обучения с учителем сильно зависят от маркировки данных, что отнимает много времени и средств.

Мы можем разделить неконтролируемые учебные проекты на две основные категории: 1. Кластеризация 2. Уменьшение размерности.

‣ Кластеризация проектов

Кластеризация — это неконтролируемый метод, при котором машина группирует похожие образцы данных вместе, и эта группа называется кластером. Популярными алгоритмами для этого метода являются k-средних и Иерархическая кластеризация.

1. Прогнозирование личности с помощью машинного обучения

В основном существует пять типов человеческих личностей: открытость, невротизм, доброжелательность, экстраверсия и добросовестность. Этот проект группирует людей по этим пяти личностям на основе черт, показанных на их платформах в социальных сетях. Он использует самый известный в машинном обучении алгоритм кластеризация k-средних.

Вот полный код для проекта прогнозирования личности.

2. Система музыкальных рекомендаций с использованием машинного обучения

Системы рекомендаций являются наиболее используемой техникой машинного обучения в современном мире. Amazon и Netflix — две крупнейшие и самые успешные технологические компании из-за их более сильной системы рекомендаций. Этот проект демонстрирует, как можно использовать машинное обучение для рекомендации музыки пользователям на основе их бесценной истории прослушивания музыки. Для разработки этой системы рекомендаций используется алгоритм k-средних.

Вот полный код для проекта «Система музыкальных рекомендаций».

‣ Проекты по уменьшению размеров

Уменьшение размерности — одно из основных применений неконтролируемого обучения. Здесь машины пытаются представить тот же объем информации с меньшим количеством функций. Например, преобразование десяти признаков в три признака и сохранение большей части информации. Популярными алгоритмами для этого являются PCA и t-SNE.

Сжатие изображений с использованием анализа главных компонентов

Данные изображения потребляют большую полосу пропускания, и, следовательно, существует необходимость уменьшить размер изображений для передачи. В этом также может помочь машинное обучение. В этом проекте используется PCA (анализ основных компонентов), метод уменьшения размера, который сжимает изображение на 80 % с минимальной потерей информации.

Вот полный код для сжатия изображений с использованием PCA.

Заключение

В этой статье мы перечислили некоторые популярные проекты машинного обучения и предоставили ссылки на их полные коды. Мы рекомендуем сначала пройти пошаговую реализацию, упомянутую в блогах, реализовать их самостоятельно и использовать коды для помощи.

Наслаждайтесь обучением, наслаждайтесь алгоритмами!