Объяснение линейной регрессии в машинном обучении

Вы когда-нибудь задумывались, что означают термины «регрессия» и «линейная регрессия» в контексте машинного обучения? Если это так, продолжайте читать, чтобы узнать!

Что такое регрессия в машинном обучении?

Регрессия — это прежде всего метод анализа взаимосвязи между независимыми переменными/признаками и зависимой переменной/результатом. Регрессия — это метод, наиболее часто используемый для решения задач контролируемого машинного обучения.

Моделирование регрессии, которое, как следует из названия, использует регрессию, состоит из построения функции отображения таким образом, чтобы входные переменные отображались в непрерывную выходную переменную. В этом случае входные переменные независимы, а непрерывная выходная переменная зависима. Этот тип моделирования в основном полезен двумя способами: (1) для прогнозирования результатов новых и невидимых входных данных (2) для прогнозирования и прогнозирования пробелов в отсутствующих данных.

Что означает линейная регрессия в машинном обучении?

Линейная регрессия — это тип модели машинного обучения. Это проще всего объяснить как линейное уравнение, которое объединяет определенный набор входных значений, которые являются независимыми переменными, с прогнозируемым выходным значением, которое является зависимой переменной.

Хотя линейная регрессия изначально была понятием, полученным из области статистики, она широко используется в машинном обучении для понимания взаимосвязи между независимыми входными переменными и зависимой выходной переменной.

Существует множество различных типов линейной регрессии, наиболее заметными из которых являются простая линейная регрессия (где есть только одна входная переменная) и множественная линейная регрессия (где есть несколько входных переменных).

Основные различия между различными типами линейной регрессии касаются количества независимых переменных и типа взаимосвязи между независимыми и зависимыми переменными.

Линейную регрессию можно определить как простое линейное уравнение из-за того, что в конечном итоге это линия, проведенная через набор точек данных, которая предназначена для наиболее точного моделирования этих точек данных.

Вот как выглядит линейное уравнение:

y = ax + c

Где a представляет наклон линии, а c представляет ее точку пересечения по оси Y.

Пример линейной регрессии:

Чтобы лучше понять линейную регрессию, давайте рассмотрим пример. Вот график, показывающий рост отцов по сравнению с их сыновьями:

Вот фрагмент кода, использующий язык программирования R, который вычисляет линию линейной регрессии для приведенного выше графика:

library(tidyverse)
library(HistData)
library(caret)
# Obtain the dataset data and rename the `childHeight` column to `son`
galton_heights <- GaltonFamilies %>%
  filter(childNum == 1 & gender == "male") %>%
  select(father, childHeight) %>%
  rename(son = childHeight)
y <- galton_heights$son
test_index <- createDataPartition(y, times = 1, p = 0.5, list = FALSE)
# Divide the original dataset into train and test sets
train_set <- galton_heights %>% slice(-test_index)
test_set <- galton_heights %>% slice(test_index)

# Fit linear regression model
fit <- lm(son ~ father, data = train_set)
# Plot the graph and the linear regression line
plot(galton_heights, pch = 16, col = "blue")
abline(fit, col="red", lwd=5)

А вот линия линейной регрессии, которую производит приведенный выше код:

Хорошо, это все для этого сообщения в блоге о том, что такое линейная регрессия. Я надеюсь, что вы сочли полезным!

Заключение

Спасибо за чтение этого сообщения в блоге!

Если у вас есть какие-либо вопросы или проблемы, пожалуйста, не стесняйтесь оставлять комментарии в этом посте, и я свяжусь с вами, если найду время.

Если вы нашли эту статью полезной, поделитесь ею и обязательно подпишитесь на меня в Twitter и GitHub, свяжитесь со мной в LinkedIn и подпишитесь на мой канал YouTube.

материалы по теме:

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Neural Networks Developer Computer Science NLP