Вы когда-нибудь задумывались, что означают термины «регрессия» и «линейная регрессия» в контексте машинного обучения? Если это так, продолжайте читать, чтобы узнать!

Что такое регрессия в машинном обучении?

Регрессия — это прежде всего метод анализа взаимосвязи между независимыми переменными/признаками и зависимой переменной/результатом. Регрессия — это метод, наиболее часто используемый для решения задач контролируемого машинного обучения.

Моделирование регрессии, которое, как следует из названия, использует регрессию, состоит из построения функции отображения таким образом, чтобы входные переменные отображались в непрерывную выходную переменную. В этом случае входные переменные независимы, а непрерывная выходная переменная зависима. Этот тип моделирования в основном полезен двумя способами: (1) для прогнозирования результатов новых и невидимых входных данных (2) для прогнозирования и прогнозирования пробелов в отсутствующих данных.

Что означает линейная регрессия в машинном обучении?

Линейная регрессия — это тип модели машинного обучения. Это проще всего объяснить как линейное уравнение, которое объединяет определенный набор входных значений, которые являются независимыми переменными, с прогнозируемым выходным значением, которое является зависимой переменной.

Хотя линейная регрессия изначально была понятием, полученным из области статистики, она широко используется в машинном обучении для понимания взаимосвязи между независимыми входными переменными и зависимой выходной переменной.

Существует множество различных типов линейной регрессии, наиболее заметными из которых являются простая линейная регрессия (где есть только одна входная переменная) и множественная линейная регрессия (где есть несколько входных переменных).

Основные различия между различными типами линейной регрессии касаются количества независимых переменных и типа взаимосвязи между независимыми и зависимыми переменными.

Линейную регрессию можно определить как простое линейное уравнение из-за того, что в конечном итоге это линия, проведенная через набор точек данных, которая предназначена для наиболее точного моделирования этих точек данных.

Вот как выглядит линейное уравнение:

y = ax + c

Где a представляет наклон линии, а c представляет ее точку пересечения по оси Y.

Пример линейной регрессии:

Чтобы лучше понять линейную регрессию, давайте рассмотрим пример. Вот график, показывающий рост отцов по сравнению с их сыновьями:

Вот фрагмент кода, использующий язык программирования R, который вычисляет линию линейной регрессии для приведенного выше графика:

library(tidyverse)
library(HistData)
library(caret)
# Obtain the dataset data and rename the `childHeight` column to `son`
galton_heights <- GaltonFamilies %>%
  filter(childNum == 1 & gender == "male") %>%
  select(father, childHeight) %>%
  rename(son = childHeight)
y <- galton_heights$son
test_index <- createDataPartition(y, times = 1, p = 0.5, list = FALSE)
# Divide the original dataset into train and test sets
train_set <- galton_heights %>% slice(-test_index)
test_set <- galton_heights %>% slice(test_index)

# Fit linear regression model
fit <- lm(son ~ father, data = train_set)
# Plot the graph and the linear regression line
plot(galton_heights, pch = 16, col = "blue")
abline(fit, col="red", lwd=5)

А вот линия линейной регрессии, которую производит приведенный выше код:

Хорошо, это все для этого сообщения в блоге о том, что такое линейная регрессия. Я надеюсь, что вы сочли полезным!

Заключение

Спасибо за чтение этого сообщения в блоге!

Если у вас есть какие-либо вопросы или проблемы, пожалуйста, не стесняйтесь оставлять комментарии в этом посте, и я свяжусь с вами, если найду время.

Если вы нашли эту статью полезной, поделитесь ею и обязательно подпишитесь на меня в Twitter и GitHub, свяжитесь со мной в LinkedIn и подпишитесь на мой канал YouTube.