Эта статья является частью серии:

«Начало работы с машинным обучением: пошаговое руководство»

Множественная регрессия — это статистический метод, используемый для моделирования связи между зависимой переменной и двумя или более независимыми переменными. Цель множественной регрессии состоит в том, чтобы найти наиболее подходящую линию или кривую (называемую линией или кривой регрессии), которая описывает взаимосвязь между зависимой переменной и независимыми переменными.

Чтобы понять множественную регрессию, полезно сначала понять простую линейную регрессию, которая представляет собой статистический метод, используемый для моделирования взаимосвязи между зависимой переменной и одной независимой переменной. В простой линейной регрессии мы пытаемся подобрать к данным прямую линию, где линия представляет отношение между зависимой переменной (Y) и независимой переменной (X). Уравнение для простой линии линейной регрессии:

Y = a + bX

Где Y — зависимая переменная, X — независимая переменная, a — точка пересечения (точка, в которой линия пересекает ось Y), а b — наклон (изменение Y на каждую единицу изменения X).

Множественная регрессия — это расширение простой линейной регрессии, где у нас есть две или более независимых переменных (X1, X2, X3 и т. д.). При множественной регрессии мы пытаемся подобрать кривую к данным, где кривая представляет отношение между зависимой переменной (Y) и независимыми переменными (X1, X2, X3 и т. д.). Уравнение для кривой множественной регрессии:

Y = a + b1X1 + b2X2 + b3X3 + …

Где Y — зависимая переменная, X1, X2, X3 и т. д. — независимые переменные, a — точка пересечения, а b1, b2, b3 и т. д. — наклоны. Наклон b1 представляет собой изменение Y для каждого единичного изменения X1 при сохранении постоянных X2, X3 и т. д. Точно так же наклон b2 представляет собой изменение Y для каждого единичного изменения X2 при сохранении постоянными X1, X3 и т. д. и т. д.

Примером множественной регрессии является исследование, в котором зависимой переменной является длина тела мыши, а независимыми переменными являются вес мыши и длина хвоста. Чтобы выполнить множественную регрессию в этом случае, мы собирали данные о длине тела, весе и длине хвоста выборки мышей, а затем использовали статистическое программное обеспечение, чтобы подогнать кривую множественной регрессии к данным.

Чтобы интерпретировать результаты множественной регрессии, мы можем изучить коэффициенты (b1, b2, b3 и т. д.) и соответствующие им p-значения. Коэффициент представляет собой изменение зависимой переменной (Y) для каждого единичного изменения независимой переменной при неизменности других независимых переменных.

Например, в исследовании на мышах, если коэффициент для веса (b1) равен 0,5, это означает, что на каждый 1 грамм увеличения веса ожидается увеличение длины тела мыши на 0,5 миллиметра при неизменной длине хвоста. . Значение p является мерой статистической значимости коэффициента и указывает на вероятность того, что взаимосвязь между зависимой и независимой переменными обусловлена ​​случайностью. Значение p менее 0,05 считается статистически значимым, а это означает, что мы можем быть на 95% уверены, что взаимосвязь между переменными реальна, а не случайна.

Важно отметить, что множественная регрессия предполагает наличие линейной зависимости между зависимыми и независимыми переменными. Это означает, что изменение зависимой переменной (Y) постоянно при каждом единичном изменении независимых переменных (X1, X2, X3 и т. д.). Если существует нелинейная связь между переменными, множественная регрессия может быть не самым подходящим статистическим методом.

В заключение, множественная регрессия — это статистический метод, используемый для моделирования связи между зависимой переменной и двумя или более независимыми переменными. Это расширение простой линейной регрессии, где мы пытаемся подобрать кривую к данным, которые представляют отношения между зависимой переменной и независимыми переменными.

Уравнение для кривой множественной регрессии: Y = a + b1X1 + b2X2 + b3X3 + …, где Y — зависимая переменная, X1, X2, X3 и т. д. — независимые переменные, a — точка пересечения, а b1, b2, b3 и т. д. — наклоны. Чтобы интерпретировать результаты множественной регрессии, мы можем изучить коэффициенты и соответствующие им p-значения.

Коэффициент представляет собой изменение зависимой переменной для каждого единичного изменения независимой переменной, при этом остальные независимые переменные остаются постоянными. Значение p является мерой статистической значимости коэффициента и указывает на вероятность того, что взаимосвязь между переменными обусловлена ​​случайностью. Множественная регрессия предполагает наличие линейной зависимости между зависимой и независимой переменными. Если существует нелинейная связь между переменными, множественная регрессия может быть не самым подходящим статистическим методом.

Эта статья является частью серии:

«Начало работы с машинным обучением: пошаговое руководство»