Линейная регрессия (original) (raw)

В этом модуле рассматриваются концепции линейной регрессии .

Линейная регрессия — это статистический метод, используемый для поиска взаимосвязи между переменными. В контексте машинного обучения линейная регрессия находит взаимосвязь между признаками и меткой .

Например, предположим, что мы хотим спрогнозировать топливную экономичность автомобиля в милях на галлон на основе его веса, и у нас есть следующий набор данных:

Фунты в тысячах (репортаж) Миль на галлон (маркировка)
3.5 18
3.69 15
3.44 18
3.43 16
4.34 15
4.42 14
2.37 24

Если мы нанесем эти точки на график, то получим следующий график:

Рисунок 1. Точки данных, показывающие нисходящий тренд слева направо.

Рисунок 1. Вес автомобиля (в фунтах) в зависимости от пробега в милях на галлон. По мере увеличения веса автомобиля его пробег в милях на галлон, как правило, снижается.

Мы могли бы создать собственную модель, проведя линию наилучшего соответствия через точки:

Рисунок 2. Точки данных и проведенная через них линия наилучшего соответствия, представляющая модель.

Рисунок 2. Линия наилучшего соответствия, проведенная через данные из предыдущего рисунка.

Уравнение линейной регрессии

В алгебраических терминах модель будет определяться как $ y = mx + b $, где

В ML мы записываем уравнение для модели линейной регрессии следующим образом:

y′=b+w1x1y' = b + w_1x_1y=b+w_1x_1

где:

В процессе обучения модель рассчитывает вес и смещение, которые позволяют получить наилучшую модель.

Рисунок 3. Уравнение y' = b + w1x1, в котором каждый компонент аннотирован с указанием своего назначения.

Рисунок 3. Математическое представление линейной модели.

В нашем примере мы рассчитаем вес и смещение по нарисованной нами линии. Смещение равно 34 (точка пересечения линии с осью Y), а вес равен –4,6 (наклон линии). Модель будет определена как $ y' = 34 + (-4,6)(x_1) $, и мы сможем использовать её для прогнозирования. Например, используя эту модель, автомобиль весом 4000 фунтов (1800 кг) будет иметь прогнозируемую топливную экономичность 15,6 миль на галлон (24,7 км/галлон).

Рисунок 4. Тот же график, что и на рисунке 2, с выделенной точкой (4, 15,6).

Рисунок 4. Используя эту модель, автомобиль весом 4000 фунтов имеет прогнозируемую топливную экономичность 15,6 миль на галлон.

Модели с множеством функций

Хотя в примере в этом разделе используется только одна характеристика — вес автомобиля, более сложная модель может опираться на несколько характеристик, каждая из которых имеет свой вес ($ w_1 ,, , w_2 $ и т. д.). Например, модель, опирающаяся на пять характеристик, будет записана следующим образом:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

Например, модель, прогнозирующая расход топлива, может дополнительно использовать такие функции, как:

Эта модель будет записана следующим образом:

Рисунок 5. Уравнение линейной регрессии с пятью признаками.

Рисунок 5. Модель с пятью характеристиками для прогнозирования пробега автомобиля на галлон.

Построив график нескольких дополнительных характеристик, мы можем увидеть, что они также имеют линейную зависимость от значения на этикетке — миль на галлон:

Рисунок 6. График зависимости рабочего объема в кубических сантиметрах от количества миль на галлон, демонстрирующий отрицательную линейную зависимость.

Рисунок 6. Объём двигателя автомобиля в кубических сантиметрах и его расход топлива в милях на галлон. По мере увеличения объёма двигателя автомобиля его расход топлива в милях на галлон, как правило, снижается.

Рисунок 7. График разгона от нуля до шестидесяти в секундах в зависимости от количества миль на галлон, показывающий положительную линейную зависимость.

Рисунок 7. Ускорение автомобиля и его расход топлива. Чем дольше автомобиль разгоняется, тем выше расход топлива.

Упражнение: проверьте свое понимание

Какие части уравнения линейной регрессии обновляются во время обучения?

Смещение и веса

В процессе обучения модель обновляет смещение и веса.

Предсказание

Прогнозы не обновляются во время обучения.

Значения характеристик

Значения признаков являются частью набора данных, поэтому они не обновляются во время обучения.