• 10.2 - Бинарная логистическая регрессия

Давайте подробнее рассмотрим модель бинарной логистической регрессии. Подобно модели линейной регрессии, уравнение выглядит так же, как Y является некоторой функцией X:

Однако, как указывалось ранее, функция отличается, поскольку мы используем функцию логит-ссылки. Опять же, не вдаваясь в подробности того, как вычисляется функция логит-связи в этом классе, выходные данные представлены в форме «логарифмических шансов».

Обратите внимание, что в «таблице логистической регрессии» логарифмические шансы фактически указаны как «коэффициент». Номенклатура аналогична номенклатуре простого коэффициента линейной регрессии для наклона. Двигаясь дальше вниз по строке таблицы, мы видим, что, как и наклон, логарифм шансов содержит тест значимости, только с использованием теста «z», а не теста «t» из-за категориальной переменной ответа. К счастью, мы интерпретируем логарифмические коэффициенты по логике, очень похожей на наклон, в частности.

Интерпретация логарифмов

  • Если \ (\ beta>0 \), тогда логарифмические шансы наблюдения за событием становятся выше, если X больше.
  • Если \ (\ beta
  • Если \ (\ beta = 0 \), то X ничего не сообщает нам о логических шансах наблюдения за событием.

Когда мы запускаем логистическую регрессию по данным опроса Серены, выходные данные показывают логарифмический коэффициент 1,21. Мы смотрим на «Z-Value» и видим большое значение (15,47), которое заставляет нас отвергать нулевую гипотезу о том, что семейные доходы ничего не говорят нам о логарифмических шансах голосования за Серену. Поскольку коэффициент больше нуля, мы также можем сделать вывод, что больший доход семьи увеличивает логарифмические шансы голосования за Серену.

Коэффициенты
Предсказатель Coef SE Coef 95% ДИ Z-значение P-значение VIF Постоянный Семейный доход
-73,394,74(-82,68, -64,09)-15,470,000
1,21830,0787(1.0640, 1.3726)15,470,0001

Но каковы шансы журнала? Ну, просто это результат использования функции logit link. Но это нелегко интерпретировать, поэтому мы склонны сосредотачиваться на результатах, связанных с шансами. Вероятность возвращает нас к основной категориальной статистической функции. Напоминаем, что отношение шансов - это отношение того, что событие произойдет, к тому, что не произойдет. Отношение шансов, равное 1, указывает на отсутствие разницы в частоте возникновения события и частоты его возникновения. Таким образом, с отношением шансов в выходных данных мы сравниваем наши результаты с отношением шансов, равным 1. Обычно эти отношения шансов сопровождаются доверительным интервалом, опять же, ищем значение «1» в интервале, чтобы заключить, что связи нет. .

Результаты опроса говорят нам, что шансы проголосовать за Серену увеличиваются на 3,38 с увеличением дохода семьи на каждую единицу (измеряемого в 1000).

К счастью, результат теста гипотезы логарифма шансов и доверительный интервал отношения шансов всегда будут одинаковыми!

В приведенном ниже примере мы можем отвергнуть нулевую гипотезу в обоих случаях и сделать вывод, что семейный доход в значительной степени предсказывает, что избиратель голосует за Серену!

Общая значимость модели

Хотя мы не будем вдаваться в подробности, мера соответствия модели представлена ​​в выходных данных minitab как отклонение. Опять же, как F-тест в ANOVA, статистика хи-квадрат проверяет нулевую гипотезу о том, что все коэффициенты, связанные с предикторами (то есть наклоны), равны нулю, в то время как эти коэффициенты не все равны нулю. В этом примере хи-квадрат = 732 со значением p, равным 0,000, что указывает на наличие достаточных доказательств того, что коэффициент дохода домохозяйства отличен от нуля.

Таблица отклонений
Источник DF Seq Dev Вклад Adj Dev Скор. Среднее Хи-квадрат P-значение Регресс Семейный доход Ошибка Всего
1732,752,86%732,7732,712732,710,000
1732,752,86%732,7732,712732,710,000
998653,547,14%653,50,655
9991386,2100,00%

Модель вероятности

Последний вопрос, на который мы можем ответить, - это ответить на исходный вопрос о прогнозировании вероятности победы Серены. Самая простая интерпретация подобранных значений логистической регрессии - это предсказанные значения для каждого значения X (напомним, что моделью логистической регрессии можно алгебраически управлять, чтобы принять форму вероятности!). В Minitab мы можем запросить, чтобы вероятности для каждого значения X были сохранены в данных. Результат будет примерно таким:

C2 C3 C4 Голосовать Да Семейный доход ПОДХОДИТ
051,01890,00001
051,06390,00001
051,45820,00002
051,70750,00003
052,43080,00007
152,52910,00008
152,55860,00009
153,08220,00016
153,11850,00017
153,13010,00017
053,31590,00022

Из этого вывода мы можем теперь увидеть вероятность того, что семья проголосует за Серену. Более низкие значения в столбце «подходит» представляют меньшую вероятность голосования за Серену. Например, при семейном доходе 52,5291 вероятность голосования за Серену составляет 0,00008. Кампания Серены может использовать преимущества способности прогнозировать эту вероятность, а также целевого маркетинга и охвата тех домохозяйств, которые находятся «на заборе» (например, с вероятностью от 40 до 60 процентов), чтобы проголосовать за нее.

Маркетинговая фирма может порекомендовать кампании Серены сосредоточить внимание на домохозяйствах, которые находятся в диапазоне 40-60%. Эти домохозяйства могут быть теми, кого можно «убедить» в том, что голосование за Серену станет не только историей в процессе становления, но и правильным решением для руководства государством в течение следующих четырех лет.

Minitab ®

Minitab: двоичная логистическая регрессия

Для выполнения бинарной логистической регрессии в Minitab используйте следующее:

Статистика>Регрессия>Бинарная логистика и введите «Голосовать за» для ответа и «Семейный доход» в модели .

Примечание: окно для факторов относится к любой категориальной (ым) переменной (ам).