- Jackpot
- $
- 1
- 5
- 7
- 7
- 1
- 5
- 1
- Играть
Давайте подробнее рассмотрим модель бинарной логистической регрессии. Подобно модели линейной регрессии, уравнение выглядит так же, как Y является некоторой функцией X:
Однако, как указывалось ранее, функция отличается, поскольку мы используем функцию логит-ссылки. Опять же, не вдаваясь в подробности того, как вычисляется функция логит-связи в этом классе, выходные данные представлены в форме «логарифмических шансов».
Обратите внимание, что в «таблице логистической регрессии» логарифмические шансы фактически указаны как «коэффициент». Номенклатура аналогична номенклатуре простого коэффициента линейной регрессии для наклона. Двигаясь дальше вниз по строке таблицы, мы видим, что, как и наклон, логарифм шансов содержит тест значимости, только с использованием теста «z», а не теста «t» из-за категориальной переменной ответа. К счастью, мы интерпретируем логарифмические коэффициенты по логике, очень похожей на наклон, в частности.
Когда мы запускаем логистическую регрессию по данным опроса Серены, выходные данные показывают логарифмический коэффициент 1,21. Мы смотрим на «Z-Value» и видим большое значение (15,47), которое заставляет нас отвергать нулевую гипотезу о том, что семейные доходы ничего не говорят нам о логарифмических шансах голосования за Серену. Поскольку коэффициент больше нуля, мы также можем сделать вывод, что больший доход семьи увеличивает логарифмические шансы голосования за Серену.
-73,39 | 4,74 | (-82,68, -64,09) | -15,47 | 0,000 | |
1,2183 | 0,0787 | (1.0640, 1.3726) | 15,47 | 0,000 | 1 |
Но каковы шансы журнала? Ну, просто это результат использования функции logit link. Но это нелегко интерпретировать, поэтому мы склонны сосредотачиваться на результатах, связанных с шансами. Вероятность возвращает нас к основной категориальной статистической функции. Напоминаем, что отношение шансов - это отношение того, что событие произойдет, к тому, что не произойдет. Отношение шансов, равное 1, указывает на отсутствие разницы в частоте возникновения события и частоты его возникновения. Таким образом, с отношением шансов в выходных данных мы сравниваем наши результаты с отношением шансов, равным 1. Обычно эти отношения шансов сопровождаются доверительным интервалом, опять же, ищем значение «1» в интервале, чтобы заключить, что связи нет. .
Результаты опроса говорят нам, что шансы проголосовать за Серену увеличиваются на 3,38 с увеличением дохода семьи на каждую единицу (измеряемого в 1000).
К счастью, результат теста гипотезы логарифма шансов и доверительный интервал отношения шансов всегда будут одинаковыми!
В приведенном ниже примере мы можем отвергнуть нулевую гипотезу в обоих случаях и сделать вывод, что семейный доход в значительной степени предсказывает, что избиратель голосует за Серену!
Хотя мы не будем вдаваться в подробности, мера соответствия модели представлена в выходных данных minitab как отклонение. Опять же, как F-тест в ANOVA, статистика хи-квадрат проверяет нулевую гипотезу о том, что все коэффициенты, связанные с предикторами (то есть наклоны), равны нулю, в то время как эти коэффициенты не все равны нулю. В этом примере хи-квадрат = 732 со значением p, равным 0,000, что указывает на наличие достаточных доказательств того, что коэффициент дохода домохозяйства отличен от нуля.
1 | 732,7 | 52,86% | 732,7 | 732,712 | 732,71 | 0,000 |
1 | 732,7 | 52,86% | 732,7 | 732,712 | 732,71 | 0,000 |
998 | 653,5 | 47,14% | 653,5 | 0,655 | ||
999 | 1386,2 | 100,00% |
Последний вопрос, на который мы можем ответить, - это ответить на исходный вопрос о прогнозировании вероятности победы Серены. Самая простая интерпретация подобранных значений логистической регрессии - это предсказанные значения для каждого значения X (напомним, что моделью логистической регрессии можно алгебраически управлять, чтобы принять форму вероятности!). В Minitab мы можем запросить, чтобы вероятности для каждого значения X были сохранены в данных. Результат будет примерно таким:
0 | 51,0189 | 0,00001 |
0 | 51,0639 | 0,00001 |
0 | 51,4582 | 0,00002 |
0 | 51,7075 | 0,00003 |
0 | 52,4308 | 0,00007 |
1 | 52,5291 | 0,00008 |
1 | 52,5586 | 0,00009 |
1 | 53,0822 | 0,00016 |
1 | 53,1185 | 0,00017 |
1 | 53,1301 | 0,00017 |
0 | 53,3159 | 0,00022 |
⋮ | ⋮ | ⋮ |
Из этого вывода мы можем теперь увидеть вероятность того, что семья проголосует за Серену. Более низкие значения в столбце «подходит» представляют меньшую вероятность голосования за Серену. Например, при семейном доходе 52,5291 вероятность голосования за Серену составляет 0,00008. Кампания Серены может использовать преимущества способности прогнозировать эту вероятность, а также целевого маркетинга и охвата тех домохозяйств, которые находятся «на заборе» (например, с вероятностью от 40 до 60 процентов), чтобы проголосовать за нее.
Маркетинговая фирма может порекомендовать кампании Серены сосредоточить внимание на домохозяйствах, которые находятся в диапазоне 40-60%. Эти домохозяйства могут быть теми, кого можно «убедить» в том, что голосование за Серену станет не только историей в процессе становления, но и правильным решением для руководства государством в течение следующих четырех лет.
Для выполнения бинарной логистической регрессии в Minitab используйте следующее:
Статистика>Регрессия>Бинарная логистика и введите «Голосовать за» для ответа и «Семейный доход» в модели .
Примечание: окно для факторов относится к любой категориальной (ым) переменной (ам).
personalvoditel.ru © 2021