• Упорядоченная логистическая регрессия | Аннотированный вывод SPSS

На этой странице показан пример упорядоченного логистического регрессионного анализа со сносками, поясняющими результат. Данные по hsb2 были собраны у 200 старшеклассников, получивших баллы по различным тестам, включая естественные науки, математику, чтение и общественные науки. Показателем результата в этом анализе является социально-экономический статус (ses) - низкий, средний и высокий, а независимые переменные или предикторы включают результаты тестов поестественным наукам(естественные науки), результаты тестов по социальным наукам (socst) и пол (женщины). Наша переменная ответа,ses, будет рассматриваться как порядковая в предположении, что уровни статусаsesимеют естественный порядок (от низкого к высокому), но расстояния между соседними уровнями неизвестны.

Сводка обработки обращений

а.N-N обеспечивает количество наблюдений, соответствующих описанию из первого столбца. Например, первые три значения дают количество наблюдений за учащимися, которые сообщают о низком, среднем или высоком значенииsesсоответственно.

б.Маржинальный процент -маргинальный процент указывает долю достоверных наблюдений, найденных в каждой из групп конечной переменной. Это можно вычислить, разделив N для каждой группы на N для «Действительно». Из 200 субъектов с достоверными данными 47 были отнесены к категории с низким уровнемответов. Таким образом, предельный процент для этой группы составляет (47/200) * 100 = 23,5%.

c.ses- в этой регрессии выходной переменной являетсяses,которая содержит числовой код социально-экономического статуса субъекта. Данные включают три уровняses.

d. Действительный -указывает количество наблюдений в наборе данных, где переменная результата и все переменные-предикторы не пропущены.

е.Отсутствует -указывает количество наблюдений в наборе данных, в которых отсутствуют данные из выходной переменной или любой из переменных-предикторов.

f. Всего- указывает общее количество наблюдений в наборе данных - сумму числа наблюдений, в которых данные отсутствуют, и числа наблюдений с действительными данными.

Подгонка модели

г.Модель- указывает параметры модели, для которой рассчитывается соответствие модели. «Только перехват» описывает модель, которая не контролирует какие-либо переменные-предикторы, а просто соответствует перехвату для прогнозирования переменной результата. «Окончательный» описывает модель, которая включает указанные переменные-предикторы, коэффициент которых был оценен с использованием итеративного процесса, который максимизирует логарифмическую вероятность результата. Включая переменные-предикторы и максимизируя логарифмическую вероятность результата, «окончательная» модель должна улучшить модель «только перехват». Это можно увидеть в различиях значений -2 (логарифм правдоподобия), связанных с моделями.

час-2 (логарифм правдоподобия)- это произведение -2 и логарифмических правдоподобий нулевой модели и подобранной «окончательной» модели. Вероятность модели используется для проверки того, все ли оценочные коэффициенты регрессии в модели одновременно равны нулю.

я.Хи-квадрат- это критерийхи-квадратотношения правдоподобия (LR). Он проверяет, не равен ли хотя бы один из коэффициентов регрессии предикторов нулю в модели. Статистику LR хи-квадрат можно рассчитать следующим образом: -2 * L (нулевая модель) - (-2 * L (подобранная модель)) = 365,736 - 334,176 = 31,560, гдеL (нулевая модель)- это логарифм правдоподобия с использованием только переменная ответа в модели (итерация 0), аL (подобранная модель)- это логарифмическая вероятность от последней итерации (при условии, что модель сходится) со всеми параметрами.

j.df- указывает степени свободы распределения хи-квадрат, используемого для проверки статистики LR Chi-Sqare, и определяется количеством предикторов в модели.

k.Sig.- Это вероятность получения статистики теста LR столь же или более высокой, чем наблюдаемая при нулевой гипотезе; нулевая гипотеза состоит в том, что все коэффициенты регрессии в модели равны нулю. Другими словами, это вероятность получения этой статистики хи-квадрат (31,56), если на самом деле нет влияния переменных-предикторов. Это p-значение сравнивается с заданным альфа-уровнем, нашей готовностью принять ошибку типа I, которая обычно устанавливается на 0,05 или 0,01. Небольшое значение p из теста LR,

Псевдо R-квадраты

л.Псевдо R-квадрат- это три значения псевдо R-квадрата. Логистическая регрессия не имеет эквивалента R-квадрату, который находится в регрессии OLS; однако многие люди пытались придумать такой вариант. Существует множество статистических данных псевдоквадратов, которые могут давать противоречивые выводы. Поскольку эти «псевдо» значения R-квадрата не имеют той же интерпретации, что и стандартные значения R-квадрата из регрессии OLS (доля дисперсии для переменной ответа, объясняемая предикторами), мы предлагаем интерпретировать их с большой осторожностью.

Оценки параметров

м.Порог- представляет переменную ответа в упорядоченной логистической регрессии. Оценка порога для [ses = 1,00] - это значение отсечки между низкой и среднейses,а оценка порога для [ses = 2,00] представляет собой значение отсечки между средней и высокойses.

Для[ses = 1.00]это оценочная точка отсечения для скрытой переменной, используемая для дифференциации низкойsesот средней и высокойses,когда значения переменных-предикторов оцениваются как ноль. Субъекты, которые имели значение 2,755 или меньше базовой латентной переменной, которая дала начало нашей переменнойses, будут классифицироваться как мужчины с низкимses(переменнаяженщинаоценивается как ноль, ее референсное значение) и не имеют нулевогонаучногоисоциальноготеста. оценки.

[SES = 2,00] -Это расчетная точка нарезка на скрытом переменном используются для дифференциации с низким и среднимSESот высокойSES, когда значения переменных предикторов оцениваются в нуле. Субъекты, которые имели значение 5,105 или выше по базовой латентной переменной, которая дала начало нашей переменнойses, будут классифицироваться как высокиеses,учитывая, что они были мужчинами и имели нулевые баллы понаучнымисоциальнымтестам. Субъекты , которые имели значение между 2.755 и 5.105 на лежащей в основе скрытой переменной будут классифицироваться как средниеSES.

п.Оценивать- Это упорядоченные коэффициенты регрессии логарифмических шансов (логит). Стандартная интерпретация коэффициента упорядоченного логита состоит в том, что при увеличении предиктора на одну единицу ожидается, что уровень переменной отклика изменится на соответствующий коэффициент регрессии в упорядоченной шкале логарифмических шансов, в то время как другие переменные в модели останутся постоянными. Интерпретация упорядоченных оценок логита не зависит от дополнительных параметров; вспомогательные параметры используются для различения смежных уровней переменной отклика. Однако, поскольку модель упорядоченного логита оценивает одно уравнение на всех уровнях переменной результата, возникает вопрос, верна ли наша модель с одним уравнением или требуется более гибкая модель. Отношения шансов предикторов можно рассчитать, возведя оценку в степень.

наука- это упорядоченная оценка логарифма шансов для увеличения на одну единицунаучногобалла на ожидаемом уровнеses, приусловии, что другие переменные в модели остаются постоянными. Если бы субъект увеличил свойнаучныйбалл на один балл, его упорядоченные логарифмические шансы попасть в более высокую категориюsesувеличились бы на 0,03, в то время как другие переменные в модели оставались бы постоянными.

socst- это упорядоченная оценка логарифмических шансов для увеличения на одну единицубалла socstна ожидаемом уровнеses, приусловии, что другие переменные остаются постоянными в модели. Увеличение на одну единицурезультатовтестаsocstприведет к увеличению на 0,053 единицы упорядоченных логарифмических шансов нахождения в более высокой категорииses, вто время как другие переменные в модели останутся постоянными.

женскийпол - это упорядоченная оценка логарифма шансов сравнения самок и самцов на ожидаемыхses приусловии, что другие переменные в модели остаются постоянными. Упорядоченный логит для женщин, относящихся к более высокой категорииses, на-0,4824 меньше, чем для мужчин, если другие переменные в модели остаются постоянными.

о.Стд. Ошибка- это стандартные ошибки отдельных коэффициентов регрессии. Они используются как при вычислении статистики критерия Вальда, верхний индекс p, так и доверительного интервала коэффициента регрессии, верхнего индекса r.

п.Вальд- это критерий хи-квадрат Вальда, который проверяет нулевую гипотезу о том, что оценка равна 0.

q.DF- это степени свободы для каждого из тестов коэффициентов. Для каждойоценки(параметра), оцениваемой в модели, требуется одинDF, иDFопределяет распределение хи-квадрат, чтобы проверить, равен ли отдельный коэффициент регрессии нулю, учитывая, что другие переменные присутствуют в модели.

р.Sig.- Это p-значения коэффициентов или вероятность того, что в рамках данной модели будет выполняться нулевая гипотеза о том, что коэффициент регрессии конкретного предиктора равен нулю, при условии, что остальные предикторы присутствуют в модели. Они основаны на статистике предикторов тестаВальда, которая может быть вычислена путем деления квадрата оценки предиктора на квадрат его стандартной ошибки. Вероятность того, что конкретная статистика критерияВальданастолько же или даже больше, чем то, что наблюдалось при нулевой гипотезе, определяется p-значением и представлена ​​здесь. Статистика теста Вальда дляженщины-предиктораравно 3.000 с соответствующим p-значением 0,083. Если мы установим наш альфа-уровень равным 0,05, мы не сможем отвергнуть нулевую гипотезу и сделать вывод, что коэффициент регрессии дляженщинне оказался статистически отличным от нуля при оценкеses сучетомсоциологииинаукив модели. Статистика критерия Вальда длянаукио прогнозировании составляет 3,584 с соответствующим p-значением 0,058. Если мы установим наш альфа-уровень равным 0,05, мы не сможем отвергнуть нулевую гипотезу и прийти к выводу, что коэффициент регрессии длянаукине был обнаружен статистически отличным от нуля при оценкеses призаданныхsocstиженскиев модели. Статистика критерия Вальда для предиктораsocstсоставляет 12,777 с соответствующим p-значением сделаемвывод, что коэффициент регрессии дляsocstстатистически отличается от нуля при оценкеses,учитывая, что в модели участвуютнаукаиженщины. Интерпретация дихотомической переменной, такой какженский пол, аналогична интерпретации непрерывной переменной: наблюдаемое различие между мужчинами и женщинами по статусуsesне оказалось статистически значимым на уровне 0,05 при контроле дляsocst.инаука(p = 0,083).