Для чего нужен регрессионный анализ
Перейти к содержимому

Для чего нужен регрессионный анализ

Что такое регрессионный анализ?

Регрессионный анализ — это набор статистических методов оценки отношений между переменными. Его можно использовать для оценки степени взаимосвязи между переменными и для моделирования будущей зависимости. По сути, регрессионные методы показывают, как по изменениям «независимых переменных» можно зафиксировать изменение «зависимой переменной».

Зависимую переменную в бизнесе называют предиктором (характеристика, за изменением которой наблюдают). Это может быть уровень продаж, риски, ценообразование, производительность и так далее. Независимые переменные — те, которые могут объяснять поведение выше приведенных факторов (время года, покупательная способность населения, место продаж и многое другое).Регрессионный анализ включает несколько моделей. Наиболее распространенные из них: линейная, мультилинейная (или множественная линейная) и нелинейная.

Как видно из названий, модели отличаются типом зависимости переменных: линейная описывается линейной функцией; мультилинейная также представляет линейную функцию, но в нее входит больше параметров (независимых переменных); нелинейная модель — та, в которой экспериментальные данные характеризуются функцией, являющейся нелинейной (показательной, логарифмической, тригонометрической и так далее).

Чаще всего используются простые линейные и мультилинейные модели.

Регрессионный анализ предлагает множество приложений в различных дисциплинах, включая финансы.

Рассмотрим поподробнее принципы построения и адаптации результатов метода.

Линейный регрессионный анализ основан на шести фундаментальных предположениях:

R — значит регрессия

Статистика в последнее время получила мощную PR поддержку со стороны более новых и шумных дисциплин — Машинного Обучения и Больших Данных. Тем, кто стремится оседлать эту волну необходимо подружится с уравнениями регрессии. Желательно при этом не только усвоить 2-3 приемчика и сдать экзамен, а уметь решать проблемы из повседневной жизни: найти зависимость между переменными, а в идеале — уметь отличить сигнал от шума.

Регрессия

Для этой цели мы будем использовать язык программирования и среду разработки R, который как нельзя лучше приспособлен к таким задачам. Заодно, проверим от чего зависят рейтинг Хабрапоста на статистике собственных статей.

Введение в регрессионный анализ

Если имеется корреляционная зависимость между переменными y и x , возникает необходимость определить функциональную связь между двумя величинами. Зависимость среднего значения называется регрессией y по x .

Основу регрессионного анализа составляет метод наименьших квадратов (МНК), в соответствии с которым в качестве уравнения регресии берется функция такая, что сумма квадратов разностей минимальна.

Гаусс

Карл Гаусс открыл, или точнее воссоздал, МНК в возрасте 18 лет, однако впервые результаты были опубликованы Лежандром в 1805 г. По непроверенным данным метод был известен еще в древнем Китае, откуда он перекочевал в Японию и только затем попал в Европу. Европейцы не стали делать из этого секрета и успешно запустили в производство, обнаружив с его помощью траекторию карликовой планеты Церес в 1801 г.

Вид функции , как правило, определен заранее, а с помощью МНК подбираются оптимальные значения неизвестных параметров. Метрикой рассеяния значений вокруг регрессии является дисперсия.

  • k — число коэффициентов в системе уравнений регрессии.

Чаще всего используется модель линейной регрессии, а все нелинейные зависимости приводят к линейному виду с помощью алгебраических ухищрений, различных преобразования переменных y и x .

Линейная регрессия

Уравнения линейной регрессии можно записать в виде

В матричном виде это выгладит

  • y — зависимая переменная;
  • x — независимая переменная;
  • β — коэффициенты, которые необходимо найти с помощью МНК;
  • ε — погрешность, необъяснимая ошибка и отклонение от линейной зависимости;

График

Случайная величина может быть интерпретирована как сумма из двух слагаемых:

  • полная дисперсия (TSS).
  • объясненная часть дисперсии (ESS).
  • остаточная часть дисперсии (RSS).

Еще одно ключевое понятие — коэффициент корреляции R 2 .

Ограничения линейной регрессии

Для того, чтобы использовать модель линейной регрессии необходимы некоторые допущения относительно распределения и свойств переменных.

  1. Линейность, собственно. Увеличение, или уменьшение вектора независимых переменных в k раз, приводит к изменению зависимой переменной также в k раз.
  2. Матрица коэффициентов обладает полным рангом, то есть векторы независимых переменных линейно независимы.
  3. Экзогенность независимых переменных — . Это требование означает, что математическое ожидание погрешности никоим образом нельзя объяснить с помощью независимых переменных.
  4. Однородность дисперсии и отсутствие автокорреляции. Каждая εi обладает одинаковой и конечной дисперсией σ 2 и не коррелирует с другой εi. Это ощутимо ограничивает применимость модели линейной регрессии, необходимо удостовериться в том, что условия соблюдены, иначе обнаруженная взаимосвязь переменных будет неверно интерпретирована.

Как обнаружить, что перечисленные выше условия не соблюдены? Ну, во первых довольно часто это видно невооруженным глазом на графике.

Неоднородность дисперсии
Heteroscedasticity

При возрастании дисперсии с ростом независимой переменной имеем график в форме воронки.

Non-linear

Нелинейную регрессии в некоторых случая также модно увидеть на графике довольно наглядно.

Тем не менее есть и вполне строгие формальные способы определить соблюдены ли условия линейной регрессии, или нарушены.

  • Автокорреляция проверяется статистикой Дарбина-Уотсона (0 ≤ d ≤ 4). Если автокорреляции нет, то значения критерия d≈2, при позитивной автокорреляции d≈0, при отрицательной — d≈4.
  • Неоднородность дисперсии — Тест Уайта, , при нулевая гипотеза отвергается и констатируется наличие неоднородной дисперсии. Используя ту же можно еще применить тест Бройша-Пагана.
  • Мультиколлинеарность — нарушения условия об отсутствии взаимной линейной зависимости между независимыми переменными. Для проверки часто используют VIF-ы (Variance Inflation Factor).

В этой формуле — коэффициент взаимной детерминации между и остальными факторами. Если хотя бы один из VIF-ов > 10, вполне резонно предположить наличие мультиколлинеарности.

Почему нам так важно соблюдение всех выше перечисленных условий? Все дело в Теореме Гаусса-Маркова, согласно которой оценка МНК является точной и эффективной лишь при соблюдении этих ограничений.

Как преодолеть эти ограничения

Нарушения одной или нескольких ограничений еще не приговор.

  1. Нелинейность регрессии может быть преодолена преобразованием переменных, например через функцию натурального логарифма ln .
  2. Таким же способом возможно решить проблему неоднородной дисперсии, с помощью ln , или sqrt преобразований зависимой переменной, либо же используя взвешенный МНК.
  3. Для устранения проблемы мультиколлинеарности применяется метод исключения переменных. Суть его в том, что высоко коррелированные объясняющие переменные устраняются из регрессии, и она заново оценивается. Критерием отбора переменных, подлежащих исключению, является коэффициент корреляции. Есть еще один способ решения данной проблемы, который заключается в замене переменных, которым присуща мультиколлинеарность, их линейной комбинацией. Этим весь список не исчерпывается, есть еще пошаговая регрессия и другие методы.

К сожалению, не все нарушения условий и дефекты линейной регрессии можно устранить с помощью натурального логарифма. Если имеет место автокорреляция возмущений к примеру, то лучше отступить на шаг назад и построить новую и лучшую модель.

Линейная регрессия плюсов на Хабре

Итак, довольно теоретического багажа и можно строить саму модель.
Мне давно было любопытно от чего зависит та самая зелененькая цифра, что указывает на рейтинг поста на Хабре. Собрав всю доступную статистику собственных постов, я решил прогнать ее через модель линейно регрессии.

Загружает данные из tsv файла.

  • points — Рейтинг статьи
  • reads — Число просмотров.
  • comm — Число комментариев.
  • faves — Добавлено в закладки.
  • fb — Поделились в социальных сетях (fb + vk).
  • bytes — Длина в байтах.

Вопреки моим ожиданиям наибольшая отдача не от количества просмотров статьи, а от комментариев и публикаций в социальных сетях. Я также полагал, что число просмотров и комментариев будет иметь более сильную корреляцию, однако зависимость вполне умеренная — нет надобности исключать ни одну из независимых переменных.

Теперь собственно сама модель, используем функцию lm .

В первой строке мы задаем параметры линейной регрессии. Строка points

. определяет зависимую переменную points и все остальные переменные в качестве регрессоров. Можно определить одну единственную независимую переменную через points

reads , набор переменных — points

Перейдем теперь к расшифровке полученных результатов.

  • Intercept — Если у нас модель представлена в виде , то тогда — точка пересечения прямой с осью координат, или intercept .
  • R-squared — Коэффициент детерминации указывает насколько тесной является связь между факторами регрессии и зависимой переменной, это соотношение объясненных сумм квадратов возмущений, к необъясненным. Чем ближе к 1, тем ярче выражена зависимость.
  • Adjusted R-squared — Проблема с в том, что он по любому растет с числом факторов, поэтому высокое значение данного коэффициента может быть обманчивым, когда в модели присутствует множество факторов. Для того, чтобы изъять из коэффициента корреляции данное свойство был придуман скорректированный коэффициент детерминации .
  • F-statistic — Используется для оценки значимости модели регрессии в целом, является соотношением объяснимой дисперсии, к необъяснимой. Если модель линейной регрессии построена удачно, то она объясняет значительную часть дисперсии, оставляя в знаменателе малую часть. Чем больше значение параметра — тем лучше.
  • t value — Критерий, основанный на t распределении Стьюдента . Значение параметра в линейной регрессии указывает на значимость фактора, принято считать, что при t > 2 фактор является значимым для модели.
  • p value — Это вероятность истинности нуль гипотезы, которая гласит, что независимые переменные не объясняют динамику зависимой переменной. Если значение p value ниже порогового уровня (.05 или .01 для самых взыскательных), то нуль гипотеза ложная. Чем ниже — тем лучше.

Можно попытаться несколько улучшить модель, сглаживая нелинейные факторы: комментарии и посты в социальных сетях. Заменим значения переменных fb и comm их степенями.

Проверим значения параметров линейной регрессии.

Как видим в целом отзывчивость модели возросла, параметры подтянулись и стали более шелковистыми , F-статистика выросла, так же как и скорректированный коэффициент детерминации .

Проверим, соблюдены ли условия применимости модели линейной регрессии? Тест Дарбина-Уотсона проверяет наличие автокорреляции возмущений.

И напоследок проверка неоднородности дисперсии с помощью теста Бройша-Пагана.

В заключение

Конечно наша модель линейной регрессии рейтинга Хабра-топиков получилось не самой удачной. Нам удалось объяснить не более, чем половину вариативности данных. Факторы надо чинить, чтобы избавляться от неоднородной дисперсии, с автокорреляцией тоже непонятно. Вообще данных маловато для сколь-нибудь серьезной оценки.

Но с другой стороны, это и хорошо. Иначе любой наспех написанный тролль-пост на Хабре автоматически набирал бы высокий рейтинг, а это к счастью не так.

Регрессионный анализ — определение и вычисление с примерами решения

Регрессионным анализом называется раздел математической статистики, объединяющий практические методы исследования корреляционной зависимости между случайными величинами по результатам наблюдений над ними. Сюда включаются методы выбора модели изучаемой зависимости и оценки ее параметров, методы проверки статистических гипотез о зависимости.

Пусть между случайными величинами X и Y существует линейная корреляционная зависимость. Это означает, что математическое ожидание Y линейно зависит от значений случайной величины X. График этой зависимости (линия регрессии Y на X) имеет уравнение Регрессионный анализ - определение и вычисление с примерами решения

Линейная модель пригодна в качестве первого приближения и в случае нелинейной корреляции, если рассматривать небольшие интервалы возможных значений случайных величин.

Пусть параметры линии регрессии Регрессионный анализ - определение и вычисление с примерами решениянеизвестны, неизвестна и величина коэффициента корреляции Регрессионный анализ - определение и вычисление с примерами решенияНад случайными величинами X и Y проделано n независимых наблюдений, в результате которых получены n пар значений: Регрессионный анализ - определение и вычисление с примерами решенияЭти результаты могут служить источником информации о неизвестных значениях Регрессионный анализ - определение и вычисление с примерами решениянадо только уметь эту информацию извлечь оттуда.

Неизвестная нам линия регрессии Регрессионный анализ - определение и вычисление с примерами решениякак и всякая линия регрессии, имеет то отличительное свойство, что средний квадрат отклонений значений Y от нее минимален. Поэтому в качестве оценок для Регрессионный анализ - определение и вычисление с примерами решенияможно принять те их значения, при которых имеет минимум функция Регрессионный анализ - определение и вычисление с примерами решения

Такие значения Регрессионный анализ - определение и вычисление с примерами решения, согласно необходимым условиям экстремума, находятся из системы уравнений:

Регрессионный анализ - определение и вычисление с примерами решения

Решения этой системы уравнений дают оценки называемые оценками по методу наименьших квадратов.Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения

Известно, что оценки по методу наименьших квадратов являются несмещенными и, более того, среди всех несмещенных оценок обладают наименьшей дисперсией. Для оценки коэффициента корреляции можно воспользоваться тем, что Регрессионный анализ - определение и вычисление с примерами решениягде Регрессионный анализ - определение и вычисление с примерами решениясредние квадратические отклонения случайных величин X и Y соответственно. Обозначим через Регрессионный анализ - определение и вычисление с примерами решенияоценки этих средних квадратических отклонений на основе опытных данных. Оценки можно найти, например, по формуле (3.1.3). Тогда для коэффициента корреляции имеем оценку Регрессионный анализ - определение и вычисление с примерами решения

По методу наименьших квадратов можно находить оценки параметров линии регрессии и при нелинейной корреляции. Например, для линии регрессии вида Регрессионный анализ - определение и вычисление с примерами решенияоценки параметров Регрессионный анализ - определение и вычисление с примерами решениянаходятся из условия минимума функции

Регрессионный анализ - определение и вычисление с примерами решения

Пример:

По данным наблюдений двух случайных величин найти коэффициент корреляции и уравнение линии регрессии Y на X Регрессионный анализ - определение и вычисление с примерами решения

Решение. Вычислим величины, необходимые для использования формул (3.7.1)–(3.7.3):

Регрессионный анализ - определение и вычисление с примерами решения

По формулам (3.7.1) и (3.7.2) получимРегрессионный анализ - определение и вычисление с примерами решения

Итак, оценка линии регрессии имеет вид Регрессионный анализ - определение и вычисление с примерами решенияТак как Регрессионный анализ - определение и вычисление с примерами решениято по формуле (3.1.3)

Регрессионный анализ - определение и вычисление с примерами решения

Аналогично, Регрессионный анализ - определение и вычисление с примерами решенияПоэтому в качестве оценки коэффициента корреляции имеем по формуле (3.7.3) величину Регрессионный анализ - определение и вычисление с примерами решения

Ответ. Регрессионный анализ - определение и вычисление с примерами решения

Пример:

Получена выборка значений величин X и YРегрессионный анализ - определение и вычисление с примерами решения

Для представления зависимости между величинами предполагается использовать модель Регрессионный анализ - определение и вычисление с примерами решенияНайти оценки параметров Регрессионный анализ - определение и вычисление с примерами решения

Решение. Рассмотрим сначала задачу оценки параметров этой модели в общем виде. Линия Регрессионный анализ - определение и вычисление с примерами решенияиграет роль линии регрессии и поэтому параметры ее можно найти из условия минимума функции (сумма квадратов отклонений значений Y от линии должна быть минимальной по свойству линии регрессии)Регрессионный анализ - определение и вычисление с примерами решения

Необходимые условия экстремума приводят к системе из двух уравнений:Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения

Решения системы уравнений (3.7.4) и (3.7.5) и будут оценками по методу наименьших квадратов для параметров Регрессионный анализ - определение и вычисление с примерами решения

На основе опытных данных вычисляем:Регрессионный анализ - определение и вычисление с примерами решения

В итоге получаем систему уравнений (. ) и (. ) в виде Регрессионный анализ - определение и вычисление с примерами решения

Эта система имеет решения Регрессионный анализ - определение и вычисление с примерами решения

Ответ. Регрессионный анализ - определение и вычисление с примерами решения

Если наблюдений много, то результаты их обычно группируют и представляют в виде корреляционной таблицы.Регрессионный анализ - определение и вычисление с примерами решения

В этой таблице Регрессионный анализ - определение и вычисление с примерами решенияравно числу наблюдений, для которых X находится в интервале Регрессионный анализ - определение и вычисление с примерами решенияа Y – в интервале Регрессионный анализ - определение и вычисление с примерами решенияЧерез Регрессионный анализ - определение и вычисление с примерами решенияобозначено число наблюдений, при которых Регрессионный анализ - определение и вычисление с примерами решенияа Y произвольно. Число наблюдений, при которых Регрессионный анализ - определение и вычисление с примерами решенияа X произвольно, обозначено через Регрессионный анализ - определение и вычисление с примерами решения

Если величины дискретны, то вместо интервалов указывают отдельные значения этих величин. Для непрерывных случайных величин представителем каждого интервала считают его середину и полагают, что Регрессионный анализ - определение и вычисление с примерами решенияи Регрессионный анализ - определение и вычисление с примерами решениянаблюдались Регрессионный анализ - определение и вычисление с примерами решенияраз.

При больших значениях X и Y можно для упрощения вычислений перенести начало координат и изменить масштаб по каждой из осей, а после завершения вычислений вернуться к старому масштабу.

Пример:

Проделано 80 наблюдений случайных величин X и Y. Результаты наблюдений представлены в виде таблицы. Найти линию регрессии Y на X. Оценить коэффициент корреляции.Регрессионный анализ - определение и вычисление с примерами решенияРегрессионный анализ - определение и вычисление с примерами решения

Решение. Представителем каждого интервала будем считать его середину. Перенесем начало координат и изменим масштаб по каждой оси так, чтобы значения X и Y были удобны для вычислений. Для этого перейдем к новым переменным Регрессионный анализ - определение и вычисление с примерами решенияЗначения этих новых переменных указаны соответственно в самой верхней строке и самом левом столбце таблицы.

Чтобы иметь представление о виде линии регрессии, вычислим средние значения Регрессионный анализ - определение и вычисление с примерами решенияпри фиксированных значениях Регрессионный анализ - определение и вычисление с примерами решения:Регрессионный анализ - определение и вычисление с примерами решения

Нанесем эти значения на координатную плоскость, соединив для наглядности их отрезками прямой (рис. 3.7.1).Регрессионный анализ - определение и вычисление с примерами решения

По виду полученной ломанной линии можно предположить, что линия регрессии Y на X является прямой. Оценим ее параметры. Для этого сначала вычислим с учетом группировки данных в таблице все величины, необходимые для использования формул (3.31–3.33): Регрессионный анализ - определение и вычисление с примерами решенияРегрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения

В новом масштабе оценка линии регрессии имеет вид Регрессионный анализ - определение и вычисление с примерами решенияГрафик этой прямой линии изображен на рис. 3.7.1.

Для оценки Регрессионный анализ - определение и вычисление с примерами решенияпо корреляционной таблице можно воспользоваться формулой (3.1.3):

Регрессионный анализ - определение и вычисление с примерами решения

Подобным же образом можно оценить Регрессионный анализ - определение и вычисление с примерами решениявеличиной Регрессионный анализ - определение и вычисление с примерами решенияТогда оценкой коэффициента корреляции может служить величина Регрессионный анализ - определение и вычисление с примерами решения

Вернемся к старому масштабу:

Регрессионный анализ - определение и вычисление с примерами решения

Коэффициент корреляции пересчитывать не нужно, так как это величина безразмерная и от масштаба не зависит.

Ответ. Регрессионный анализ - определение и вычисление с примерами решения

Пусть некоторые физические величины X и Y связаны неизвестной нам функциональной зависимостью Регрессионный анализ - определение и вычисление с примерами решенияДля изучения этой зависимости производят измерения Y при разных значениях X. Измерениям сопутствуют ошибки и поэтому результат каждого измерения случаен. Если систематической ошибки при измерениях нет, то Регрессионный анализ - определение и вычисление с примерами решенияиграет роль линии регрессии и все свойства линии регрессии приложимы к Регрессионный анализ - определение и вычисление с примерами решения. В частности, Регрессионный анализ - определение и вычисление с примерами решенияобычно находят по методу наименьших квадратов.

Регрессионный анализ

Основные положения регрессионного анализа:

Основная задача регрессионного анализа — изучение зависимости между результативным признаком Y и наблюдавшимся признаком X, оценка функции регрессий.

Предпосылки регрессионного анализа:

  1. Y — независимые случайные величины, имеющие постоянную дисперсию;
  2. X— величины наблюдаемого признака (величины не случайные);
  3. условное математическое ожидание Регрессионный анализ - определение и вычисление с примерами решенияможно представить в виде Регрессионный анализ - определение и вычисление с примерами решения

Выражение (2.1), как уже упоминалось в п. 1.2, называется функцией регрессии (или модельным уравнением регрессии) Y на X. Оценке в этом выражении подлежат параметры Регрессионный анализ - определение и вычисление с примерами решенияназываемые коэффициентами регрессии, а также Регрессионный анализ - определение и вычисление с примерами решения— остаточная дисперсия.

Остаточной дисперсией называется та часть рассеивания результативного признака, которую нельзя объяснить действием наблюдаемого признака; Остаточная дисперсия может служить для оценки точности подбора вида функции регрессии (модельного уравнения регрессии), полноты набора признаков, включенных в анализ. Оценки параметров функции регрессии находят, используя метод наименьших квадратов.

В данном вопросе рассмотрен линейный регрессионный анализ. Линейным он называется потому, что изучаем лишь те виды зависимостей Регрессионный анализ - определение и вычисление с примерами решениякоторые линейны по оцениваемым параметрам, хотя могут быть нелинейны по переменным X. Например, зависимости Регрессионный анализ - определение и вычисление с примерами решенияРегрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решениялинейны относительно параметров Регрессионный анализ - определение и вычисление с примерами решения Регрессионный анализ - определение и вычисление с примерами решенияхотя вторая и третья зависимости нелинейны относительно переменных х. Вид зависимости Регрессионный анализ - определение и вычисление с примерами решениявыбирают, исходя из визуальной оценки характера расположения точек на поле корреляции; опыта предыдущих исследований; соображений профессионального характера, основанных и знании физической сущности процесса.

Важное место в линейном регрессионном анализе занимает так называемая «нормальная регрессия». Она имеет место, если сделать предположения относительно закона распределения случайной величины Y. Предпосылки «нормальной регрессии»:

  1. Y — независимые случайные величины, имеющие постоянную дисперсию и распределенные по нормальному закону;
  2. X— величины наблюдаемого признака (величины не случайные);
  3. условное математическое ожидание Регрессионный анализ - определение и вычисление с примерами решенияможно представить в виде (2.1).

В этом случае оценки коэффициентов регрессии — несмещённые с минимальной дисперсией и нормальным законом распределения. Из этого положения следует что при «нормальной регрессии» имеется возможность оценить значимость оценок коэффициентов регрессии, а также построить доверительный интервал для коэффициентов регрессии и условного математического ожидания M(Y\X=x).

Линейная регрессия

Рассмотрим простейший случай регрессионного анализа — модель вида (2.1), когда зависимость Регрессионный анализ - определение и вычисление с примерами решениялинейна и по оцениваемым параметрам, и

по переменным. Оценки параметров модели (2.1) Регрессионный анализ - определение и вычисление с примерами решенияобозначил Регрессионный анализ - определение и вычисление с примерами решенияОценку остаточной дисперсии Регрессионный анализ - определение и вычисление с примерами решенияобозначим Регрессионный анализ - определение и вычисление с примерами решенияПодставив в формулу (2.1) вместо параметров их оценки, получим уравнение регрессии Регрессионный анализ - определение и вычисление с примерами решениякоэффициенты которого Регрессионный анализ - определение и вычисление с примерами решениянаходят из условия минимума суммы квадратов отклонений измеренных значений результативного признака Регрессионный анализ - определение и вычисление с примерами решенияот вычисленных по уравнению регрессии Регрессионный анализ - определение и вычисление с примерами решенияРегрессионный анализ - определение и вычисление с примерами решения

Составим систему нормальных уравнений: первое уравнение

Регрессионный анализ - определение и вычисление с примерами решения

откуда Регрессионный анализ - определение и вычисление с примерами решения

второе уравнениеРегрессионный анализ - определение и вычисление с примерами решения

откудаРегрессионный анализ - определение и вычисление с примерами решения

Итак,
Регрессионный анализ - определение и вычисление с примерами решения
Оценки, полученные по способу наименьших квадратов, обладают минимальной дисперсией в классе линейных оценок. Решая систему (2.2) относительно Регрессионный анализ - определение и вычисление с примерами решениянайдём оценки параметров Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения

Остаётся получить оценку параметра Регрессионный анализ - определение и вычисление с примерами решения. Имеем
Регрессионный анализ - определение и вычисление с примерами решения
где т — количество наблюдений.

Еслит велико, то для упрощения расчётов наблюдавшиеся данные принята группировать, т.е. строить корреляционную таблицу. Пример построения такой таблицы приведен в п. 1.5. Формулы для нахождения коэффициентов регрессии по сгруппированным данным те же, что и для расчёта по несгруппированным данным, но суммыРегрессионный анализ - определение и вычисление с примерами решениязаменяют на
Регрессионный анализ - определение и вычисление с примерами решения
где Регрессионный анализ - определение и вычисление с примерами решения— частоты повторений соответствующих значений переменных. В дальнейшем часто используется этот наглядный приём вычислений.

Нелинейная регрессия

Рассмотрим случай, когда зависимость нелинейна по переменным х, например модель вида
Регрессионный анализ - определение и вычисление с примерами решенияРегрессионный анализ - определение и вычисление с примерами решения

На рис. 2.1 изображено поле корреляции. Очевидно, что зависимость между Y и X нелинейная и её графическим изображением является не прямая, а кривая. Оценкой выражения (2.6) является уравнение регрессии

Регрессионный анализ - определение и вычисление с примерами решения

где Регрессионный анализ - определение и вычисление с примерами решения—оценки коэффициентов регрессии Регрессионный анализ - определение и вычисление с примерами решения
Регрессионный анализ - определение и вычисление с примерами решения
Принцип нахождения коэффициентов тот же — метод наименьших квадратов, т.е.

Регрессионный анализ - определение и вычисление с примерами решения

Регрессионный анализ - определение и вычисление с примерами решения

Дифференцируя последнее равенство по Регрессионный анализ - определение и вычисление с примерами решенияи приравнивая правые части нулю, получаем так называемую систему нормальных уравнений:

Регрессионный анализ - определение и вычисление с примерами решения

В общем случае нелинейной зависимости между переменными Y и X связь может выражаться многочленом k-й степени от x:

Регрессионный анализ - определение и вычисление с примерами решения

Коэффициенты регрессии определяют по принципу наименьших квадратов. Система нормальных уравнений имеет вид

Регрессионный анализ - определение и вычисление с примерами решения
Вычислив коэффициенты системы, её можно решить любым известным способом.

Оценка значимости коэффициентов регрессии. Интервальная оценка коэффициентов регрессии

Проверить значимость оценок коэффициентов регрессии — значит установить, достаточна ли величина оценки для статистически обоснованного вывода о том, что коэффициент регрессии отличен от нуля. Для этого проверяют гипотезу о равенстве нулю коэффициента регрессии, соблюдая предпосылки «нормальной регрессии». В этом случае вычисляемая для проверки нулевой гипотезы Регрессионный анализ - определение и вычисление с примерами решениястатистика

Регрессионный анализ - определение и вычисление с примерами решения

имеет распределение Стьюдента с к= n-2 степенями свободы (b — оценка коэффициента регрессии, Регрессионный анализ - определение и вычисление с примерами решения— оценка среднеквадратического отклонения

коэффициента регрессии, иначе стандартная ошибка оценки). По уровню значимости а и числу степеней свободы к находят по таблицам распределения Стьюдента (см. табл. 1 приложений) критическое значение Регрессионный анализ - определение и вычисление с примерами решенияудовлетворяющее условию Регрессионный анализ - определение и вычисление с примерами решениято нулевую гипотезу о равенстве нулю коэффициента регрессии отвергают, коэффициент считают значимым. ПриРегрессионный анализ - определение и вычисление с примерами решениянет оснований отвергать нулевую гипотезу.

Оценки среднеквадратического отклонения коэффициентов регрессии вычисляют по следующим формулам:
Регрессионный анализ - определение и вычисление с примерами решения
где Регрессионный анализ - определение и вычисление с примерами решения— оценка остаточной дисперсии, вычисляемая по
формуле (2.5).

Доверительный интервал для значимых параметров строят по обычной схеме. Из условия

Регрессионный анализ - определение и вычисление с примерами решения
где а — уровень значимости, находим

Регрессионный анализ - определение и вычисление с примерами решения

Интервальная оценка для условного математического ожидания

Линия регрессии характеризует изменение условного математического ожидания результативного признака от вариации остальных признаков.

Точечной оценкой условного математического ожидания Регрессионный анализ - определение и вычисление с примерами решенияявляется условное среднее Регрессионный анализ - определение и вычисление с примерами решенияКроме точечной оценки для Регрессионный анализ - определение и вычисление с примерами решенияможно
построить доверительный интервал в точке Регрессионный анализ - определение и вычисление с примерами решения

Известно, что Регрессионный анализ - определение и вычисление с примерами решенияимеет распределение
Стьюдента с k=n—2 степенями свободы. Найдя оценку среднеквадратического отклонения для условного среднего, можно построить доверительный интервал для условного математического ожидания Регрессионный анализ - определение и вычисление с примерами решения

Оценку дисперсии условного среднего вычисляют по формуле
Регрессионный анализ - определение и вычисление с примерами решения
или для интервального ряда
Регрессионный анализ - определение и вычисление с примерами решения
Доверительный интервал находят из условия
Регрессионный анализ - определение и вычисление с примерами решения
где а — уровень значимости. Отсюда

Регрессионный анализ - определение и вычисление с примерами решения
Доверительный интервал для условного математического ожидания можно изобразить графически (рис, 2.2).

Регрессионный анализ - определение и вычисление с примерами решения

Из рис. 2.2 видно, что в точке Регрессионный анализ - определение и вычисление с примерами решенияграницы интервала наиболее близки друг другу. Расположение границ доверительного интервала показывает, что прогнозы по уравнению регрессии, хороши только в случае, если значение х не выходит за пределы выборки, по которой вычислено уравнение регрессии; иными словами, экстраполяция по уравнению регрессии может привести к значительным погрешностям.

Проверка значимости уравнения регрессии

Оценить значимость уравнения регрессии — значит установить, соответствует ли математическая, модель, выражающая зависимость между Y и X, экспериментальным данным. Для оценки значимости в предпосылках «нормальной регрессии» проверяют гипотезу Регрессионный анализ - определение и вычисление с примерами решенияЕсли она отвергается, то считают, что между Y и X нет связи (или связь нелинейная). Для проверки нулевой гипотезы используют основное положение дисперсионного анализа о разбиении суммы квадратов на слагаемые. Воспользуемся разложением Регрессионный анализ - определение и вычисление с примерами решения— Общая сумма квадратов отклонений результативного признака

Регрессионный анализ - определение и вычисление с примерами решенияразлагается на Регрессионный анализ - определение и вычисление с примерами решения(сумму, характеризующую влияние признака

X) и Регрессионный анализ - определение и вычисление с примерами решения(остаточную сумму квадратов, характеризующую влияние неучтённых факторов). Очевидно, чем меньше влияние неучтённых факторов, тем лучше математическая модель соответствует экспериментальным данным, так как вариация У в основном объясняется влиянием признака X.

Для проверки нулевой гипотезы вычисляют статистику Регрессионный анализ - определение и вычисление с примерами решениякоторая имеет распределение Фишера-Снедекора с А Регрессионный анализ - определение и вычисление с примерами решениястепенями свободы (в п — число наблюдений). По уровню значимости а и числу степеней свободы Регрессионный анализ - определение и вычисление с примерами решениянаходят по таблицам F-распределение для уровня значимости а=0,05 (см. табл. 3 приложений) критическое значение Регрессионный анализ - определение и вычисление с примерами решенияудовлетворяющее условию Регрессионный анализ - определение и вычисление с примерами решения. Если Регрессионный анализ - определение и вычисление с примерами решениянулевую гипотезу отвергают, уравнение считают значимым. Если Регрессионный анализ - определение и вычисление с примерами решениято нет оснований отвергать нулевую гипотезу.

Многомерный регрессионный анализ

В случае, если изменения результативного признака определяются действием совокупности других признаков, имеет место многомерный регрессионный анализ. Пусть результативный признак У, а независимые признаки Регрессионный анализ - определение и вычисление с примерами решенияДля многомерного случая предпосылки регрессионного анализа можно сформулировать следующим образом: У -независимые случайные величины со средним Регрессионный анализ - определение и вычисление с примерами решенияи постоянной дисперсией Регрессионный анализ - определение и вычисление с примерами решения— линейно независимые векторы Регрессионный анализ - определение и вычисление с примерами решения. Все положения, изложенные в п.2.1, справедливы для многомерного случая. Рассмотрим модель вида

Регрессионный анализ - определение и вычисление с примерами решения

Оценке подлежат параметры Регрессионный анализ - определение и вычисление с примерами решенияи остаточная дисперсия.

Заменив параметры их оценками, запишем уравнение регрессии

Регрессионный анализ - определение и вычисление с примерами решения
Коэффициенты в этом выражении находят методом наименьших квадратов.

Исходными данными для вычисления коэффициентов Регрессионный анализ - определение и вычисление с примерами решенияявляется выборка из многомерной совокупности, представляемая обычно в виде матрицы X и вектора Y:
Регрессионный анализ - определение и вычисление с примерами решения

Как и в двумерном случае, составляют систему нормальных уравнений
Регрессионный анализ - определение и вычисление с примерами решения
которую можно решить любым способом, известным из линейной алгебры. Рассмотрим один из них — способ обратной матрицы. Предварительно преобразуем систему уравнений. Выразим из первого уравнения значение Регрессионный анализ - определение и вычисление с примерами решениячерез остальные параметры:

Регрессионный анализ - определение и вычисление с примерами решения

Подставим в остальные уравнения системы вместо Регрессионный анализ - определение и вычисление с примерами решенияполученное выражение:

Регрессионный анализ - определение и вычисление с примерами решения

Пусть С — матрица коэффициентов при неизвестных параметрах Регрессионный анализ - определение и вычисление с примерами решенияРегрессионный анализ - определение и вычисление с примерами решения— матрица, обратная матрице С; Регрессионный анализ - определение и вычисление с примерами решения— элемент, стоящий на пересечении i-Й строки и i-го столбца матрицы Регрессионный анализ - определение и вычисление с примерами решения— выражение
Регрессионный анализ - определение и вычисление с примерами решения. Тогда, используя формулы линейной алгебры,

запишем окончательные выражения для параметров:

Регрессионный анализ - определение и вычисление с примерами решения

Оценкой остаточной дисперсии Регрессионный анализ - определение и вычисление с примерами решенияявляется

Регрессионный анализ - определение и вычисление с примерами решения

где Регрессионный анализ - определение и вычисление с примерами решения— измеренное значение результативного признака; Регрессионный анализ - определение и вычисление с примерами решениязначение результативного признака, вычисленное по уравнению регрессий.

Если выборка получена из нормально распределенной генеральной совокупности, то, аналогично изложенному в п. 2.4, можно проверить значимость оценок коэффициентов регрессии, только в данном случае статистику Регрессионный анализ - определение и вычисление с примерами решениявычисляют для каждого j-го коэффициента регрессии

Регрессионный анализ - определение и вычисление с примерами решения

где Регрессионный анализ - определение и вычисление с примерами решения—элемент обратной матрицы, стоящий на пересечении i-й строки и j-
го столбца; Регрессионный анализ - определение и вычисление с примерами решения—диагональный элемент обратной матрицы.

При заданном уровне значимости а и числе степеней свободы к=n— m—1 по табл. 1 приложений находят критическое значение Регрессионный анализ - определение и вычисление с примерами решенияЕсли Регрессионный анализ - определение и вычисление с примерами решениято нулевую гипотезу о равенстве нулю коэффициента регрессии отвергают. Оценку коэффициента считают значимой. Такую проверку производят последовательно для каждого коэффициента регрессии. Если Регрессионный анализ - определение и вычисление с примерами решениято нет оснований отвергать нулевую гипотезу, оценку коэффициента регрессии считают незначимой.

Для значимых коэффициентов регрессии целесообразно построить доверительные интервалы по формуле (2.10). Для оценки значимости уравнения регрессии следует проверить нулевую гипотезу о том, что все коэффициенты регрессии (кроме свободного члена) равны нулю: Регрессионный анализ - определение и вычисление с примерами решения Регрессионный анализ - определение и вычисление с примерами решения— вектор коэффициентов регрессии). Нулевую гипотезу проверяют, так же как и в п. 2.6, с помощью статистики Регрессионный анализ - определение и вычисление с примерами решения, где Регрессионный анализ - определение и вычисление с примерами решения— сумма квадратов, характеризующая влияние признаков X; Регрессионный анализ - определение и вычисление с примерами решения— остаточная сумма квадратов, характеризующая влияние неучтённых факторов; Регрессионный анализ - определение и вычисление с примерами решенияРегрессионный анализ - определение и вычисление с примерами решенияДля уровня значимости а и числа степеней свободы Регрессионный анализ - определение и вычисление с примерами решенияпо табл. 3 приложений находят критическое значение Регрессионный анализ - определение и вычисление с примерами решенияЕсли Регрессионный анализ - определение и вычисление с примерами решениято нулевую гипотезу об одновременном равенстве нулю коэффициентов регрессии отвергают. Уравнение регрессии считают значимым. При Регрессионный анализ - определение и вычисление с примерами решениянет оснований отвергать нулевую гипотезу, уравнение регрессии считают незначимым.

Факторный анализ

Основные положения. В последнее время всё более широкое распространение находит один из новых разделов многомерного статистического анализа — факторный анализ. Первоначально этот метод

разрабатывался для объяснения многообразия корреляций между исходными параметрами. Действительно, результатом корреляционного анализа является матрица коэффициентов корреляций. При малом числе параметров можно произвести визуальный анализ этой матрицы. С ростом числа параметра (10 и более) визуальный анализ не даёт положительных результатов. Оказалось, что всё многообразие корреляционных связей можно объяснить действием нескольких обобщённых факторов, являющихся функциями исследуемых параметров, причём сами обобщённые факторы при этом могут быть и неизвестны, однако их можно выразить через исследуемые параметры.

Один из основоположников факторного анализа Л. Терстоун приводит такой пример: несколько сотен мальчиков выполняют 20 разнообразных гимнастических упражнений. Каждое упражнение оценивают баллами. Можно рассчитать матрицу корреляций между 20 упражнениями. Это большая матрица размером 20>

При копировании любых материалов с сайта evkova.org обязательна активная ссылка на сайт www.evkova.org

Сайт создан коллективом преподавателей на некоммерческой основе для дополнительного образования молодежи

Сайт пишется, поддерживается и управляется коллективом преподавателей

Telegram и логотип telegram являются товарными знаками корпорации Telegram FZ-LLC.

Cайт носит информационный характер и ни при каких условиях не является публичной офертой, которая определяется положениями статьи 437 Гражданского кодекса РФ. Анна Евкова не оказывает никаких услуг.

Регрессионный анализ

Insights в ArcGIS Online

Регрессионный анализ ­ статистический аналитический метод, позволяющий вычислить предполагаемые отношения между зависимой переменной одной или несколькими независимыми переменными. Используя регрессионный анализ, вы можете моделировать отношения между выбранным переменными, а также прогнозируемыми значениями на основе модели.

Обзор регрессионного анализа

Регрессионный анализ использует выбранный метод оценки, зависимую переменную и одну или несколько независимых переменных для создания уравнения, которое оценивает значения зависимой переменной.

Модель регрессии включает выходные данные, например R 2 и p-значения, по которым можно понять, насколько хорошо модель оценивает зависимую переменную.

Диаграммы, например матрица точечной диаграммы, гистограмма и точечная диаграмма, также используются в регрессионном анализе для анализа отношений и проверки допущений.

  • Выявить, какая независимая переменная связана с зависимой.
  • Понять отношения между зависимой и независимыми переменными.
  • Предсказать неизвестные значения зависимой переменной.

Примеры

Аналитик в рамках исследования для небольшой розничной сети изучает эффективность работы различных магазинов. Он хочет выяснить, почему некоторые магазины показывают очень небольшой объем продаж. Аналитик строит модель регрессии с независимыми переменными, такими как средний возраст и средний доход жителей, проживающих вокруг магазинов, а так же расстояние до торговых центров и остановок общественного транспорта, чтобы выявить, какая именно переменная наиболее влияет на продажи.

Аналитик департамента образования исследует эффективность новой программы питания в школе. Аналитик строит модель регрессии для показателей успеваемости, используя такие независимые переменные, как размер класса, доход семьи, размер подушевого финансирования учащихся и долю учащихся, питающихся в школе. Уравнение модели используется для выявления относительного вклада каждой переменной в показатели успеваемости учебного заведения.

Аналитик неправительственной организации изучает эффект глобальных выбросов парниковых газов. Аналитик строит модель регрессии для выбросов в последнее время, зафиксированных в каждой стране, используя независимые переменные, такие как валовой внутренний продукт( ВВП), численность населения, производство электроэнергии с использованием добываемого углеводородного топлива и использование транспортных средств. Эту модель можно использовать использована для прогнозирования будущих выбросов парниковых газов на основе предполагаемых значений значений ВВП и численности населения.

Наименьшие квадраты

Регрессионный анализ в ArcGIS Insights моделируется на основе Метода наименьших квадратов (МНК).

МНК – форма множественной линейной регрессии, допускающей, что отношения между зависимыми и независимыми переменными должны моделироваться подгонкой линейного уравнения к данным наблюдений.

МНК использует следующее уравнение:

  • yi=наблюдаемое=наблюдаемое значение независимой переменной в точке i
  • β0=y-интерсепт (отрезок на координатной оси, постоянное значение)
  • βn=коэффициент регрессии или уклона независимой переменной N в точке i
  • xn=значение переменной N в точке i
  • ε=ошибка уравнения регрессии

Допущения (Предположения)

Каждый метод регрессии имеет несколько допущений, которые должны быть выполнены для того, чтобы уравнение считалось надежным. Допущения МНК должны быть проверены при создании модели регрессии.

Модель должна быть линейной.

Регрессия МНК используется только при построении линейной модели. Линейную зависимость между зависимой и независимыми переменными можно проверить используя точечную диаграмму (рассеивания). Матрица точечной диаграммы может проверить все переменные, при условии, что всего используется не более 5 переменных.

Данные должны быть распределены произвольно.

Данные, используемые в регрессионном анализе, должны быть произвольно распределены, то есть выборки данных не должны зависеть от какого-либо внешнего фактора. Произвольное распределение можно проверить, используя невязки в модели регрессии. Невязки, рассчитываемые как результат модели регрессии, не должны коррелировать при нанесении их на точечную диаграмму или матрицу точечной диаграммы вместе с независимыми переменными.

Независимые переменные не должны быть коллинеарны.

Коллинеарность — это линейная связь между независимыми переменными, которая создает избыточность в модели. В ряде случаев модель создается с коллинеарностью. Тем не менее, если одна из коллинеарных переменных зависит от другой, возможно, стоит удалить ее из модели. Оценить коллинеарность можно с помощью точечной диаграммы или матрицы точечной диаграммы независимых переменных.

Независимые переменные должны иметь незначительную погрешность измерения.

Точность модели регрессии соответствует точности входных данных. Если независимые переменные имеют большой разброс ошибок, модель нельзя считать точной. При выполнении регрессионного анализа очень важно использовать наборы данных только из известных и доверенных источников, чтобы быть уверенным в незначительности ошибок.

Предполагаемая сумма невязок должна быть равна нулю.

Невязки представляют собой разность между ожидаемыми и наблюдаемыми значениями в регрессионном анализе. Наблюдаемые значения выше кривой регрессии имеют положительное значение невязки, а значения ниже кривой регрессии – отрицательные. Кривая регрессии должны проходить через центр точек данных; соответственно сумма невязок должны стремиться к нулю. Сумму значений поля можно вычислить в суммарной таблице.

Невязки должны иметь равномерную вариабельность.

Величина вариабельности должна быть одинаковой для всех невязок. Это допущение проверяется с использованием точечной диаграммы невязок (ось y) и оцениваемых значений (ось x). Результирующая точечная диаграмма отображается как горизонтальная полоса с произвольно разбросанными точками по всей площади.

Распределение невязок должно соответствовать нормальному.

Нормальное распределение – кривая в форме колокола – является естественным распределением, где высокая частота явления наблюдается рядом со средним значением, и по мере увеличения расстояния от среднего частота снижается. В статистическом анализе нормальное распределение часто используется как нулевая гипотеза. Если распределение невязок соответствует нормальному, линия наилучшего соответствия проходит по центру наблюдаемых точек данных, а не отклоняется, приближаясь к одним, и отклоняясь от других. Это допущение можно проверить, построив гистограмму невязок. Кривая нормального распределения может не поместиться в карточку и сдвиги и эксцессы переносятся на обратную сторону карточки гистограммы.

Смежные невязки не должны обнаруживать автокорреляцию.

Это допущение основано на хронологии данных. Если данные соответствуют хронологии, каждая точка данных должна быть независима от предыдущей или последующей точки данных. Поэтому при выполнении регрессионного анализа важно убедиться, что хронологический порядок данных соответствует нормальному ходу времени. Это допущение вычисляется с использованием теста Дарбина-Уотсона.

Тест Дарбина-Уотсона измеряет автокорреляцию невязок в модели регрессии. Критерий Дурбина-Ватсона использует шкалу от 0 до 4, где значения от 0 до 2 указывают на положительную автокорреляцию, 2 – отсутствие автокорреляции, а от 2 до 4 отрицательную автокорреляцию. То есть, чтобы соответствовать допущению об отсутствии автокорреляции невязок, необходимо получить значение, приближающееся к 2. В целом, значения между 1.5 и 2.5 считаются допустимыми, а меньше 1.5 или больше 2.5 указывают на то, что модель не соответствует утверждению об отсутствии автокорреляции.

Пригодность модели

Точность уравнения регрессии – основа регрессионного анализа. Все модели будут иметь некую ошибку, но понимание этой статистики поможет вам определить, можно ли использовать эту модель для вашего анализа, или необходимо выполнить дополнительные преобразования.

Существуют два метода проверки корректности модели регрессии: исследовательский анализ и подтверждающий анализ.

Исследовательский анализ

Исследовательский анализ – технология анализа данных с использованием разнообразных статистических и визуальных методов. В рамках исследовательского анализа вы проверяете допущения регрессии МНК и сравниваете эффективность различных независимых переменных. Исследовательский анализ позволяет вам сравнить эффективность и точность разных моделей, но не может определить, должны ли вы использовать или отклонить ту или иную модель. Исследовательский анализ необходимо проводить перед анализом подтверждения для каждой модели регрессии, возможно, несколько раз, для сравнения разных моделей.

  • Точечная диаграмма (рассеяния) и матрица точечной диаграммы
  • Гистограмма и анализ нормального распределения
  • Уравнение регрессии и прогнозирование новых наблюдений
  • Коэффициент детерминации, R 2 и скорректированный R 2
  • Стандартная ошибка невязки
  • Точечная диаграмма

Исследовательский анализ начинается, когда вы выбираете независимые переменные, и до построения модели регрессии. Так как МНК – метод линейной регрессии, основное допущение – модель должна быть линейной. Точечная диаграмма (рассеяния) и матрица точечной диаграммы могут быть использованы для анализа линейной зависимости между зависимой переменной и независимыми переменными. Матрица точечной диаграммы может отобразить до 4х независимых переменных с зависимой переменной, что позволяет сразу провести сравнение между всеми переменными. Простая диаграмма рассеяния может отобразить только две переменные: одну зависимую и одну независимую. Просмотр диаграммы рассеяния с зависимой переменной и одной независимой переменной позволяет сделать более точное допущение об отношении между переменными. Линейность можно проверить перед созданием модели регрессии, чтобы определить, какие именно независимые переменные следует использовать для создания пригодной модели.

Несколько выходных статистических показателей также доступны после создания модели регрессии, к ним относятся: уравнение регрессии, значение R 2 и критерий Дурбина-Ватсона. После создания модели регрессии вы должны использовать выходные показатели, а также диаграммы и таблицы для проверки остальных допущений регрессии МНК. Если ваша модель удовлетворяет допущениям, вы можете продолжить исследовательский анализ.

Уравнение регрессии дает возможность оценить влияние каждой независимой переменной на прогнозируемые значения, включая коэффициент регрессии для каждой независимой переменной. Можно сравнить величины уклона для определения влияния каждой независимой переменной на зависимую переменную; Чем дальше от нуля значение уклона (неважно, в положительную, или отрицательную сторону) – тем больше влияние. Уравнение регрессии также может быть использовано для прогнозирования значений зависимой переменной через вод значений каждой независимой переменной.

Коэффициент детерминации, обозначаемый как R 2 , измеряет, насколько хорошо уравнение регрессии моделирует фактические точки данных. Значение R 2 – число в диапазоне от 0 до 1, причем, чем ближе значение к 1, тем более точная модель. Если R 2 равен 1, это указывает на идеальную модель, что крайне маловероятно в реальных ситуациях, учитывая сложность взаимодействий между различными факторами и неизвестными переменными. Поэтому следует стремиться к созданию регрессионной модели с максимально возможным значением R 2 , понимая, что значение не может быть равно 1.

При выполнении регрессионного анализа существует риск создания модели регрессии, имеющей допустимое значение R 2 , путем добавления независимых переменных, случайным образом показывающих хорошее соответствие. Значение Скорректированный R 2 , которое также должно находиться в диапазоне между 0 и 1, учитывает дополнительные независимые переменные, уменьшая роль случайности в вычислении. Скорректированный R 2 нужно использовать в модели с большим количеством независимых переменных или при сравнении моделей с различным числом независимых переменных.

Стандартная ошибка невязки измеряет точность, с которой регрессионная модель может предсказывать значения с новыми данными. Меньшие значения указывают на более точную модель, соответственно при сравнении нескольких моделей, та, где это значение самое меньшее из всех – модель, в которой минимизирована стандартная ошибка невязки.

Точечная диаграмма может быть использована для анализа независимых переменных, с целью выявления кластеризации или выбросов, которые могут влиять на точность модели.

Анализ подтверждения

Анализ подтверждения — процесс оценки модели в сравнении с нулевой гипотезой. В регрессионном анализа нулевая гипотеза утверждает, что отношения между зависимой и независимыми переменными отсутствуют. Для модели с отсутствием отношений величина уклона равна 0. Если элементы анализа подтверждения статистически значимы — вы можете отклонить нулевую гипотезу ((другими словами, статистически подтверждается наличие отношений между зависимой и независимыми переменными).

Для определения значимости, как компонента анализа, используются следующие статистические показатели:

  • F-статистика, и связанное с ней p-значение
  • T-статистика, и связанное с ней p-значение
  • Доверительные интервалы

F-статистика — глобальный статистический показатель, возвращаемый F-критерием, который показывает возможности прогнозирования модели через расчет коэффициентов регрессии в модели, которые значительно отличаются от 0. F-критерий анализирует комбинированное влияние независимых переменных, а не оценивает каждую в отдельности. С F-статистикой связано соответствующее p-значение, которое является мерой вероятности того, что детерминированные отношения между переменными являются случайными Так как p-значения базируются на вероятности, значения располагаются в диапазоне от 0.0 до 1.0. Небольшое p-значение, обычно 0.05 или меньше, свидетельствует о том, что в модели реально есть отношения между переменными (то есть, выявленная закономерность не является случайной) что дает нам право отвергнуть нулевую гипотезу. В этом случае, вероятность того, что отношения в модели случайны, равна 0.05, или 1 к 20. Или, вероятность того, что отношения реальны, равна 0.95, или 19 к 20.

Показатель t-статистика — это локальный статистический показатель, возвращаемый t-критерием, который показывает возможности прогнозирования для каждой независимой переменной отдельно. Так же, как и F-критерий, t-критерий анализирует коэффициенты регрессии в модели, которые значительно отличаются от 0. Так как t-критерий применяется к каждой независимой переменной, модель вернет значение t-статистики для каждой независимой переменной, а не одно значение для всей модели. Каждое значение t-статистики имеет связанное с ним p-значение, которое указывает на значимость независимой переменной. Так же, как и для F-критерия, p-значение для каждого t-критерия должно быть 0.05 или менее, чтобы мы могли отвергнуть нулевую гипотезу. Если p-значение для независимой переменной больше 0.05, эту переменную не стоит включать в модель, и необходимо строить новую модель, даже если глобальное значение вероятности для исходной модели указывает на статистическую значимость.

Доверительные интервалы визуализируют коэффициенты регрессии для каждой независимой переменной и могут быть 90, 95 и 99 процентов. Поэтому доверительные интервалы можно использовать наряду с p-значениями t-критерия для оценки значимости нулевой гипотезы для каждой независимой переменной. Коэффициенты регрессии на должны быть равны 0, только в этом случае вы можете отклонить нулевую гипотезу и продолжить использовать модель. Поэтому, для каждой независимой переменной, коэффициент регрессии, и связанный с ним доверительный интервал не может перекрываться с 0. Если доверительные интервалы в 99 или 95 процентов для данной независимой переменой перекрываются с 0, эта независимая переменная не дает возможности отклонить нулевую гипотезу. Включение этой переменной в модель может негативно повлиять на общую значимость вашей модели. Если только 90-процентный доверительный интервал перекрывается с 0, эта переменная может быть включена в модель, общая статистическая значимость которой вас удовлетворяет. В идеале, доверительные интервалы для всех независимых переменных должны быть как можно дальше от 0.

Другие выходные данные

Остальные выходные данные, такие как прогнозируемые значения и невязки также важны для допущений регрессии МНК. В этом разделе вы можете узнать подробнее, как эти значения вычисляются.

Ожидаемые значения

Ожидаемые значения вычисляются на основе уравнения регрессии и значений каждой независимой переменной. В идеале, ожидаемые значения должны совпадать с наблюдаемыми (реальными значениями зависимой переменной).

Ожидаемые значения, вместе с наблюдаемым значениями, используются для вычисления невязок.

Невязки

Невязки в регрессионном анализе – это различия между наблюдаемыми значениями в наборе данных и ожидаемыми значениями, вычисленными с помощью уравнения регрессии.

Точечная диаграмма со значениями невязок и линией наилучшего соответствия

Невязки A и B для отношений выше вычисляются следующим образом:

Невязки используются для вычисления ошибки уравнения регрессии, а также для проверки некоторых допущений.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *