Детерминация корреляция: Коэффициент детерминации и линейная регрессия

Коэффициент корреляции и коэффициент детерминации

Эмпирический коэффициент детерминации широко используется в задачах статистики и является показателем, который представляет долю межгруппопой дисперсии в общей дисперсии результативного признака и характеризует силу влияния группировочного признака на образование общей вариации. Он может быть рассчитан по формуле:

Данный коэффициент показывает долю вариации результативного признака у под влиянием фактора х. При отсутствии связи эмпирический коэффициент детерминации равен нулю, а при функциональной сильной связи — единице.

Эмпирическое корреляционное отношение

Эмпирическое корреляционное отношение представляется как корень квадратный из эмпирического коэффициента детерминации. Оно показывает тесноту связи между статистическими данными и определяется по формуле:

где числитель — дисперсия групповых средних;
знаменатель — общая дисперсия.

Корреляционное отношение равно нулю, если связи между данными нет. 3 — куб среднего квадратичного отклонения.

Коэффициент асимметрии является безмерной величиной, что позволяет использовать его для различных распределений. При левосторонней асимметрии Mо > Mt > xср, при правосторонней — обратные соотношения. Это позволяет применять наиболее простой показатель асимметрии:

Эксцесс в статистике

Эксцесс есть степень крутости эмпирического распределения по отношению к нормальному. Он определяется по формуле:

где числитель — центральный момент четвертого порядка

Когда распределение островершинное по отношению к нормальному, эксцесс будет положительным, если плосковершинное — отрицательным. Для нормального распределения Е = 0.

Источник: Балинова B.C. Статистика в вопросах и ответах: Учеб. пособие. — М.: ТК. Велби, Изд-во Проспект, 2004. — 344 с.

Коэффициент детерминации (Coefficient of determination) · Loginom Wiki

Синонимы: Коэффициент смешанной корреляции, Коэффициент R-квадрат

Разделы: Метрики

Loginom: Статистика (визуализатор)

Статистический показатель, отражающий объясняющую способность регрессии f:X→Y и определяемый как доля дисперсии зависимой переменной, объяснённая регрессионной моделью с данным набором независимых переменных. Обычно определяется как единица минус доля необъяснённой дисперсии, т.е:

R2=1−∑i(yi−ˆy)2∑i(yi−¯y)2=1−SSESST,(1)

где:

  • SSE=∑i(yi−ˆyi)2 — сумма квадратов остатков (ошибок) регрессии (sum square of errors),
  • SST=∑i(yi−¯¯¯yi)2 — полная сумма квадратов (sum square total), т.е. сумма квадратов отклонений точек данных от среднего значения,
  • Xn=(xi,yi)ni=1 — набор данных из n наблюдений,
  • yi∈Y, ¯¯¯yi=∑iyin,
  • ˆyi=f(xi).

Коэффициент детерминации является статистической мерой согласия, с помощью которой можно определить, насколько модель линейной регрессии соответствует данным, на которых она построена.

Коэффициент детерминации изменяется в диапазоне от 0 до 1. Если он равен 0, это означает, что связь между переменными регрессионной модели отсутствует и вместо нее для оценки значения выходной переменной можно использовать простое среднее ее наблюдаемых значений. Напротив, если коэффициент детерминации равен 1, это соответствует идеальной модели, когда все точки наблюдений лежат точно на линии регрессии, т.

е. сумма квадратов их отклонений равна 0.

На практике, если коэффициент детерминации близок к 1, это указывает на то, что модель работает очень хорошо (имеет высокую значимость), а если к 0, то это означает низкую значимость модели, когда входная переменная плохо «объясняет» поведение выходной, т.е. линейная зависимость между ними отсутствует. Очевидно, что такая модель будет иметь низкую эффективность.

Иногда коэффициент детерминации вводят как отношение:

R2=∑i(ˆyi−¯yi)2∑i(yi−¯yi)2,

где SSR=∑i(ˆyi−¯¯¯yi)2 — сумма квадратов регрессии (sum square of regression). Хотя данное определение является более простым, оно может использоваться только для регрессии с константой (если свободный член в уравнении регрессии не равен нулю), когда знаменатель не обращается в 0. В противном случае необходимо использовать общее соотношение (1).

Недостатком коэффициента детерминации при его применении в качестве меры значимости регрессионных моделей заключается в том, что его значение возрастает (по крайней мере не уменьшается) при добавлении в модель новых зависимых переменных, даже если они никак не связаны с независимой. Это делает сравнение регрессионных моделей с разными наборами предикторов с использованием коэффициента детерминации некорректным.

Поэтому для сравнения моделей используют скорректированный коэффициент детерминации, при вычислении которого вводится штраф за дополнительно вводимые в модель переменные. Скорректированный (adjasted) коэффициент детерминации вычисляется по формуле:

R2adj=1−∑i(yi−ˆy)2(n−k)∑i(yi−¯y)2(n−1)=1−SSE(n−k)SST(n−1),

где k — число независимых переменных модели, n — количество наблюдений в наборе данных.

Очевидно, что R2adj≤R2. При этом обычный коэффициент детерминации по определению принимает значения от 0 до 1, а скорректированный теоретически может принимать небольшие отрицательные значения когда коэффициент детерминации мал, а число независимых переменных велико.

2.7 — Примеры коэффициента детерминации и корреляции

Давайте рассмотрим несколько примеров, чтобы попрактиковаться в интерпретации коэффициента детерминации r 2 и коэффициента корреляции r .

Пример 1. Насколько сильна линейная зависимость между температурами в градусах Цельсия и температурами в градусах Фаренгейта? Вот график оценочного уравнения регрессии на основе n = 11 точек данных:

Статистическое программное обеспечение сообщает, что

r 2 = 100% и r = 1,000. Оба измерения говорят нам о том, что существует идеальная линейная зависимость между температурой в градусах Цельсия и температурой в градусах Фаренгейта. Мы знаем, что соотношение идеальное, а именно, что по Фаренгейту = 32 + 1,8 × по Цельсию. Поэтому неудивительно, что r 2 говорит нам о том, что 100% изменения температуры в градусах Фаренгейта объясняется температурой в градусах Цельсия.

Пример 2. Насколько сильна линейная зависимость между этажностью здания и его высотой? Можно было бы подумать, что по мере увеличения количества этажей высота будет увеличиваться, но не идеально.

Некоторые статистики собрали данные по набору из n = 60 зданий, зарегистрированных во Всемирном альманахе 1994 года (bldgstories.txt). Статистическое программное обеспечение сообщает r 2 = 90,4% и r = 0,951 и дает следующий график:

Положительный знак r говорит нам, что связь положительна — по мере увеличения количества этажей высота увеличивается — как мы и ожидали. Поскольку r близко к 1, это говорит нам о том, что линейная зависимость очень сильная, но не идеальная. Значение r 2 говорит нам о том, что 90,4% вариации высоты здания объясняются количеством этажей в здании.

Пример 3. Насколько сильна линейная зависимость между возрастом водителя и расстоянием, которое водитель может видеть? Если бы нам пришлось угадывать, мы могли бы подумать, что связь отрицательна — с возрастом расстояние уменьшается. Исследовательская фирма (Last Resource, Inc., Bellefonte, PA) собрала данные по выборке из n = 30 водителей (signdist. txt). Статистическое программное обеспечение сообщает, что r 2 = 64,2% и r = -0,801, и дает следующий результат:

Отрицательный знак r говорит нам об отрицательной связи — по мере увеличения возраста вождения расстояние видимости уменьшается — как мы и ожидали. Поскольку r довольно близко к -1, это говорит нам о том, что линейная зависимость довольно сильная, но не идеальная. Значение r 2 говорит нам о том, что 64,2% вариации дальности видимости уменьшаются за счет учета возраста водителя.

Пример 4. Насколько сильна линейная зависимость между ростом учащегося и его средним баллом? Данные были собраны по случайной выборке из n = 35 студентов курса статистики в Университете штата Пенсильвания (heightgpa.txt).

Статистическое программное обеспечение сообщает, что r 2 = 0,3% и r = -0,053, и выдает следующий результат:

Поскольку r — надеюсь, это не удивительно, это предполагает близкое к 0, — что между ростом и средним баллом практически нет линейной зависимости. Действительно, 9Значение 0003 r 2 говорит нам о том, что только 0,3% вариаций средних оценок учащихся в выборке можно объяснить их ростом. Короче говоря, нам нужно определить еще одну более важную переменную, например, количество учебных часов, если для нас важно прогнозирование среднего балла учащегося.

‹ 2,6 — (Пирсон) Коэффициент корреляции r вверх 2.8 — R-квадрат Предупреждения ›

Коэффициент детерминации: Обзор

По

Эндрю Блументаль

Полная биография

Эндрю Блументаль имеет более чем 20-летний опыт работы редактором в качестве финансового журналиста и писателя, занимающегося вопросами маркетинга финансовых услуг.

Узнайте о нашем редакционная политика

Обновлено 10 октября 2021 г.

Рассмотрено

Маргарет Джеймс

Рассмотрено Маргарет Джеймс

Полная биография

Пегги Джеймс — дипломированный бухгалтер с более чем 9-летним опытом работы в области бухгалтерского учета и финансов, включая корпоративные, некоммерческие и личные финансы. Последнее время она работала в Университете Дьюка и является владельцем Peggy James, CPA, PLLC, обслуживающей малый бизнес, некоммерческие организации, индивидуальных предпринимателей, фрилансеров и частных лиц.

Узнайте о нашем Совет финансового контроля

Факт проверен

Сюзанна Квилхауг

Факт проверен Сюзанна Квилхауг

Полная биография

Сюзанна — исследователь, писатель и специалист по проверке фактов. Она имеет степень бакалавра финансов в государственном университете Бриджуотер и работала над печатным контентом для владельцев бизнеса, национальных брендов и крупных изданий.

Узнайте о нашем редакционная политика

Что такое коэффициент детерминации?

Коэффициент детерминации — это статистическое измерение, которое исследует, как различия в одной переменной могут быть объяснены различием во второй переменной при прогнозировании исхода данного события. Другими словами, этот коэффициент, более известный как R-квадрат (или R 2 ), оценивает, насколько сильна линейная связь между двумя переменными, и на него в значительной степени полагаются исследователи при проведении анализа тенденций. В качестве примера применения этого коэффициента можно рассмотреть следующий вопрос: если женщина забеременеет в определенный день, какова вероятность того, что она родит ребенка в определенный день в будущем? В этом сценарии эта метрика предназначена для расчета корреляции между двумя связанными событиями: зачатием и рождением.

R-квадрат

Ключевые выводы

  • Коэффициент детерминации — это сложная идея, основанная на статистическом анализе моделей данных.
  • Коэффициент детерминации используется для объяснения того, насколько изменчивость одного фактора может быть вызвана его связью с другим фактором.
  • Этот коэффициент широко известен как R-квадрат (или R 2 ) и иногда упоминается как «качество соответствия».
  • Этот показатель представлен значением от 0,0 до 1,0, где значение 1,0 указывает на идеальное соответствие и, таким образом, является высоконадежной моделью для будущих прогнозов, а значение 0,0 указывает на то, что модель не может точно смоделировать данные вообще.

Понимание коэффициента детерминации

Коэффициент детерминации — это мера, используемая для объяснения того, насколько изменчивость одного фактора может быть вызвана его связью с другим родственным фактором. Эта корреляция, известная как «степень соответствия», представлена ​​как значение от 0,0 до 1,0. Значение 1,0 указывает на идеальное соответствие и, таким образом, является очень надежной моделью для будущих прогнозов, а значение 0,0 указывает на то, что расчет вообще не может точно смоделировать данные. Но значение 0,20, например, предполагает, что 20 % зависимой переменной предсказывается независимой переменной, а значение 0,50 предполагает, что 50 % зависимой переменной предсказывается независимой переменной, и так далее.