Тема 5 Методы изучения корреляционной зависимости

Показатели тесноты связи факторов с результатом.

Если факторные признаки различны по своей сущно­сти и/или имеют различные единицы измерения, то коэф­фициенты регрессии при разных факторах являются не­сопоставимыми. Поэтому уравнение регрессии дополняют соизмеримыми показателями тесноты связи фактора с ре­зультатом, позволяющими ранжировать факторы. К ним от­носят: частные коэффициенты эластичности, β-коэффициенты, частные коэффициенты корреляции.

Частные коэффициенты эластичности рассчитываются по формуле: . Частный коэффициент эластичности показывают на сколько процентов в среднем изменяется признак-результат Y с изменением признака-фактора на один процент от своего среднего уров­ня при фиксированном положении других факторов модели. В случае линейной зависимости коэффициент эластичности рассчитывается по формуле: , где коэффициент регрессии .

Стандартизированные частные коэффициенты регрессии — β-коэффициенты показывают, на какую часть своего среднего квадратического отклонения изменится признак-результат Y с изменением соответствующего фак­тора на величину своего среднего квадратического от­клонения при неизменном влиянии прочих факторов входящих в уравнение.

По коэффициентам эластичности и β-коэффициентам могут быть сделаны противоположные выводы. Причины этого: а) вариация одного фактора очень велика; б) разно­направленное воздействие факторов на результат.

Кроме того, коэффициент может интерпретировать­ся как показатель прямого (непосредственного) влияния фактора на результат . Во множественной регрес­сии фактор оказывает не только прямое, но и косвен­ное (опосредованное) влияние на результат (т.е. влияние через другие факторы модели). Косвенное влияние измеря­ется величиной: ,где т- число факторов в модели. Полное влияние фактора на результат равное сумме прямого и косвенного влияний измеряет коэффици­ент линейной парной корреляции данного фактора и ре­зультата – .

Коэффициент частной корреляцииизмеряет тесноту линейной связи между отдельным фактором и результатом при устранении воздействия прочих факторов модели.

Для качественной оценки тесноты связи можно использовать следующую классификацию:

0.1- 0.3- слабая связь

0.3-0.5 – умеренная связь

0.5-0.7- заметная связь

0.7-0.9- тесная связь

0.9-0.99- весьма тесная

Для расчета частных коэффициентов корреляции мо­гут быть использованы парные коэффициенты корреляции.

Для случая зависимости Yот двух факторов можно вычислить 2 коэффициента частной корреляции:

(2-ой фактор фиксирован).

(1-ый фактор фиксирован).

Это коэффициенты частной корреляции 1-ого порядка (порядок определяется числом факторов, влияние которых на результат устраняется).

Частные коэффициенты корреляции, рассчитанные по таким формулам, изменяются от -1 до +1. Они используют­ся не только для ранжирования факторов модели по степени влияния на результат, но и также для отсева факторов. При малых значениях нет смысла вводить в уравнение m-ый фактор, т.к. качество уравнения регрессии при его введении возрастет незначительно (т.е. теоретиче­ский коэффициент детерминации увеличится незначительно).

Коэффициенты множественной детерминации и корреляции характеризуют совместное влияние всех факторов на результат.

По аналогии с парной регрессией можно определить долю вариации результата, объясненной вариацией вклю­ченных в модель факторов , в его общей вариации . Ее количественная характеристика — теоретический множественный коэффициент детерминации . Для линейного уравнения регрессии данный показатель может быть рассчитан через β-коэффициенты, как:

— коэффициент множественной корреляции. Он принимает значения от 0 до 1 (в отличие от парного коэффициента корреляции, который может принимать отрицательные значения, R используется без учета на­правления связи). Чем плотнее фактические значения располагаются относительно линии регрессии, тем меньше остаточная дисперсия и, следовательно, больше величина . Таким образом, при значении R близком к 1, урав­нение регрессии лучше описывает фактические данные и факторы сильнее влияют на результат; при значении R близком к 0 уравнение регрессии плохо описывает фактиче­ские данные и факторы оказывают слабое воздействие на результат.

Оценка значимости полученного уравнения множест­венной регрессии.

Оценка значимости уравнения множественной регрес­сии осуществляется путем проверки гипотезы: (гипотеза о незначимости уравнения регрессии).

Для ее проверки используют F-критерий Фишера.

При этом вычисляют фактическое (наблюдаемое) зна­чение F-критерия:

где n-число наблюдений; k число независимых переменных модели.

По таблицам распределения Фишера находят критическое значение F-критерия . Для этого за­даются уровнем значимости (обычно его берут равным 0,05) и двумя числами степеней свободы и . Здесь m – число параметров модели.

Сравнивают фактическое значение F-критерия с табличным . Если , то гипотезу о незначимости уравнения регрессии не отвергают. Если , то выдвинутую гипотезу отвер­гают и принимают альтернативную гипотезу о статистиче­ской значимости уравнения регрессии.

Пример 2.

На основе данных, приведенных в Приложении и соответст­вующих варианту 100, требуется:

1. Построить уравнение множественной регрессии. Для этого, ос­тавив признак-результат тем же выбрать несколько признаков-факторов из приложения 1 (границы их наблюдения должны совпадать с границами наблюдения признака-результата, соот­ветствующих Вашему варианту). При выборе факторов нужно руководствоваться как экономическим содержанием, так и формальными подходами (например, матрица парных коэффи­циентов корреляции). Пояснить смысл параметров уравнения.

2. Рассчитать частные коэффициенты эластичности.

3. Определить стандартизованные коэффициенты регрессии (β-коэффициенты).

4. На основе полученных результатов сделать вывод о силе связи результата с каждым из факторов.

5. Определить парные и частные коэффициенты корреляции, а также множественный коэффициент корреляции; сделать выводы.

6. Дать оценку полученного уравнения с помощью общего F-критерия Фишера.

Решение:

По условию задачи, результативный признак должен остаться тот же, значит Y дивиденды, начисленные по результатам деятельности.В качестве факторных признаков выберем следующие:

— дебиторская задолженность по результатам деятельности.

Определим уравнение регрессии следующего вида:

Для определения параметров уравнения связи, а также для дальнейших расчетов построим дополнительную таблицу. (Таблица 2)

Для определения параметров двухфакторного уравнения регрессии необходимо решить систему нормальных уравнений:

В нашем случае система нормальных уравнений примет вид:

В результате решения данной системы получим следующие коэффициенты регрессии:

Окончательное уравнение регрессии примет вид:

При отсутствии влияния со стороны факторных признаков, учтенных в данной модели, значение результативного признака будет составлять 17,2714 млн. руб. При изменении балансовой прибыли на 1 млн. руб. произойдет изменение начисленных дивидендов в ту же сторону на 0,02645 млн. руб., а при изменении дебиторской задолженности на 1 млн. руб. следует ожидать изменения величины начисленных дивидендов на 0,00054 млн. руб.

Определим частные коэффициенты эластичности:

Частные коэффициенты эластичности показывают влияние отдельных факторов на результативный показатель. Так, при изменении балансовой прибыли на 1% при неизменности второго фактора произойдет в среднем изменение величины начисленных дивидендов на 0,14%, а при изменении дебиторской задолженности на 1% при фиксированном положении первого фактора произойдет изменение величины начисленных дивидендов в среднем на 0,0014%.

Теперь рассчитаем β-коэффициенты:

Анализ β-коэффициентов показывает, что на величину начисленных дивидендов из двух исследуемых факторов с учетом уровня их вариации большее влияние оказывает балансовая прибыль .

С учетом всех рассчитанных показателей и параметров уравнения регрессии можно сделать вывод о том, что наибольшая связь величины начисленных дивидендов отмечается с размером балансовой прибыли.

Далее, определим парные, частные коэффициенты корреляции и множественный коэффициент корреляции.

I. Парные коэффициенты корреляции: измеряют тесноту связи между двумя из рассматриваемых признаков.

Коэффициент корреляции между факторными признаками, равный -0,683, позволяет оставить в модели оба фактора, так как связь между факторами не тесная .

II. Частные коэффициенты корреляции: характеризуют степень влияния одного из факторов на функцию при условии, что остальные независимые переменные закреплены на постоянном уровне.

Таблица 2 — Дополнительная таблица

Ошибка! Ошибка связи.

Близкая к тесной прямая связь результативного признака наблюдается с балансовой прибылью (0,677), практически отсутствует связь между начисленными дивидендами и дебиторской задолженностью (0,164).

III. Множественный коэффициент корреляции: показывает тесноту связи между результативным и обоими факторными признаками.

Таким образом, выявлена тесная связь между начисленными дивидендами и следующими признаками: балансовая прибыль и дебиторская задолженность.

Множественный коэффициент детерминации определим как квадрат множественного коэффициента корреляции:

На основе коэффициента детерминации делаем вывод, что на вариации величины начисленных дивидендов находится в зависимости от изменения балансовой прибыли и суммы дебиторской задолженности, и на – влиянием прочих неучтенных в модели факторов.

На завершительном этапе анализа проверим значимость параметров уравнения регрессии и модели в целом.

Проверим значимость модели в целом с помощью F-статистики Фишера. Для этого определим остаточную дисперсию результативного признака:

Источник

Тема 5. Методы изучения корреляционной зависимости

Цель: сформировать представление о методах измерения стохастических связей, специфических черт, преимуществ и ограничений применения этих методов.

Задачи: представить классификацию видов и методов измерения связей, раскрыть особенности корреляционного и регрессионного методов анализа, а также непараметрических методов изучения связей.

Оглавление

5.1. Виды связей. Задачи статистики по изучению связи. Общая характеристика методов измерения связи.

В статистике для изучения взаимосвязей признаки делятся на два типа: факторные и результативные. Признаки, обусловливающие изменение других признаков, называются факторными. Признаки, зависимые от изменения факторов, называются результативными. Обусловленность явлений множеством факторов называется детерминизмом.

Выделяют два основных вида связей — функциональную (жестко детерминированную) и статистическую (стохастически детерминированную). Функциональной называют такую связь, при которой изменению значений признака-фактора соответствует строго определенное изменение результативного признака. Иными словами, при функциональной зависимости факторный признак полностью определяет результативный признак.

Связь является стохастически детерминированной, если с изменением признака-фактора результативный признак может в определенных пределах принимать любые значения с некоторыми вероятностями. Это обусловлено тем, что зависимая переменная, кроме выделенного признака-фактора, подвержена влиянию ряда неконтролируемых или неучтенных факторов. Стохастическая причинная зависимость проявляется не в каждом отдельном случае, а в среднем, при большом числе наблюдений. Частным случаем стохастической связи является корреляционная связь, при которой с изменением признака-фактора закономерным образом изменяются средние значения результативного признака.

В статистику термин «корреляция» введен английским ученым Френсисом Гальтоном в конце XIX в. и означает соответственно «corelation». Чем теснее связь между явлениями, тем, следовательно, больше исключается действие второстепенных, случайных факторов. В результате корреляционная связь приближается к функциональной. Поэтому функциональная связь может рассматриваться как предельный случай корреляции.

Читайте также:  Важность выбора ты выбираешь какой будет твоя жизнь

В процессе статистического исследования связи между явлениями и их признаками классифицируются по направлению (прямая и обратная) и форме выражения (линейная и нелинейная).

Разнообразие связей определяет разнообразие методов их изучения. Изучению функциональных связей соответствует балансовый метод, система средних и относительных величин, система индексов.

Для характеристики стохастических связей используются методы: аналитической группировки, корреляции и регрессии. Особое место занимают методы измерения связи по неколичественным признакам (корреляция по таблицам сопряженности, ранговая корреляция).

5.2. Показатели силы и тесноты связи на основе аналитической группировки.

Методы изучения корреляционной зависимости основаны на сопоставлении вариации признаков-факторов и результативного признака. Выбор признаков-факторов и результативного признака, а также принципиальная возможность причинно-следственной зависимости устанавливаются на основе содержательного анализа. На первых этапах исследования анализ связи включает задачи определения формы и направления воздействия одних признаков на другие. Для этих целей применяются метод приведения параллельных рядов и метод аналитической группировки. Используется графическое представление данных в виде поля корреляции.

Метод приведения параллельных рядов предусматривает сопоставление значений признаков-факторов и соответствующих им значений результативного признака у каждой единицы совокупности. Аналитическая группировка обобщает исходные данные: во-первых, все единицы совокупности группируются по факторному признаку и, во-вторых, каждая группа характеризуется средними величинами результативного признака. Благодаря обобщению, более четко проявляется связь между признаками, ее направление и форма. Выводы о характере связи делают через сопоставление изменений средних значений результата по группам с переходом от одного интервала к другому по признаку фактору.

Аналитическая группировка позволяет измерить связь количественно путем расчета показателей силы и тесноты связи. Показатель силы связи характеризует, как меняется результативный признак при изменении признака-фактора на единицу. Разности между соседними групповыми средними результативного признака дают возможность определить, как меняется результат при изменении фактора на величину интервала. При группировке по равным интервалам эти разности сопоставимы. Различия в их значениях, полученных в расчете на единицу интервала, свидетельствуют о том, что с изменением уровня фактора меняется сила связи, т. е. связь признаков нелинейная. В случае линейной связи при группировке по равным интервалам важным показателем является средний для совокупности показатель силы связи.

Оценка тесноты связи между признаками предполагает определение меры соответствия вариации результативного признака от одного или нескольких факторов. Их построение базируется на использовании правила сложения дисперсий, когда общую дисперсию можно представить как сумму межгрупповой и внутригрупповой дисперсий. Очевидно, чем больше доля межгрупповой дисперсии в общей дисперсии, тем сильнее влияние группировочного признака-фактора на изучаемый результативный признак.

Показателями тесноты связи являются коэффициент детерминации и эмпирическое корреляционное отношение. Коэффициент детерминации определяется как доля межгрупповой дисперсии в общей дисперсии признака-результата. Он показывает, какая часть общей вариации признака-результата объясняется влиянием изучаемого фактора . Формула расчета:

где — общая дисперсия; – межгрупповая дисперсия.

Эмпирическое корреляционное отношение – это корень квадратный из коэффициента детерминации. Формула расчета:

Для оценки тесноты связи на основе показателя эмпирического корреляционного отношения можно воспользоваться соотношениями Чэддока:

Если связь между признаками отсутствует, то межгрупповая дисперсия равна нулю, а, следовательно, и коэффициент корреляции равен нулю. Таким образом, чем ближе значение показателя к единице, тем сильнее связь между признаками.

5.3. Понятие о регрессии и корреляции

Задачи, решаемые методами регрессии и корреляции, непосредственно связаны между собой. В то время, ак в корреляционном анализе оценивается интенсивность, теснота связи, в регрессионном анализе исследуется ее форма. Иногда регрессию рассматривают как частный случай корреляции, считая тем самым корреляцию более широким понятием. Корреляция в широком смысле слова означает связь, соотношение между объективно существующими явлениями и процессами. Не каждую корреляцию можно отождествлять с причинной связью. При изучении совместного изменения явлений может быть установлена так называемая ложная корреляция. Под ложной корреляцией понимается чисто количественная сопряженность в вариации изучаемых явлений, не имеющая логического объяснения по содержанию. Причины возникновения ложной корреляции различны. К ложной корреляции может привести анализ совместной вариации признаков, которые не имеют непосредственной причинно-следственной связи, а детерминированы общей для них причиной. Ложная корреляция может возникнуть и в том случае, когда одна переменная входит в состав другой и тем самым формально обусловливает соответствие вариации этих переменных. Часто ложная корреляция возникает при изучении рядов динамики.

В зависимости от числа анализируемых переменных различают парную, множественную и частную корреляцию. Парная – то корреляция между двумя переменными, множественная- между более чем двумя переменными. Частная – то корреляция между двумя переменными при «фиксированном» влиянии остальных переменных, включенных в анализ.

При измерении тесноты связи проблема корреляции рассматривается в узком смысле. Одним из наиболее часто применяемых показателей тесноты связи является линейный коэффициент корреляции. Формула расчета:

Он является мерой линейной статистической зависимости между двумя признаками и изменяется в пределах от –1 до +1. Степень тесноты связи между переменными в случае не только линейной, но и нелинейной зависимости можно оценить с помощью теоретического корреляционного отношения. Его величина определяется как корень квадратный из соотношения факторной и общей дисперсии. Факторная дисперсия определяется на основе отклонения значений результата, рассчитанных по уравнению регрессии, от его среднего уровня.

Теоретическое корреляционное отношение может быть найдено и через отклонение от единицы доли остаточной дисперсии в общей дисперсии. В этом случае оно получило название индекса корреляции. Величина этих показателей находится в пределах от 0 до 1.

Для определения факторной и остаточной дисперсии при расчете теоретического корреляционного отношения и индекса корреляции необходимо построить уравнение регрессии.

Термин «регрессия» введен английским ученым Ф. Гальтоном и означает отступление, возврат к чему-либо, в частности, к среднему состоянию. Регрессия – это односторонняя стохастическая зависимость. Если исследуется стохастическая зависимость x от y, то определяется регрессия x на y . Односторонняя стохастическая зависимость характеризуется с помощью функции, которая является аналитическим выражением связи. Функция, описывающая зависимость среднего значения результативного признака от заданных значений признака-фактора, называется уравнением регрессии.

В качестве этапов регрессионного анализа называют: обоснование формы зависимости, определение числа факторных признаков, включаемых в модель, оценку параметров, интерпретацию результатов. Функция регрессии формально устанавливает соответствие между переменными, хотя они могут не состоять в причинно-следственных отношениях. Имеется множество параллельно существующих явлений, которые вызываются общей для них причиной. Вопрос о реальном бъективном существовании связи, о наличии причинных отношений между явлениями в каждом конкретном случае решается на основе содержательного анализа, который раскрывает механизм связи.

Поскольку не каждая функция или корреляция соответствует причинной зависимости между явлениями, необходимо соблюдать основные условия и предположения при использовании этих методов анализа. Так, для эффективного изучения связи необходимо использовать совокупности единиц достаточно большого объема и однородные в отношении тех признаков, связь которых изучается.

Прямолинейная зависимость имеет место, когда с возрастанием (или убыванием) значений признака-фактора значения результативного признака увеличиваются (или уменьшается) более ли менее равномерно. Линейное уравнение парной регрессии:

где – среднее значение результативного признака при определенном значении факторного признака x;

a – свободный член уравнения регрессии;

b – коэффициент регрессии, который показывает, на сколько единиц в среднем изменится результативный признак у при изменении факторного признака х на одну единицу его измерения. Криволинейная форма связи может выражаться различными видами функций, из которых наиболее часто используются парабола второго порядка, гипербола, показательная, степенная.

С целью проверки качества модели связи используются математические критерии адекватности, т. е соответствия модели фактическим статистическим данным. Например, рассчитывается средняя ошибка аппроксимации, которая определяется следующим образом:

Оценки неизвестных параметров уравнения регрессии находят обычно методом наименьших квадратов (МНК), который предполагает, что сумма квадратов отклонений теоретических значений от эмпирических должна быть минимальной. Это условие МНК формулируется следующим образом:

Система нормальных уравнений МНК для прямой:

где – определитель системы; – частный определитель, получаемый путем замены коэффициентов при a членами правой части системы уравнений; – частный определитель, получаемый путем замены коэффициентов при b членами правой части системы уравнений.

Параметры a и b могут быть выражены следующим образом:

Относительную оценку силы связи даёт общий (средний) коэффициент эластичности:

Коэффициент эластичности показывает, на сколько процентов изменится результативный признак при изменении признака-фактора на один процент.

Изучение связи между тремя и более факторами носит название множественного корреляционного и регрессионного анализа. При построении многофакторных моделей необходимо соблюдать требование возможно меньшей корреляции между объясняющими переменными (интеркорреляции факторов). В случае, когда более чем два фактора связаны между собой линейной зависимостью, т. е. имеет место совокупное воздействие факторов друг на друга, наблюдается явление мультиколлинеарности. В результате затруднена оценка воздействия каждого фактора в отдельности. Многофакторный анализ включает множественный и частные коэффициенты корреляции. Множественный коэффициент корреляции характеризует степень линейной зависимости между зависимой переменной и остальными переменными, входящими в модель. Для нелинейной множественной связи рассчитывают индекс корреляции. Квадрат коэффициента корреляции называется коэффициентом детерминации. Частный коэффициент корреляции характеризует степень линейной зависимости между двумя переменными при исключении влияния третьей переменной, также учтенной в модели.

5.4. Измерение связи по неколичественным признакам: коэффициенты взаимной сопряженности, контингенции и др.

Корреляционно-регрессионный метод анализа применим только к количественным признакам. В этом случае характеристики связи основаны на вычислении основных параметров распределения (средних величин, дисперсий). Задача изучения связи атрибутивных признаков решается непараметрическими методами анализа, с помощью которых можно измерить связь между явлениями, не используя при этом количественные значения признаков, а следовательно, и параметры распределения. Непараметрические методы анализа включают показатели, которые рассчитываются на основе распределения единиц совокупности по вариантам атрибутивного признака. Распределение представлено в форме так называемых таблиц взаимной сопряженности. Сравнить проявление связей в разных совокупностях с множеством групп по обоим признакам позволяют коэффициенты взаимной сопряженности Пирсона, Чупрова, Крамера. Чем ближе величина этих коэффициентов к единице, тем теснее связь.

Читайте также:  Инструментарий оценивания на уроках английского языка

При характеристике связи альтернативных признаков, один из которых имеет характер причины, а другой – следствия применяется условное измерение признаков: наличие признака у единицы совокупности обозначается единицей, а отсутствие — нулем. Благодаря этому измерение связи проводится на основе четырехпольных таблиц с помощью коэффициентов контингенции и ассоциации. Коэффициент контингенции всегда меньше коэффициента ассоциации. Связь считается подтвержденной, если коэффициент ассоциации 0,5 или коэффициент контингенции 0,3.

5.5. Ранговая корреляция

Ранговая корреляция используется для количественных и качественных признаков. Для измерения связи количественных признаков ранговую корреляцию рекомендуется использовать, если имеют место ограничения для применения корреляционно-регрессионного анализа, в частности, если совокупность малого объема и если распределение существенно отличается от нормального. Методы ранговой корреляции основаны на ранжировании единиц совокупности по значению признака-фактора и определении соответствующих им рангов значений результативного признака. Ранжирование факторного и результативного признаков ведется в одинаковом направлении: если первый ранг присваивается наименьшему значению признака-фактора, то и по результативному признаку ранжирование идет от наименьшего к наибольшему значению признака. К мерам тесноты парной связи относится предложенный английским психологом Ч. Спирменом коэффициент ранговой корреляции, который имеет границы изменения от –1 до +1. Полное совпадение рангов означает максимально тесную прямую связь, полная противоположность рангов – максимально тесную обратную связь. Формула расчета коэффициента корреляции рангов Ч. Спирмена:

где n – число наблюдений;

d – разность рангов единиц совокупности по анализируемым признакам x и y.

Для определения тесноты связи между произвольным числом признаков применяется множественный коэффициент ранговой корреляции – коэффициент конкордации.

Выводы

Задача оценки степени тесноты связи между признаками решается методами корреляционного анализа. Показатели тесноты связи дают представление о взаимодействии изучаемых факторов, а также об аппроксимации фактических данных аналитической функцией.

Если линейный коэффициент корреляции мало отличается от теоретического корреляционного отношения, то зависимость между переменными близка к линейной. Это позволяет использовать теоретическое корреляционное отношение в качестве меры линейности связи между признаками.

Задача восстановления средних значений результативного признака по заданным значениям факторного признака решается методами регрессионного анализа. Методы корреляции и регрессии относятся к категории параметрических методов, т. к. их использование предполагает вычисление основных параметров распределения (средних величин, дисперсии). Для оценки тесноты связи атрибутивных признаков используются непараметрические методы анализа (коэффициенты взаимной сопряженности Пирсона, Чупрова, Крамера, ассоциации, контингенции). Коэффициенты взаимной сопряженности требуют большого объема совокупности. При малом числе наблюдений, но при достаточном числе градаций атрибутивных признаков связь между ними может быть измерена с помощью метода ранговой корреляции.

Источник

Соизмеримые показатели тесноты связи

Если факторные переменные имеют несопоставимые единицы измерения, то связь между ними измеряется с помощью соизмеримых показателей тесноты связи. С помощью соизмеримых показателей тесноты связи характеризуется степень зависимости между факторной и результативной переменными в модели множественной регрессии.

Коэффициент частной эластичности рассчитывается по формуле:

где Xi – среднее значение факторной переменной xi по выборочной совокупности, i=1,n;

Y – среднее значение результативной переменной у по выборочной совокупности;

– первая производная результативной переменной у по факторной переменной х.

Частный коэффициент эластичности измеряется в процентах и характеризует объём изменения результативной переменной у при изменении на 1 % от среднего уровня факторной переменной xi при условии постоянства всех остальных факторных переменных, включённых в модель регрессии.

Для линейной модели регрессии частный коэффициент эластичности рассчитывается по формуле:

где βi– коэффициент модели множественной регрессии.

Для того чтобы рассчитать стандартизированные частные коэффициенты регрессии, необходимо построить модель множественной регрессии в стандартном (нормированном) масштабе. Это означает, что все переменные, включённые в модель регрессии, стандартизируются с помощью специальных формул. Посредством процесса стандартизации точкой отсчёта для каждой нормированной переменной устанавливается её среднее значение по выборочной совокупности. При этом в качестве единицы измерения стандартизированной переменной принимается её среднеквадратическое отклонение β.

Источник



Оценка тесноты связи между факторами методами корреляционно-регрессионного анализа

Приемы корреляционного анализа используются для измерения влияния факторов в стохастическом анализе, когда взаимосвязь между показателями неполная, вероятностная. Различают парную и множественную корреляцию.

Парная корреляция – это связь между двумя показателями, один из которых является факторным, а другой — результативным.

Множественная корреляция возникает от взаимодействия нескольких факторов с результативным показателем.

Необходимые условия применения корреляционного анализа:

1. Наличие достаточно большого количества наблюдений о величине исследуемых факторных и результативных показателей (в динамике или за текущий год по совокупности однородных объектов).

2. Исследуемые факторы должны иметь количественное измерение и отражение в тех или иных источниках информации.

Применение корреляционного анализа позволяет решить следующие задачи:

1) определить измерение результативного показателя под воздействием одного или нескольких факторов (в абсолютном измерении), то есть определить, на сколько единиц изменении факторного на единицу;

2) установить относительную степень зависимости результативного показателя от каждого фактора.

Корреляционный анализ состоит из нескольких этапов:

На первом этапе определяются факторы, которые оказывают воздействие на изучаемый показатель, и отбираются наиболее существенные для корреляционного анализа. Отбор факторов – очень важный момент в экономическом анализе: от того, насколько правильно он сделан, зависит точность выводов по итогам анализа.

Большую помощь при отборе факторов для корреляционной модели оказывают аналитические группировки, способ сравнения параллельных и динамических рядов, линейные графики. С их помощью можно определить наличие, направление и форму зависимости между изучаемыми показателями. Отбор факторов можно производить также в процессе решения задачи корреляционного анализа на основе оценки их значимости по критерию Стьюдента, о котором будет сказано ниже.

На втором этапе собирается исходная информация по каждому факторному и результативному показателям. Она должна быть проверена на достоверность, на однородность и на соответствие закону нормального распределения.

Одно из условий корреляционного анализа – однородность исследуемой информации относительно распределения ее около среднего уровня. Если в совокупности имеются группы объектов, которые значительно отличаются от среднего уровня, то это говорит о неоднородности исходной информации.

Критерием однородности информации служат среднеквадратическое отклонение и коэффициент вариации, которые рассчитываются по каждому факторному и результативному показателю. Среднеквадратическое отклонение показывает абсолютное отклонение индивидуальных значений от среднеарифметической:

Коэффициент вариации показывает относительную меру отклонения отдельных значений от среднеарифметической. Для его расчета используется формула:

(2.3.2.)

Чем больше коэффициент вариации, тем относительно больший разброс и меньшая выравненность изучаемых объектов. Изменчивость вариационного ряда принято считать незначительной, если вариация не превышает 10-12%, значительной – когда она больше 20%, но не превышает 33%. Если же вариация выше 33%, то это свидетельствует о неоднородности информации и о необходимости исключения нетипичных наблюдений, которые обычно бывают в первых и последних ранжированных рядах выборки.

Следующее требование к исходной информации – подчинение ее закону нормального распределения. Для количественной оценки степени отклонения информации от нормального распределения служат отношение показателя асимметрии к ее ошибке и отношение показателя эксцесса к его ошибке.

Показатель асимметрии и его ошибка рассчитываются по формулам:

Показатель эксцесса и его ошибка рассчитываются следующим образом:

В симметричном распределении А=0. Отклонение от нуля указывает на наличие асимметрии в распределении данных около средней величины. Отрицательная асимметрия свидетельствует о том, что преобладают данные с большими значениями, а с меньшими значениями встречаются значительно реже. Положительная асимметрия показывает, что чаще встречаются данные с небольшими значениями.

В нормальном распределении показатель эксцесса Е=0. Если Е > 0, то данные густо сгруппированы около средней, образуя островершинность. Если Е < 0, то кривая распределения будет плосковершинной. Однако, когда отношения А/ma и E/me меньше 3, то асимметрия и эксцесс не имеют существенного значения, и исследуемая информация соответствует закону нормального распределения. Следовательно, ее можно использовать для корреляционного анализа.

На тре6тьем этапе изучается характер и моделируется связь между факторами и результативным показателем, то есть подбирается и обосновывается математическое уравнение, которое наиболее точно выражает сущность исследуемой зависимости. Для его обоснования используются те же приемы, что и для установления наличия связи: аналитические группировки, линейные графики и др.

Зависимость результативного показателя от определяющих его факторов можно выразить уравнением парной и множественной регрессии. При прямолинейной форме они имеют следующий вид:

— уравнение парной регрессии; (2.3.7.)

где а – свободный член уравнения при х = 0:

х1, х2, …, хn – факторы, определяющие уровень изучаемого результативного показателя;

b1, b2, …, bn — коэффициенты регрессии при факторных показателях, характеризующие уровень влияния каждого фактора на результативный показатель в абсолютном выражении.

Если связь между результативным и факторыми показателями носит криволинейный характер, то могут быть использованы степенная, логарифмическая, параболическая, гиперболическая и другие функции.

В случаях когда трудно обосновать форму зависимости, решение задачи можно провести по разным моделям и сравнить полученные результаты. Адекватность разных моделей фактическим зависимостям проверяется по критерию Фишера, показателю средней ошибки аппроксимации.

Читайте также:  Результаты розыгрыша green card 2021

На четвертом этапе проводится расчет основных показателей связи корреляционного анализа: уравнение связи, коэффициенты корреляции, детерминации, эластичности и др.

В качестве примера для иллюстрации корреляционного анализа прямолинейной зависимости используем приведенные в табл. данные об изменении уровня выработки рабочих (y) в зависимости от уровня фондовооруженности (x).

Расчет уравнения связи ( ) сводится к определению параметров а и b. Их находят из следующей системы уравнений:

где n – число наблюдений (в данном примере 10);

x – фондовооруженность труда (стоимость основных производственных фондов на одного работника предприятия), тыс.руб.;

y — среднегодовая выработка продукции одним работником, тыс.руб.

Зависимость выработки рабочих (Y) от фондовооруженности труда (X)

№п/п
Y 3,1 3,4 3,6 3,8 3,9 4,1 4,2 4,4 4,6 4,9
X 4,5 4,4 4,8 5,0 5,5 5,4 5,8 6,0 6,1 6,5

Значения Σx, Σy, Σxy, Σx 2 , Σy 2 рассчитывают на основании фактических исходных данных (табл. 2.3.1.)

Расчет производных данных для корреляционного анализа

n x y xy x 2 y 2 yx
3,1 4,5 13,95 9,61 20,25 4,28
3,4 4,4 14,96 11,56 19,36 4,65
3,6 4,8 17,28 12,96 23,04 4,90
3,8 5,0 19,00 14,44 25,00 5,15
3,9 5,5 21,45 15,21 30,25 5,28
4,1 5,4 22,14 16,81 29,16 5,52
4,2 5,8 24,36 17,64 33,64 5,65
4,4 6,0 26,40 19,36 36,00 5,90
4,6 6,1 28,06 21,16 37,21 6,15
4,9 6,5 31,85 4,01 42,25 6,28
итого 219,45 162,76 296,16 53,75

Подставим полученные значения в систему уравнений:

Вычтя из второго уравнения первое, узнаем, что 2,76 b = 3.45.

Уравнение связи, описывающее зависимость производительности труда от фондовооруженности, получило следующее выражение:

Коэффициент а – постоянная величина результативного показателя, которая не связана с изменением данного фактора. Параметр b показывает среднее изменение результативного показателя с повышением или понижением величины факторного показателя на единицу его измерения. В данном примере с увеличением фондовооруженности труда на 1 тыс.руб. выработка рабочих повышается в среднем на 1,25 тыс.руб.

Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (теоретические) значения результативного показателя для каждого предприятия. Например, чтобы рассчитать выработку рабочих на первом предприятии, где фондовооруженность труда равна 3,1 тыс.руб., необходимо это значение подставить в уравнение связи:

Полученная величина показывает, какой была бы выработка при фондовооруженности труда 3,1 тыс.руб., если бы данное предприятие использовало свои производственные мощности в такой степени, как в среднем все предприятия этой выборки. Фактическая выработка рабочих на данном предприятии выше расчетного значения. Следовательно, предприятие использует свои производственные мощности несколько лучше, чем в среднем по отрасли. Аналогичные расчеты сделаны для каждого предприятия. Данные приведены в последней графе табл. 2.3.2. Сравнение фактического уровня выработки рабочих с расчетным позволяет оценить результаты работы отдельных предприятий.

По такому же принципу решается уравне6ние связи при криволинейной зависимости между изучаемыми явлениями. Когда при увеличении одного показателя значения другого возрастают до определенного уровня, а потом начинают снижаться (например, зависимость производительности труда рабочих от их возрасти), то для описания такой зависимости лучше всего подходит парабола второго порядка:

В соответствии с требованиями метода наименьших квадратов для определения параметров a, b, c необходимо решить следующую систему уравнений:

Кроме параболы для описания криволинейной зависимости в корреляционном анализе очень часто используется гипербола:

Для определения ее параметров необходимо решить следующую систему уравнений:

Гипербола описывает такую зависимость между двумя показателями, когда при увеличении одной переменной значения другой увеличиваются до определенного уровня, а потом прирост замедляется, например, зависимость урожайности от количества внесенных удобрений, продуктивности животных от уровня их кормления, себестоимости единицы продукции от объема ее производства и т.д.

При более сложном характере зависимости между изучаемыми явлениями используются более сложные параболы (третьего, четвертого порядка и т.д.), а также квадратические, степенные, показательные и другие функции.

Таким образом, используя тот или иной тип математического уравнения, можно определить степень зависимости между изучаемыми явлениями, узнать, на сколько единиц в абсолютном измерен6ии изменяется величина результативного показателя с изменением факторного на единицу. Однако регрессионный анализ не дает ответа на вопрос: насколько тесна за связь, решающее или второстепенное воздействие оказывает фактор на величину результативного показателя?

Для измерения тесноты связи между факторными и результативными показателями исчисляется коэффициент корреляции. При прямолинейной форме связи между изучаемыми показателями он рассчитывается по следующей формуле:

Подставив значения Σx, Σy, Σxy, Σx 2 , Σy 2 из табл. 2.3.2.в формулу, получим значение коэффициента корреляции, равное 0,97. Этот коэффициент может принимать значения от 0 до 1. Чем ближе его величина к 1, тем более тесная связь между изучаемыми явлениями, и наоборот. В данном случае величина коэффициента корреляции является существенной (r=0,97). Это позволяет сделать вывод о том, что фондовооруженность – один из основных факторов, от которых на анализируемых предприятиях зависит уровень производительности труда.

Если коэффициент корреляции возвести в квадрат, получим коэффициент детерминации (D = 0.94). Он показывает, что производительность труда на 94% зависит от фондовооруженности труда, а на долю других факторов приходится 6% изменения ее уровня.

Что касается измерения тесноты связи при криволинейной форме зависимости, то здесь используется не линейный коэффициент корреляции, а корреляционное отношение, формула которого имеет вид:

Эта формула является универсальной. Ее можно применять для исчисления коэффициента корреляции при любой форме зависимости. Однако для его нахождения требуется предварительное решение уравнения регрессии и расчет по нему теоретических (выровненных) значений результативного показателя для каждого наблюдения исследуемой выборки (см. гр.7 табл. 2.3.2. ).

Решение задач многофакторного корреляционного анализа производится на ПЭВМ по типовым программам. Сначала формируется матрица исходных данных, в первой графе которой записывается порядковый номер наблюдения, во второй – величина результативного показателя (Yx), а в следующих – данные по факторным показателям (xi).

Эти сведения вводятся в ПЭВМ,и рассчитывается уравнение множественной регрессии, которое в данном примере получило следующее выражение:

где Y – рентабельность продаж, %;

х1 – материалоотдача, руб.;

х2 – фондоотдача, коп;

х3 – производительность труда (среднегодовая выработка продукции на одного работника), тыс.руб.;

х4 – продолжительность одного оборота оборотных средств предприятия, дни;

х5 – удельный вес продукции высшей категории качества, %.

Коэффициенты уравнения показывают количественное влияние каждого фактора на результативный показатель при неизменности других. В данном случае можно дать следующую интерпретацию полученному уравнению: рентабельность повышается на 3,65% при увеличении материалоотдачи на 1 руб.; на 0,09% — с ростом фондоотдачина 1 коп.; на 1,02% — с повышением среднегодовой выработки продукции на одного работника на 1 тыс.руб.; на 0,052% — при увеличении удельного веса продукции высшей категории качества на 1%. С увеличением продолжительности оборота средств на 1 день рентабельность снижается в среднем на 0,122%.

Пятый этапстатистическая оценка и практическое использование результатов корреляционно-регрессионного анализа.

Для того, чтобы убедиться в надежности показателей связи и правомерности их использования для практической цели, необходимо дать их статистическую оценку. Для этого используются критерии Стьюдента (t), критерий Фишера (F – отношение), средняя ошибка аппроксимации (έ), коэффициенты множественной корреляции (R) и детерминации (D).

Надежность коэффициентов корреляции, которая зависит от объема исследуемой совокупности (выборки) данных, проверяется по критерию Стьюдента:

Если расчетное значение t выше табличного, то можно сделать заключение о том, что величина коэффициента корреляции является значимой. Табличные значения t находят по таблице значений критериев Стьюдента. При этом учитываются количество степеней свободы ( V = n — 1) и уровень доверительной вероятности (в экономических расчетах обычно 0,05 или 0,01).

Надежность уравнения связи оценивается с помощью критерия Фишера, расчетная величина которого сравнивается с табличным значением. Если Fрасч. > Fтабл. , то гипотеза об отсутствии связи между исследуемыми показателями отвергается.

Для оценки точности уравнения связи рассчитывается средняя ошибка аппроксимации. Чем меньше теоретическая линия регрессии (рассчитанная по уравнению) отклоняется от фактической (эмпирической), тем меньше ее величина, а это свидетельствует о правильности подбора формы уравнения связи. В нашем примере она составляет 0,0364, или 3,64%. Учитывая, что в экономических расчетах допускаемая погрешность находится в пределах 5-8%, можно сделать вывод, что исследуемое уравнение связи довольно точно описывает изучаемые зависимости. С такой же небольшой погрешностью будет делаться и прогноз уровня рентабельности по данному уравнению.

О полноте уравнения связи можно судить по коэффициентам множественной корреляции и детерминации. Если их значения близки к 1, значит, в корреляционную модель удалось включить наиболее существенные факторы, на долю которых приходится основная вариация результативного показателя.

Коэффициент множественной детерминации – 0,85. Это значит, что изменение уровня рентабельности на 85% зависит от изменения исследуемых факторов, а на долю неучтенных факторов приходится 15% вариации результативного показателя. Значит, данное уравнение связи можно использовать для практических целей, а именно:

а) расчета влияния факторов на прирост результативного показателя;

б) подсчета резервов повышения уровня исследуемого показателя;

в) планирования и прогнозирования его величины.

Влияние каждого фактора на изменение (отклонение от плана) результативного показателя рассчитывается следующим образом:

Допустим, что уровень материалоотдачи на анализируемом предприятии по плану на отчетный год – 2,5 руб., фактически – 2,4 руб. Из-за этого уровень рентабельности продукции ниже планового на 0,365%.

Источник