Статистическое изучение взаимосвязей в статистике. Статистическое изучение взаимосвязи показателей. Определение параметров уравнения регрессии начинается с факта установления связи рассматриваемых показателей. Для этого производится расчет коэффициента па

13.1. Типы связей между явлениями, их характеристика

Изучение действительности показывает, что изменение изучаемого признака находитсяв тесной взаимосвязи с другими признаками.

При изучении конкретных зависимостей одни признаки выступают в качестве факторов , обуславливающих изменения других признаков – они называютсяфакторными признаками (Х).

Признаки, которые являются результатом влияния этих факторных признаков, называются результативными признаками (У).

Например: рассматривая зависимость между производительностью труда и квалификацией рабочих, уровень производительности труда является результативным признаком, а квалификация рабочих факторным, т.к. её повышение ведет к росту производительности труда.

Различают два основных вида связей между явлениями.

- функциональные связи характеризуются полнымсоответствием между изменением факторного и результативного признака (каждому значению признака – фактора соответствует вполне определенные значения результативного признака)

Примером функциональной связи является зависимость длины окружности (L) от радиуса (r).

- корреляционные связи, при которых между изменением факторного и результативного признаков нет полного соответствия, воздействия отдельных факторов проявляется лишь в среднем при массовомнаблюдении, фактических данных.

В простейшем случае применения корреляционной зависимости величина результативного признака рассматривается как следствие изменения только одного фактора (например: рост квалификации рабочих рассматривается как причина роста производительности труда).

Однако выделенный в данном примере в качестве основного признак – фактор не является единственной причиной изменения результативного признака, а на ряду с ним на величину результативного признака влияет множество других причин (в частности на производительность труда влияет уровень энерговооруженности, механизации и автоматизации производства).

При наличии корреляционной зависимости устанавливается лишь тенденция изменения результативного признака при изменении величины факторного признака.

Объяснения этому – сложность взаимосвязей между анализируемыми факторами, взаимодействие которых влияют неучтенные, случайные величины. Поэтому связь появляется лишь в среднем, в массе случаев.

При корреляционной связи каждому значению аргумента (х -признака фактора).

Соответствует случайно распределенные в некотором интервале значения функции (у – признака результата).

Например, в сельском хозяйстве это может быть связь между урожайностью и количеством внесенных удобрений. Очевидно, что удобрения участвуют в формировании урожая, для конкретного поля участии одного и того же количества удобрений вызовет разный прирост урожайности, так как во взаимодействии находится ещё целый ряд факторов (погода, состояние почвы и т. д.), которые формируют урожай. Однако в среднем такая связь наблюдается увеличение массы внесенных, удобрений ведет к росту урожайности.

Виды взаимосвязей:

a) По направлению связи делятся на:
- прямые – когда зависимая переменная растёт с увеличением факторного признака (положительная связь)
- обратные, когда рост факторного признака ведёт к уменьшению результативного (отрицательная связь)

б) По степени тесноты:

в) По аналитическому выражению:
- линейные
- криволинейные.

Задачи статистики в изучении связей между явлениями заключается в следующем:

1. количественная оценка наличия и направления связи;

2. характеристика формы влияния одних факторов на другие (изменение степени тесноты корреляционной связи);

3. нахождение аналитического выражения связи (построение уравнений регрессии или корреляционно-регрессионных моделей);

4. оценка соответствия полученных моделей и их практическое использование.

13.2. Методы выявления наличия корреляционной связи между двумя признаками

Для ответа на вопрос о наличии или отсутствии корреляционной связи используется ряд методов:

- параллельное сопоставление рядов значений результативного и факторного признаков , является простейшим приёмом. Значения факторного признака располагаются в возрастающем порядке, а затем прослеживают направление изменения величины результативного признака;

Однако наличие большого числа различных значений результативного признака, соответствующих одному и тому же значению признака-фактора, затрудняет восприятие таких параллельных рядов. В таких случаях для установления связи – пользуются статистическими таблицами – корреляционными и групповыми .

Построение корреляционной таблицы начинают с группировки значений факторного и результативного признаков.

При этом факторный признак (х), как правило, имеет конкретные значения и располагается в строках; а результативный признак (y) представлен в виде интервалов и располагается в столбцах таблицы.

Числа, расположенные на пересечении строк и столбцов таблицы, означают частоту построения данного сочетания значений Х и Y.

Такая корреляционная таблица уже при общем знакомстве даёт возможность:

Определить наличие или отсутствие связи;

Выяснить её направление.

Если частоты в корреляционной таблице расположены по диагонали из левого верхнего угла в правый нижний (т.е. большим значениям фактора соответствуют большие значения результата), то можно предположить наличие прямой корреляционной зависимости между признаками.

Если же частоты располагаются с правого верхнего угла к левому нижнему, то предполагают наличие обратной связи.

Построение групповой таблицы также начинают с группировки. По каждой группе вычисляют средние значения результативного признака, и дальше происходит сопоставление полученных данных.

- Графический метод применяется для:

· Предварительного выявления наличия или отсутствия связи;

· Определения характера и формы связи.

Используя данные об индивидуальных значениях признака-фактора и соответствующих значениях результативного признака, можно построить в прямоугольных осях точечный график, который называется поле корреляции.

Определив среднее значение точек, можно построить линию, которая является эмпирической линией связи.

Если эмпирическая линия связи приближается к прямой линии связи, то возможно наличие прямолинейной линии корреляционной связи между признаками.

Если к какой-либо кривой, то возможна криволинейная корреляционная связь.

13.3. Измерение степени тесноты корреляционной связи между двумя признаками

Понятно, что одни факторы влияют сильнее, другие слабее на результативный признак.

Характеристика силы воздействия одних факторов на другие даётся при помощи показателей степени тесноты корреляционной связи между двумя признаками, к ним относятся:

· Коэффициент корреляции знаков;

· Линейный коэффициент корреляции;

· Коэффициент корреляции рангов

а) Коэффициент корреляции знаков

Число совпадений знаков отклонения индивидуальных величин от средней факторного и результативного признаков;

Число несовпадений знаков отклонений.

б) Линейный коэффициент корреляции является более совершенным показателем степени тесноты связи. При расчёте этого показателя учитываются не только знаки отклонений, но и сами величины таких отклонений.

Есть много вариантов этой формулы.

Много учёных занималось вопросами корреляции и в целом стохастических зависимостей (проявляется в массе случаев).

Множественная корреляция.

Коэффициент множественной корреляции: , где

Общая дисперсия фактических данных результативного признака, т.е. дисперсия y .

Остаточная дисперсия, характеризующая вариацию y за счёт факторов не включённых в уравнение регрессии.

Отражает тесноту связи между вариацией зависимой переменной и вариациями всех включённых в анализ независимых переменных

0< <1 чем ближе к 1, тем более сильная связь, к 0 - не все факторы учтены, не подходящая форма уравнения.

в) Коэффициент корреляции рангов (коэффициент связи качественных признаков)

Позволяет измерить тесноту связи между качественными признаками, которые не поддаются выражению числом. Каждой единице совокупности присваивается порядковый номер в ряду, который будет упорядочен по уровню признака. Таким образом, ряд значений ранжируется, а номер каждой отдельной единицы будет её рангом.

Можно получить представление, о корреляционной связи сопоставляя ранги факторного и результативного признаков. Метод Спирмена и метод Кенделла.

13.4. Уравнения регрессии, их виды

Изучение корреляционных зависимостей основывается на исследовании таких связей между переменными, при которых значение одной переменной, которую можно применять за зависимую переменную «в среднем» изменяется в зависимости от того, какие значения принимает другая переменная, рассматриваемая, как причина по отношению к зависимой переменной.

Изучение зависимостей ведёт к поиску аналитических связей в виде формул (т.е. функций, который записываются составлением уравнений регрессии ).

А на графическом поле строится теоретическая линия регрессии это та линия, вокруг которой группируются точки корреляционного поля и которая указывает основное направление, основную тенденцию связи.

Наиболее часто для характеристики связей экономических явлений используются такие типы функций:

Линейную:

Гиперболическую:

Показательную:

Степенную:

13.5. Корреляционно-регрессивные модели (КРМ),

их применение в анализе и прогнозе

На практике чаще всего изменение изучаемого признака зависит от действия нескольких причин. В таких случаях изменение корреляционной связи не может ограничиться парными зависимостями, и в анализ необходимо включить другие признаки-факторы существенно влияющие на изучаемую переменную.

Отбор факторов для построения многофакторных моделей производится на основе качественного и количественного анализа социально-экономических явлений с использованием статистических критериев.

Корреляционно-регрессивной моделью системы взаимосвязанных признаков является такое уравнение регрессии, которое включает основные факторы.

Построение многофакторных регрессионных моделей позволяет дать количественное описание основных закономерностей изучаемых явлений, выделить существенные факторы, обуславливающие изменение экономических показателей, и оценить их влияние.

Полученные модели в основном используются в двух направлениях:

· Для сравнительного анализа

· В прогнозировании

Возможность применения методов корреляционно-регрессивного анализа ещё в недалёком прошлом сдерживалась высокой трудоёмкостью необходимых расчётов. Сегодня широкое распространение получили пакеты прикладных программ по статистике, ликвидировав эти ограничения.

С целью расширения возможностей экономического анализа используют коэффициент эластичности:

, где

Среднее значение факторного признака

Среднее значение результативного признака

Коэффициент регрессии при соответствующем факторном признаке.

Показывает на сколько процентов в среднем изменится значение результативного признака при изменении факторного признака.

Устанавливают как справочную величину.

Следует различать функциональные и корреляционные связи. В отличие от функциональной зависимости, при которой каждому значению одной переменной строго соответствует одно определённое значение другой переменной, зависимость, при которой одному значению переменной (х ) может соответствовать (в силу наслоения действия других причин) множество значений другой переменной (y ), называют корреляционной. Корреляционная зависимость проявляется лишь на основе массового наблюдения.

Примером корреляционной зависимости может служить зависимость производительности труда от стажа работы рабочих, зависимость урожайности от срока сева, зависимость годового удоя коров от количества отёлов и т.п.

Наиболее простым случаем корреляционной зависимости является парная корреляция, т.е. зависимость между двумя признаками (результативными и одним из факторных).

Основными задачами при изучении корреляционных зависимостей являются:

1. отыскание математической формулы, которая бы выражала эту зависимость y от x

2. измерение тесноты такой зависимости.

Решение первой задачи, т.е. определение формы связи с последующим отысканием параметров уравнения, называется нахождением уравнения связи (уравнения регрессии). Показатели, рассматриваемые как функция х , обозначают (читается: «игрек, выровненный по икс»).

Возможны различные формы связи:

1. прямолинейная:

2. криволинейная в виде:
а) параболы второго порядка (или высших порядков)
б) гиперболы
в) показательной функции и т.д.

Параметры для всех уравнений связи чаще всего определяют из так называемой системы нормальных уравнений , отвечающих требованию «метода наименьших квадратов» (МНК). Это требование можно записать как или, при линейной зависимости, т.е. требуется определить, при каких значениях параметров и сумма квадратов отклонений y от будет минимальной. Найдя частные производные указанной суммы по и и приравняв их к нулю, легко записать систему уравнений, решение которой и дают параметры искомой функции, т.е. уравнения регрессии.

Так, система нормальных уравнений при линейной зависимости имеет вид:

Если связь выражена параболой второго порядка

то система нормальных уравнений для отыскания параметров , , выглядит следующим образом:

Вторая задача – измерение тесноты зависимости – для всех форм связи может быть решена с помощью исчисления теоретического корреляционного отношения :

Дисперсия в ряду выравненных значений
результативного показателя ;

Дисперсия в ряду фактических значений y.

Так как дисперсия отражает вариацию в ряду только за счёт вариации фактора x , а дисперсия отражает вариацию y за счёт всех факторов, то их отношение, именуемое теоретическим коэффициентом детерминации , показывает, какой удельный вес в общей дисперсии ряда y занимает дисперсия, вызываемая вариацией фактора х . квадратный корень из отношения этих дисперсий даёт нам теоретическое корреляционное отношение. Если = , то это означает, что роль других факторов в вариации y сведена на нет, и отношение:

Означает полную зависимость вариации y от х .

Если =0, то это означает, что вариация х никак не влияет на вариацию y , и в этом случае .

Следовательно, максимальное значение, которое может принимать корреляционное отношение, равно 1, минимальное значение – 0.

Математически легко доказывается, что в случае линейной зависимости корреляционное отношение может быть заменено выражением которое называют линейным коэффициентом корреляциии обозначают r , т.е. где - коэффициент регрессии в уравнении связи, и - соответственно среднее квадратическое отклонение в ряду x и в ряду y.

Линейный коэффициент корреляции можно выразить и другими формулами, тождественными первой, в частности:

или а также

Линейный коэффициент корреляции может принимать по модулю значения от 0 до 1 (знак «+» при прямой зависимости и знак «-» при обратной зависимости).

Рассмотрим решение задачи по этой теме.

Задача 1

Пусть по 10 однотипным предприятиям имеются следующие данные о выпуске продукции (х ) в тыс. ед. и о расходе условного топлива (y ) в тоннах (графы 1 и 2 таблицы).

Требуется найти уравнение зависимости расхода топлива от выпуска продукции (или уравнение регрессии y по x ) и измерить тесноту зависимости между ними.

Решение.

А.рассматривая уравнение регрессии в форме линейной функции вида , параметры данного уравнения ( и ) найдём из системы нормальных уравнений

X y x 2 xy =1,16+0,547x y 2
3,9 4,4 5,5 5,5 6,6 6,6 8,8 12,1 12,1 14,3

Необходимые для решения суммы , , рассчитаны выше в таблице. Подставляем их в уравнения и решаем систему:

Отсюда , предварительно найдя то линейный коэффициент корреляции r=0,96 считается значимым, а связь между x и y – реальной.

Контрольные вопросы к теме :

1. Какие признаки являются результативными, факторными.

2. Какие два основных вида связей между явлениями различают. Объясните их суть.

3. Расскажите классификацию взаимосвязей.

4. В чем заключаются задачи статистики при изучении связей между явлениями.

5. Расскажите, какие вы знаете методы выявления наличия корреляционной связи между двумя признаками.

6. При помощи, каких показателей дается характеристика силы воздействия одних факторов на другие.

7. Расскажите о коэффициенте множественной корреляции.

8. Что такое «корреляционно-регрессивные модели» и каково их применение в анализе и прогнозе.

9. Расскажите о линейном коэффициенте корреляции.

10. В чем суть метода наименьших квадратов.

Библиографический список

1. Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник / Под ред. И.И. Елисеевой. 5-е изд., перераб. и доп. М.: Финансы и статистика, 2004.

2. Ефимова М.Р., Петрова Е.В., Румянцева В.Н. Общая теория статистики: Учебник. – 2-е изд., испр. и доп. – М.: ИНФРА-М, 2000. – 416 с.

3. Общая теория статистики: Учебник / Под ред. О.Э. Башиной, А.А. Спирина, 5-е изд. М., 1999.

4. Практикум по теории статистики: Учеб. пособие / Под ред. Р.А. Шмойловой. М.: Финансы и статистика, 1999.

5. Сиденко А.В., Попов Г.Ю., Матвеева В.М. Статистика: Учебник. М., 2000.

6. Социальная статистика: Учебник / Под ред. И.И. Елисеевой. 3-е изд., перераб. и доп. М.: Финансы и статистика, 2003.

7. Статистика товаров и услуг: Учебник / Под ред. И.К. Белявского. М., 2002.

8. Статистика: Учебник / Под ред. В.С. Мхитаряна. М.: Экономист, 2005

9. Теория статистики: Учебник/Под ред. профессора Г.Л. Громыко. – М.: ИНФРА-М, 2000. – 414 с.

10. Экономика и статистика фирм / Под ред. С.Д. Ильенковой. М., 2000

Аннотация: Для большинства статистических исследований важно выявить существующие взаимосвязи между протекающими явлениями и процессами. Почти все наблюдаемые явления экономической жизни общества, какими бы независимыми они ни казались на первый взгляд, как правило, - следствие действия определенных факторов. Например, прибыль, получаемая предприятием, связана со множеством показателей: численностью работников, их образованием, стоимостью основных производственных фондов и т. п.

12.1. Понятие о функциональной и корреляционной связи

Между общественными и экономическими явлениями имеется два основных типа связи - функциональная и статистическая (называемая также стохастической, вероятностной или корреляционной). Перед тем как рассмотреть их подробнее, введем понятия независимых и зависимых признаков.

Независимыми, или факторными, называют признаки, которые вызывают изменения других, связанных с ними признаков. Признаки, изменение которых под воздействием определенных факторов требуется проследить, называют зависимыми, или результативными.

При функциональной связи изменение независимых переменных приводит к получению точно определенных значений зависимой переменной.

Наиболее часто функциональные связи проявляются в естественных науках, например в механике функциональной является зависимость расстояния, пройденного объектом, от скорости его движения и т. п.

При статистической связи каждому значению независимой переменной Х соответствует множество значений зависимой переменной Y, причем не известно заранее, какое именно. Например, мы знаем, что прибыль коммерческого банка определенным образом связана с размером его уставного капитала (этот факт не подлежит сомнению). Тем не менее, нельзя вычислить точную величину прибыли при заданном значении последнего показателя, так как она зависит еще и от множества других факторов, помимо размера уставного капитала, среди которых имеются и случайные. В нашем случае, скорее всего, мы определим лишь среднее значение прибыли, которое будет получено в целом по совокупности банков со сходным объемом уставного капитала. Таким образом, статистическая связь отличается от функциональной наличием действия на зависимую переменную большого числа факторов.

Заметим, что статистическая связь проявляется лишь "в общем и среднем" при большом числе наблюдений за явлением. Так, интуитивно мы можем предполагать, что существует зависимость между объемом основных фондов предприятия и получаемой им прибылью, а именно с увеличением первого размер прибыли возрастает. Но на это можно возразить и привести пример предприятия, обладающего достаточным количеством современного производственного оборудования, но тем не менее терпящего убытки. В данном случае мы имеем наглядный пример статистической связи, которая проявляется лишь в больших совокупностях, содержащих десятки и сотни единиц в отличие от функциональной, подтверждающейся для каждого наблюдения.

Корреляционной является статистическая связь между признаками, при которой изменение значений независимой переменной Х приводит к закономерному изменению математического ожидания случайной величины Y.

Пример 12.1. Предположим, что имеются данные по предприятиям о размере нераспределенной прибыли предыдущего года, объеме инвестиций в основной капитал и о суммах, выделенных на приобретение ценных бумаг (тыс. ден. ед.):

Таблица 12.1.
Номер предприятия Нераспределенная прибыль предыдущего года Приобретение ценных бумаг Инвестиции в основные фонды
1 3 010 190 100
2 3 100 182 250
3 3 452 185 280
4 3 740 170 270
5 3 980 172 330
6 4 200 160 420
7 4 500 145 606
8 5 020 120 690
9 5 112 90 800
10 5 300 30 950

Из таблицы видно, что имеется прямое соответствие между нераспределенной прибылью предприятия и его инвестициями в основной капитал : при увеличении нераспределенной прибыли объем инвестиций также возрастает. Теперь обратим внимание на связь между показателем нераспределенной прибыли и объемом приобретенных ценных бумаг. Здесь она носит совершенно иной характер: увеличение первого показателя приводит к прямо противоположному эффекту - стоимость приобретенных ценных бумаг за редким исключением (что уже однозначно исключает наличие функциональной связи) уменьшается. Такой визуальный анализ данных , при котором наблюдения ранжируются по возрастанию или убыванию независимой величины х, а затем анализируется изменение значений зависимой величины у, называется методом приведения параллельных данных.

В рассмотренном примере в первом случае связь прямая, т.д. увеличение (уменьшение) одного показателя влечет увеличение (уменьшение) другого (наблюдается соответствие в изменениях показателей), а во втором - обратная, т.д. уменьшение одного показателя вызывает рост другого или же увеличение одного соответствует снижению другого.

Прямая и обратная зависимости характеризуют направление связи между признаками, которую можно проиллюстрировать графически с помощью поля корреляции. При его построении в прямоугольной системе координат на оси абсцисс располагают значения независимой переменной х, а на оси ординат - зависимой у. Пересечение координат обозначают точками, которые символизируют наблюдения. По форме рассеяния точек на корреляционном поле судят о форме и тесноте связи. На рисунке 12.1 приводятся корреляционные поля, соответствующие различным формам связи.


Рис. 12.1.

а - прямая (положительная) связь ;

б - обратная (отрицательная) связь ;

в - отсутствие связи

Раздел статистической науки, занимающийся исследованием причинных связей между социально-экономическими явлениями и процессами, имеющими количественное выражение , - это корреляционно-регрессионный анализ . По существу имеются два отдельных направления анализа - корреляционный и регрессионный. Однако в связи с тем, что на практике они применяются чаще всего комплексно (исходя из результатов корреляционного анализа проводят регрессионный), их объединяют в один вид.

Проведение корреляционно-регрессионного анализа предполагает решение следующих задач:

Из перечисленных задач первые две относят непосредственно к задачам корреляционного анализа, три последующие - к регрессионному анализу и только по отношению к количественным показателям.

12.1.1. Требования к статистической информации, исследуемой методами корреляционно-регрессионного анализа

Методы корреляционно-регрессионного анализа можно применить не ко всем статистическим данным. Перечислим основные требования, предъявляемые к анализируемой информации:

  1. используемые для исследования наблюдения должны являться случайно выбранными из генеральной совокупности объектов. В противном случае исходные данные, представляющие собой определенную выборку из генеральной совокупности, не будут отражать ее характер, полученные по ним выводы о закономерностях развития окажутся бессмысленными и не имеющими никакой практической ценности;
  2. требование независимости наблюдений друг от друга. Зависимость наблюдений друг от друга называется автокорреляцией, для ее устранения в теории корреляционно-регрессионного анализа созданы специальные методы;
  3. исходная совокупность данных должна быть однородной, без аномальных наблюдений. И действительно, одно-единственное, резко выделяющееся наблюдение может привести к катастрофическим последствиям для регрессионной модели, ее параметры окажутся смещенными, выводы абсурдными;
  4. желательно, чтобы исходные данные для анализа подчинялись нормальному закону распределения. Нормальный закон распределения используется для того, чтобы при проверке значимости коэффициентов корреляции и построении для них интервальных границ можно было использовать определенные критерии. Если же проверять значимость и строить интервальные оценки не требуется, переменные могут иметь любой закон распределения. В регрессионном анализе при построении уравнения регрессии требование нормальности распределения исходных данных предъявляется лишь к результативной переменной Y, независимые факторы рассматриваются как неслучайные величины и могут в действительности иметь любой закон распределения. Как и в случае корреляционного анализа, требование нормальности распределения нужно для проверки значимости регрессионного уравнения, его коэффициентов и нахождения доверительных интервалов;
  5. число наблюдений, по которым устанавливается взаимосвязь признаков и строится модель регрессии, должно превышать количество факторных признаков хотя бы в 3-4 раза (а лучше в 8-10 раз). Как отмечалось выше, статистическая связь проявляется только при значительном числе наблюдений на основе действия закона больших чисел, причем, чем связь слабее, тем больше требуется наблюдений для установления связи, чем сильнее - тем меньше;
  6. факторные признаки Х не должны находиться между собой в функциональной зависимости. Значительная связь независимых (факторных, объясняющих) признаков между собой указывает на мультиколлениарность. Ее наличие приводит к построению неустойчивых регрессионных моделей, "ложных" регрессий.

12.1.2. Линейная и нелинейная связи

Линейная связь выражается прямой линией, а нелинейная - какой-либо кривой линией. Линейная связь выражается уравнением прямой: y = a 0 + a i *x. Прямая наиболее привлекательна с точки зрения простоты расчета параметров уравнения. К ней прибегают всегда, в том числе и в случаях нелинейных связей, когда нет угрозы значительных потерь в точности оценок. Однако для некоторых зависимостей представление их в линейной форме приводит к большим ошибкам (ошибкам аппроксимации) и, как следствие, к ложным выводам. В этих случаях используют нелинейные регрессионные функции, которые в общем случае могут иметь любой произвольный вид, тем более что современное программное обеспечение позволяет быстро их построить. Чаще всего для выражения нелинейной связи используются следующие нелинейные уравнения: степенное, параболическое, гиперболическое, логарифмическое.

Параметры этих моделей, как и в случаях линейных зависимостей, оцениваются также на основе метода наименьших квадратов (см. п. 12.3.1).

12.2. Корреляционно-регрессионный анализ

Основными задачами корреляционного анализа являются определение наличия связи между отобранными признаками, установление ее направления и количественная оценка тесноты связи. Для этого в корреляционном анализе сначала оценивается матрица парных коэффициентов корреляции, затем на ее основе определяются частные и множественные коэффициенты корреляции и детерминации. После нахождения значений коэффициентов проверяют их значимость . Конечный результат корреляционного анализа - это отбор факторных признаков Х для дальнейшего построения уравнения регрессии, позволяющего количественно описать взаимосвязь.

Рассмотрим этапы корреляционного анализа подробнее.

12.2.1. Парные (линейные) коэффициенты корреляции

Корреляционный анализ начинается с расчета парных (линейных) коэффициентов корреляции.

Парный коэффициент корреляции представляет собой меру линейной зависимости между двумя переменными на фоне действия остальных переменных, входящих в модель.

В зависимости от того, какой порядок вычислений более удобен исследователю, расчет данного коэффициента проводят по одной из следующих формул:

Парный коэффициент корреляции изменяется в пределах от -1 до +1. Абсолютное значение, равное единице, свидетельствует о том, что связь функциональная: -1 - обратная (отрицательная), +1 - прямая (положительная). Нулевое значение коэффициента указывает на отсутствие линейной связи между признаками.

Качественную оценку полученным количественным значениям парных коэффициентов корреляции можно дать на основе шкалы, представленной в табл. 12.2.

Примечание: положительное значение коэффициента говорит о том, что связь между признаками прямая, отрицательное - обратная.

12.2.2. Оценка существенности связи

После того, как значения коэффициентов получены, следует проверить их значимость. Поскольку исходные данные, по которым устанавливается взаимосвязь признаков, являются определенной выборкой из некоей генеральной совокупности объектов, исчисленные по этим данным парные коэффициенты корреляции будут выборочными. Таким образом, они лишь оценивают связь исходя из той информации, которую несут отобранные единицы наблюдения. Если исходные данные "хорошо" отражают структуру и закономерности генеральной совокупности, то и исчисленный по ним коэффициент корреляции будет показывать реальную связь, присущую в действительности всей исследуемой совокупности объектов. Если данные не "копируют" взаимосвязи совокупности в целом, то и рассчитанный коэффициент корреляции сформирует ложное представление о зависимости. В идеале, чтобы установить этот факт, требуется исчислить коэффициент корреляции на основе данных всей совокупности и сравнить его с исчисленным по отобранным наблюдениям. Однако на практике, как правило, этого сделать нельзя, так как зачастую неизвестна вся генеральная совокупность или же она слишком велика. Поэтому о том, насколько реально коэффициент представляет действительность, можно судить лишь приблизительно. На основе логики легко прийти к выводу, что, очевидно, с увеличением числа наблюдений (при ) доверие к исчисленному коэффициенту будет увеличиваться.

Значимость парных коэффициентов корреляции проверяется одним из двух способов: с помощью таблицы Фишера - Йейтса или по t-критерию Стьюдента. Рассмотрим способ проверки с помощью таблицы Фишера - Йейтса как наиболее простой.

В начале проверки задается уровень значимости (чаще всего обозначаемый буквой греческого алфавита "альфа" - ), который показывает вероятность принятия ошибочного решения. Возможность совершить ошибку вытекает из того факта, что для определения взаимосвязи используются данные не всей совокупности, а лишь ее части. Обычно принимает следующие значения: 0,05; 0,02; 0,01; 0,001. Например, если = 0,05, то это означает, что в среднем в пяти случаях из ста принятое решение о значимости (или незначимости) парных коэффициентов корреляции будет ошибочным; при = 0,001 - в одном случае из тысячи и т.д.

Вторым параметром при проверке значимости является число степеней свободы v, которое в данном случае вычисляется как v = n - 2. По таблице Фишера - Йейтса находится критическое значение коэффициента корреляции r кр. ( = 0,05, v = n - 2). Коэффициенты, значения которых по модулю больше найденного критического значения, считаются значимыми.

Пример 12.2. Предположим, что в первом случае имеется 12 наблюдений, и по ним вычислили парный коэффициент корреляции, который оказался равным 0,530, во втором - 92 наблюдения, и рассчитанный парный коэффициент корреляции составил 0,36. Но если мы проверим их значимость, в первом случае коэффициент окажется незначимым, а во втором - значимым, невзирая на то, что он по величине гораздо меньше. Оказывается, в первом случае слишком мало наблюдений, что повышает требования, и критическая величина парного коэффициента корреляции при уровне значимости = 0,05 составляет 0,576 (v = 12 - 2), а во втором - наблюдений значительно больше и достаточно превысить критическое значение 0,205 (v = 92 - 2), чтобы коэффициент корреляции при том же уровне оказался значимым. Таким образом, чем меньше наблюдений, тем всегда будет выше критическое значение коэффициента.

Проверка значимости по существу решает вопрос, случайны или нет полученные результаты расчетов.

12.2.3. Определение множественного коэффициента корреляции

Следующий этап корреляционного анализа связан с расчетом множественного (совокупного) коэффициента корреляции.

Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной и совокупностью других переменных, рассматриваемых в корреляционном анализе.

Если изучается связь между результативным признаком y и лишь двумя факторными признаками х 1 и х 2 , то для вычисления множественного коэффициента корреляции можно использовать следующую формулу, компонентами которой являются парные коэффициенты корреляции:

где r - парные коэффициенты корреляции.

9.1. Причинность, регрессия, корреляция

В процессе статистического исследования зависимостей вскрываются причинно-следственные отношения между явлениями, что позволяет выявлять факторы (признаки), оказывающие основное влияние на вариацию изучаемых явлений и процессов. Причинно-следственные отношения – это связь явлений и процессов, когда изменение одного из них – причины, ведет к изменению другого – следствия.

Признаки по их значению для изучения взаимосвязи делятся на два вида: факторные и результативные.

Социально-экономические явления представляют собой результат одновременного воздействия большого числа причин. Следовательно, при изучении этих явлений необходимо выявлять главные, основные причины, абстрагируясь от второстепенных.

В основе первого этапа статистического изучения связи лежит качественный анализ изучаемого явления, т.е. исследование его природы методами экономической теории, социологии, конкретной экономики. Второй этап – построение модели связи. Третий, последний этап – интерпретация результатов, вновь связан с качественными особенностями изучаемого явления.

В статистике различают функциональную связь и стохастическую. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Такая связь проявляется во всех случаях наблюдения и для каждой конкретной единицы исследуемой совокупности. Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений, то такая зависимость называется стохастической. Частным случаем стохастической связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков.

Связи между признаками и явлениями ввиду их большого разнообразия классифицируются по ряду оснований: по степени тесноты связи, направлению и аналитическому выражению.

Степень тесноты корреляционной связи количественно может быть оценена с помощью коэффициента корреляции, величина которого определяет характер связи (табл. 1).

Таблица 1 - Количественные критерии тесноты связи

По направлению выделяют связь прямую и обратную .

При прямой связи с увеличением или уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного. В случае обратной связи с увеличением значений факторного признака значения результативного убывают, и наоборот.

По аналитическому выражению выделяют связи: прямолинейные (или просто линейные) и нелинейные . Если статистическая связь между явлениями может быть приближенно выражена уравнением прямой линии, то ее называют линейной; если же она выражается уравнением какой-либо кривой линии (параболы, гиперболы, показательной, экспоненциальной и т.п.), то такую связь называют нелинейной или криволинейной.

Для выявления наличия связи, ее характера и направления в статистике используются методы: приведения параллельных данных; аналитических группировок; статистических графиков; корреляции.

Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических величин. Такое сопоставление позволяет установить наличие связи и получить представление о ее характере. Например, изменение двух величин представлено следующими данными.

Графически взаимосвязь двух признаков изображается с помощью поля корреляции . В системе координат на оси абсцисс откладываются значения факторного признака, а на оси ординат – результативного. Чем сильнее связь между признаками, тем теснее будут группироваться точки вокруг определенной линии, выражающей форму связи (рис.).

При отсутствии тесных связей имеет место беспорядочное расположение точек на графике.

Для социально-экономических явлений характерно, что наряду с существенными факторами, формирующими уровень результативного признака на него оказывают влияние многие другие неучтенные и случайные факторы. Это свидетельствует о том, что взаимосвязи явлений, которые изучает статистика, носят корреляционный характер.

Корреляция – это статистическая взаимосвязь между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания (средней величины) другой.

В статистике принято различать следующие виды зависимостей .

1. Парная корреляция – связь между двумя признаками (результативным и факторным или двумя факторными).

2. Частная корреляция – зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков.

3. Множественная корреляция – зависимость результативного и двух или более факторных признаков, включенных в исследование.

Задачей корреляционного анализа является количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаком (при многофакторной связи).

Теснота связи количественно выражается величиной коэффициентов корреляции, которые дают возможность определить «полезность» факторных признаков при построении уравнений множественной регрессии. Кроме того, величина коэффициента корреляции служит оценкой соответствия уравнения регрессии выявленным причинно-следственным связям.

9.2. Оценка тесноты связи

Теснота корреляционной связи между факторным и результативным признаками может исчисляться с помощью таких коэффициентов : эмпирический коэффициент корреляционной связи (коэффициент Фехнера); коэффициент ассоциации; коэффициент взаимной сопряженности Пирсона и Чупрова; коэффициент контингенции; ранговые коэффициенты корреляции Спирмэна и Кендэла; линейный коэффициент корреляции; корреляционное отношение и др.

Наиболее совершенно тесноту связи характеризует линейный коэффициент корреляции: , где – средняя из произведений значений признаков ху ; – средние значения признаков х и у ; - средние квадратические отклонения признаков х и у. Он используется в том случае, если связь между признаками линейная

Линейный коэффициент корреляции может быть положительным или отрицательным.

Положительная его величина свидетельствует о прямой связи, отрицательная – об обратной. Чем ближе к ±1, тем связь теснее. При функциональной связи между признаками = ±1. Близость к 0 означает, что связь между признаками слабая.

9.3. Методы регрессионного анализа

С понятием корреляции тесно связано понятие регрессии . Первая служит для оценки тесноты связи, вторая - исследует ее форму. Корреляционно-регрессионный анализ , как общее понятие, включает в себя измерение тесноты и направления связи (корреляционный анализ) и установление аналитического выражения (формы) связи (регрессионный анализ).

После того, как с помощью корреляционного анализа выявлено наличие статистических связей между переменными и оценена степень их тесноты, переходят к математическому описанию конкретного вида зависимостей с использованием регрессионного анализа. Для этого подбирают класс функций, связывающий результативный показатель у и аргументы х 1 , х 2 ,… х k , отбирают наиболее информативные аргументы, вычисляют оценки неизвестных значений параметров связи и анализируют свойства полученного уравнения.

Функция, описывающая зависимость среднего значения результативного признака у от заданных значений аргументов, называется функцией (уравнением) регрессии . Регрессия – линия, вид зависимости средней результативного признака от факторного.

Наиболее разработанной в теории статистики является методология парной корреляции, рассматривающая влияние вариации факторного признака х на результативный у

Уравнение прямолинейной корреляционной связи имеет вид: .

Параметры а 0 и а 1 называют параметрами уравнения регрессии.

Для определения параметров уравнения регрессии используется способ наименьших квадратов, который даёт систему двух нормальных уравнений:

.

Решая эту систему в общем виде, можно получить формулы для определения параметров уравнения регрессии: ,

УПРАЖНЕНИЯ

Задача 9.1. 15 заводов проранжированы в порядке возрастания рентабельности производства.

№ предприятия

Рентабельность производства, %

Выработка одного работающего, т / чел

Себестоимость единицы продукции, руб.

Установите наличие и форму корреляционной связи между рентабельностью производства и выработкой, рентабельностью производства и себестоимостью единицы продукции с помощью методов статистических графиков и регрессионного анализа.

1. Курс теории статистики для подготовки специалистов финансово-экономического профиля: учебник/ Салин В. Н. - М. : Финансы и статистика, 2006. - 480 с.

2. Общая теория статистики: учебник для студентов вузов / М. Р. Ефимова, Е. В. Петрова, В. Н. Румянцев. - 2-е изд., испр. и доп. - М. : ИНФРА-М, 2006. - 414 с.

3. Практикум по общей теории статистики: учебное пособие / М.Р. Ефимова, О.И. Ганченко, Е.В. Петрова. - Изд. 3-е, перераб. и доп. - М. Финансы и статистика, 2007. - 368 с.

4. Практикум по статистике / А.П. Зинченко, А.Е, Шибалкин, О.Б. Тарасова, Е.В. Шайкина; Под ред. А.П. Зинченк. – М.: КолосС, 2003. – 392 с.

5. Статистика: Учебник для студ. учреждений сред. проф. образования / В.С. Мхитарян, Т.А. Дуброва, В.Г. Минашкин и др.; Под ред. В.С. Мхитаряна. – 3-е изд., стер. – М.: Издательский центр «Академия», 2004. -272 с.

6. Статистика: учебник для студентов вузов / Санкт-Петербург. гос. ун-т экономики и финансов; под ред. И. И. Елисеевой. - М. : Высшее образование, 2008. - 566 с.

7. Теория статистики: учебник для студентов экономических специальностей вузов / Р. А. Шмойлова [и др.] ; ред. Р. А. Шмойлова. - 5-е изд. - М. : Финансы и статистика, 2008. - 656 с.

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Лекция

Тема: Статистическое изучение взаимосвязи показателей

1. Методы корреляционно-регрессионного анализа связи показателей коммерческой деятельности

Изучение взаимосвязей на рынке товаров и услуг - важнейшая функция экономических работников. При этом важно, что изучение связи показателей коммерческой деятельности необходимо не только для установления факта наличия связи. В целях научного обоснования прогнозирования и рационального управления механизмом рыночных отношений важно выявленным связям придать математическую определенность. Без количественной оценки закономерности связи невозможно доводить результаты экономических разработок до такого уровня, что бы они могли использоваться для практических целей.

Статистические показатели коммерческой деятельности, отображая объективную взаимообусловленность отдельных сторон коммерческой деятельности, могут состоять в собой в следующих основных видах связи:

Балансовая связь показателей коммерческой деятельности характеризует зависимость между источниками формирования средств и их использованием. Свое проявление она получает, например, в формуле товарного баланса:

Он + П = В + Ок

Левая часть формулы характеризует предложение, а правая - использование товарных ресурсов. Важное практическое значение формулы товарного баланса состоит в том, что при отсутствии количественного учета продажи товаров на ее основе определяют величину розничной реализации отдельных товаров.

Компонентные связи показателей коммерческой деятельности характеризуются тем, что изменение статистического показателя определяется изменением компонентов, входящих в этот показатель, как множители:

a = b x c

В статистике коммерческой деятельности компонентные связи используются в индексном методе выявления роли отдельных факторов в совокупном измерении сложного показателя.

Ipq = Ip x Iq

Практическая значимость показателей, состоящих в компонентной связи в том, что она позволяет определить величину одного из неизвестных компонентов.

Факторные связи характеризуются тем, что они проявляются в согласованной вариации изучаемых показателей. При этом одни показатели выступают как факторные, другие как результативные. В свою очередь факторные связи могут рассматриваться как функциональные и корреляционные. При функциональной связи изменение результативного признака (у) всецело обусловлено действие факторного признака (х):

При корреляционной связи изменение результативного признака (у) обусловлено влиянием факторного признака (х) не всецело, а лишь частично, так как возможно влияние прочих факторов (е):

По своему характеру корреляционные связи - это связи относительные. Здесь при одном и том же учтенном значении факторного признака возможны различные значения результативного признака. Это обусловлено наличием других факторов, которые могут быть различными по составу, направлению и силе действия на отдельные единицы статистической совокупности. Поэтому для изучаемой статистической совокупности в целом здесь устанавливается такое соотношение, в котором определенному изменению факторного признака соответствует среднее изменение признака результативного. Следовательно, характерной особенностью корреляционных связей является то, что они проявляются не в единичных случаях, а в массе. При статистическом изучении корреляционной связи определяется влияние учтенных факторных признаков при отвлечении от прочих аргументов. При изучении корреляционной связи ставятся следующие задачи:

проверка положений экономической теории о возможности связи между изучаемыми показателями и придание выявленной связи аналитической формы зависимости;

установление количественных оценок тесноте связи, характеризующих силу влияния факторных признаков на результативные.

Если изучается связь между двумя признаками - это парная корреляция. Если изучается связь между многими признаками - корреляция множественная.

2. Построение уравнений моделируемых функций

Наиболее разработанной в теории статистики является методология так называемой парной корреляции. При изучении связи показателей применяются различного вида уравнения прямолинейной и криволинейной связи:

линейная -

параболическая -

гиперболическая -

Определение параметров уравнения регрессии начинается с факта установления связи рассматриваемых показателей. Для этого производится расчет коэффициента парной корреляции:

Для получения выводов о практической значимости полученному коэффициенту корреляции дается качественная оценка на основе шкалы Чеддока:

При значениях показателей тесноты связи, превышающих 0,7, зависимость результативного признака от факторного является высокой, так как величина коэффициента детерминации всегда будет более 50%.

Коэффициент детерминации характеризует какую долю результативного показателя объясняет влияние изучаемого фактора:

Следовательно, в случае, если коэффициент корреляции превышает 0,7 между результативным показателем и исследуемым фактором существует взаимосвязь, объясняющая изменение результативного показателя от рассматриваемого фактора более чем на 50%.

Пример: проанализировать данные о средней цене на сыр «Пармезан» по Донецкой области за ряд лет:

Средняя заработная плата, грн.

Таким образом, наблюдается высокая зависимость среднемесячной заработной платы от года, а именно, 92% заработной платы объясняются изменением года.

3. Оценка адекватности и надежности уравнения

корреляция регрессионный коммерческий статистический

Параметры выбранных для моделирования функций можно находить разными путями. Наиболее точным приемом является методо наименьших квадратов. На его для каждой из функций формируют специальную систему уравнений:

линейная -

параболическая -

гиперболическая -

В каждой из систем:

У - результативный показатель;

Х - показатель времени;

N - количество наблюдений;

A,b, c - параметры модели.

Отсчет показателя времени начинают с 1. Основываясь на известных значениях х и у, определяют все суммы и подставляют их в систему. В результате чего получают систему уравнений относительно неизвестных параметров. Решая систему находят конкретные цифровые значения параметров и подставляют их в решение моделирующих функций, которые должны быть оценены и использованы на практике.

Пример: произведем расчет вспомогательной таблицы:

Составим системы уравнений для трех функций и найдем значения параметров уравнений:

линейная модель: 1525 = 7а + 28b

7266 = 28а + 140b

a = -5,7 b = 53,04 y = -5,7+53,04x

параболическая модель: 1525 = 7a + 28b + 140c

7266 = 28a + 140b + 784c

40248 = 140a + 784b + 4676c

a = 697,62 b = -114,08 c = 68,59 y = 697,62 - 114,08x + 68,59x2

гиперболическая модель: 1525 = 7a + 2,59b

432,13 = 2,59a + 1,51b

a = 237,65 b = 53,49 y = 237,65 + 53,49/x

4. Оценка параметров уравнения

Адекватность экономико-математической модели может быть установлена с помощью средней ошибки аппроксимации (среднего процента расхождения теоретических и практических значений):

где у1 - фактические значения результативного показателя;

у0 - теоретические значения, найденные по уравнению.

При моделировании экономических показателей чаще всего допускается 5% ошибка. Модель считается адекватной, а следовательно, значимой если.

Выбор наиболее оптимальной модели можно осуществлять на основе остаточного среднеквадратического отклонения (остаточной дисперсии):

где l - количество параметров уравнения.

Наилучшей будет та функция, у которой остаточная дисперсия меньшая.

Оценку надежности уравнения проводить по критерию Фишера, учитывая F-статистику:

где - среднее значение результативного показателя.

Чем больше расчетная величина F-критерия, тем более значимая рассчитанная модель. Расчетное значение сравнивают с критическим значением, которое находят в таблицах распределения Фишера по ступеням свободы (l-1) и (n-l), задавая уровень значимости 0,05 (5% ошибка). Если, F>F табл, то уравнение считается надежным с вероятностью 0,95. В противоположном случае уравнение надежным не считается.

Расчет для линейной функции:

Апроксимация

(У0 - У0сред)2

F-табличное - 230,2

для параболической функции:

Апроксимация

(У0 - У0сред)2

F-табличное - 19,25

для гиперболичной функции:

Апроксимация

(У0 - У0сред)2

F-табличное - 230,2

Таким образом, ни одна из представленных функций не достаточно надежна и не имеет практической значимости в силу больших расхождений между теоретическими и фактическими значениями результативного показателя.

Для характеристики экономического содержания параметров уравнений наиболее целесообразным является использование коэффициентов эластичности, которые характеризуют, на сколько процентов в среднем изменится функция с изменением аргумента на 1% при фиксированном значении остальных факторов на каком-либо уровне:

где Эi - коэффициент эластичности i-го фактора;

Параметры регрессии i-го фактора;

Среднее значение i-го фактора;

Среднее значение результативного показателя.

Размещено на Allbest.ru

...

Подобные документы

    Основные понятия корреляционно-регрессионного анализа. Вычисление показателей силы и тесноты связи между явлениями и процессами, специфика их интерпретации. Оценка результатов линейного регрессионного анализа. Коэффициент множественной детерминации.

    контрольная работа , добавлен 02.04.2013

    Анализ сути прибыли, ее роли в деятельности предприятия, а также порядка ее исчисления и анализа статистическими методами. Понятие рентабельности и статистическое изучение ее показателей. Применение выборочного и метода в финансово-экономических задачах.

    курсовая работа , добавлен 12.12.2012

    Статистическое изучение рядов динамики, виды показателей. Расчет коэффициента смыкания. Цепной и базисный показатель. Средний уровень динамического ряда. Определение общей закономерности в развитии явления. Статистическое изучение сезонных колебаний.

    лекция , добавлен 27.04.2013

    Основные черты, задачи и предпосылки применения корреляционно-регрессионного метода. Методы корреляционного и регрессионного анализа. Коэффициент ранговой корреляции Кендалла, Спирмена, Фехнера. Определение тесноты взаимосвязи между показателями.

    контрольная работа , добавлен 08.04.2013

    Статистическое изучение и методы расчета показателей объёма производства продукции и услуг. Анализ зависимости числа преступлений от количества безработных в центральном регионе России с применением пакета прикладных программ обработки электронных таблиц.

    курсовая работа , добавлен 19.03.2010

    Статистическое изучение производительности труда. Анализ структурных группировок. Виды и задачи группировок, связи между ними. Техника выполнения группировки. Формула Стерджесса. Статистика фондовооруженности, производительности труда и основных фондов.

    курсовая работа , добавлен 15.01.2009

    Статистическое изучение динамики показателей страхового рынка. Построение статистического ряда группировки страховых организаций по размеру денежных доходов, расчёт характеристик ряда распределения. Расчет ошибки выборки средней величины доходов.

    курсовая работа , добавлен 03.01.2010

    Формы и системы оплаты труда, степень их распространённости на предприятии ОАО "ОЗСК". Статистическое изучение состава и структуры фонда заработной платы предприятия. Расчет и анализ динамики ФЗП, определяющие факторы. Количественная оценка показателей.

    курсовая работа , добавлен 11.08.2011

    Корреляционно-регрессионный анализ как объект статистического изучения, система статистических показателей, его характеризующих. Особенности и принципы применения метода корреляционно-регрессионного анализа. Построение статистического ряда распределения.

    курсовая работа , добавлен 28.01.2014

    Формы и системы оплаты труда и степень распространённости на предприятии. Статистическое изучение состава и структуры фонда заработной платы предприятия. Анализ и расчет показателей динамики ФЗП. Количественная оценка факторов, определяющих ее динамику.

8.1. Основные понятия корреляционного и регрессионного анализа

Исследуя природу, общество, экономику, необходимо считаться со взаимосвязью наблюдаемых процессов и явлений. При этом полнота описания так или иначе определяется количественными характеристиками причинно-следственных связей между ними. Оценка наиболее существенных из них, а также воздействия одних факторов на другие является одной из основных задач статистики.

Формы проявления взаимосвязей весьма разнообразны. В качестве двух самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связи. В первом случае величине факторного признака строго соответствует одно или несколько значений функции. Достаточно часто функциональная связь проявляется в физике, химии. В экономике примером может служить прямо пропорциональная зависимость между производительностью труда и увеличением производства продукции.

Корреляционная связь (которую также называют неполной, или статистической) проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной. Объяснение тому – сложность взаимосвязей между анализируемыми факторами, на взаимодействие которых влияют неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. При корреляционной связи каждому значению аргумента соответствуют случайно распределенные в некотором интервале значения функции.

Например, некоторое увеличение аргумента повлечет за собой лишь среднее увеличение или уменьшение (в зависимости от направленности) функции, тогда как конкретные значения у отдельных единиц наблюдения будут отличаться от среднего. Такие зависимости встречаются повсеместно. Например, в сельском хозяйстве это может быть связь между урожайностью и количеством внесенных удобрений. Очевидно, что последние участвуют в формировании урожая. Но для каждого конкретного поля, участка одно и то же количество внесенных удобрений вызовет разный прирост урожайности, так как во взаимодействии находится еще целый ряд факторов (погода, состояние почвы и др.), которые и формируют конечный результат. Однако в среднем такая связь наблюдается – увеличение массы внесенных удобрений ведет к росту урожайности.

По направлению связи бывают прямыми, когда зависимая переменная растет с увеличением факторного признака, и обратными, при которых рост последнего сопровождается уменьшением функции. Такие связи также можно назвать соответственно положительными и отрицательными.

Относительно своей аналитической формы связи бывают линейными и нелинейными. В первом случае между признаками в среднем проявляются линейные соотношения. Нелинейная взаимосвязь выражается нелинейной функцией, а переменные связаны между собой в среднем нелинейно.

Существует еще одна достаточно важная характеристика связей с точки зрения взаимодействующих факторов. Если характеризуется связь двух признаков, то ее принято называть парной . Если изучаются более чем две переменные – множественной .

Указанные выше классификационные признаки наиболее часто встречаются в статистическом анализе. Но кроме перечисленных различают также непосредственные, косвенные и ложные связи. Собственно, суть каждой из них очевидна из названия. В первом случае факторы взаимодействуют между собой непосредственно. Для косвенной связи характерно участие какой-то третьей переменной, которая опосредует связь между изучаемыми признаками. Ложная связь – это связь, установленная формально и, как правило, подтвержденная только количественными оценками. Она не имеет под собой качественной основы или же бессмысленна.

По силе различаются слабые и сильные связи. Эта формальная характеристика выражается конкретными величинами и интерпретируется в соответствии с общепринятыми критериями силы связи для конкретных показателей.

В наиболее общем виде задача статистики в области изучения взаимосвязей состоит в количественной оценке их наличия и направления, а также характеристике силы и формы влияния одних факторов на другие. Для ее решения применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая – регрессионный анализ. В то же время ряд исследователей объединяет эти методы в корреляционно-регрессионный анализ, что имеет под собой некоторые основания: наличие целого ряда общих вычислительных процедур, взаимодополнения при интерпретации результатов и др.

Поэтому в данном контексте можно говорить о корреляционном анализе в широком смысле – когда всесторонне характеризуется взаимосвязь. В то же время выделяют корреляционный анализ в узком смысле – когда исследуется сила связи – и регрессионный анализ, в ходе которого оцениваются ее форма и воздействие одних факторов на другие.

Задачи собственно корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов оказывающих наибольшее влияние на результативный признак.

Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значении зависимой переменной.

Решение названных задач опирается на соответствующие приемы, алгоритмы, показатели, применение которых дает основание говорить о статистическом изучении взаимосвязей.

Следует заметить, что традиционные методы корреляции и регрессии широко представлены в разного рода статистических пакетах программ для ЭВМ. Исследователю остается только правильно подготовить информацию, выбрать удовлетворяющий требованиям анализа пакет программ и быть готовым к интерпретации полученных результатов. Алгоритмов вычисления параметров связи существует множество, и в настоящее время вряд ли целесообразно проводить такой сложный вид анализа вручную. Вычислительные процедуры представляют самостоятельный интерес, но знание принципов изучения взаимосвязей, возможностей и ограничений тех или иных методов интерпретации результатов является обязательным условием исследования.

Методы оценки тесноты связи подразделяются на корреляционные (параметрические) и непараметрические. Параметрические методы основаны на использовании, как правило, оценок нормального распределения и применяются в случаях, когда изучаемая совокупность состоит из величин, которые подчиняются закону нормального распределения. На практике это положение чаще всего принимается априори. Собственно, эти методы – параметрические – и принято называть корреляционными.

Непараметрические методы не накладывают ограничений на закон распределения изучаемых величин. Их преимуществом является и простота вычислений.

8.2. Парная корреляция и парная линейная регрессия

Простейшим приемом выявления связи между двумя признаками является построение корреляционной таблицы:

\ Y
\
X \
Y 1 Y 2 ... Y z Итого Y i
X 1 f 11 12 ... f 1z
X 1 f 21 22 ... f 2z
... ... ... ... ... ... ...
X r f k1 k2 ... f kz
Итого ... n
... -

В основу группировки положены два изучаемых во взаимосвязи признака – Х и У. Частоты f ij показывают количество соответствующих сочетаний Х и У. Если f ij расположены в таблице беспорядочно, можно говорить об отсутствии связи между переменными. В случае образования какого-либо характерного сочетания f ij допустимо утверждать о связи между Х и У. При этом, если f ij концентрируется около одной из двух диагоналей, имеет место прямая или обратная линейная связь.

Наглядным изображением корреляционной таблице служит корреляционное поле. Оно представляет собой график, где на оси абсцисс откладывают значения Х, по оси ординат – У, а точками показывается сочетание Х и У. По расположению точек, их концентрации в определенном направлении можно судить о наличии связи.

В итогах корреляционной таблицы по строкам и столбцам приводятся два распределения – одно по X, другое по У. Рассчитаем для каждого Х i среднее значение У, т.е. , как

Последовательность точек (X i , ) дает график, который иллюстрирует зависимость среднего значения результативного признака У от факторного X, – эмпирическую линию регрессии, наглядно показывающую, как изменяется У по мере изменения X.

По существу, и корреляционная таблица, и корреляционное поле, и эмпирическая линия регрессии предварительно уже характеризуют взаимосвязь, когда выбраны факторный и результативный признаки и требуется сформулировать предположения о форме и направленности связи. В то же время количественная оценка тесноты связи требует дополнительных расчетов.

Практически для количественной оценки тесноты связи широко используют линейный коэффициент корреляции. Иногда его называют просто коэффициентом корреляции. Если заданы значения переменных Х и У, то он вычисляется по формуле

Можно использовать и другие формулы, но результат должен быть одинаковым для всех вариантов расчета.

Коэффициент корреляции принимает значения в интервале от -1 до + 1. Принято считать, что если |r| < 0,30, то связь слабая; при |r| = (0,3÷0,7) – средняя; при |r| > 0,70 – сильная, или тесная. Когда |r| = 1 – связь функциональная. Если же r принимает значение около 0, то это дает основание говорить об отсутствии линейной связи между У и X. Однако в этом случае возможно нелинейное взаимодействие. что требует дополнительной проверки и других измерителей, рассматриваемых ниже.

Для характеристики влияния изменений Х на вариацию У служат методы регрессионного анализа. В случае парной линейной зависимости строится регрессионная модель

где n число наблюдений;
а 0 , а 1 – неизвестные параметры уравнения;
e i – ошибка случайной переменной У.

Уравнение регрессии записывается как

где У iтеор – рассчитанное выравненное значение результативного признака после подстановки в уравнение X.

Параметры а 0 и а 1 оцениваются с помощью процедур, наибольшее распространение из которых получил метод наименьших квадратов. Его суть заключается в том, что наилучшие оценки ag и а, получают, когда

т.е. сумма квадратов отклонений эмпирических значений зависимой переменной от вычисленных по уравнению регрессии должна быть минимальной. Сумма квадратов отклонений является функцией параметров а 0 и а 1 . Ее минимизация осуществляется решением системы уравнений

Можно воспользоваться и другими формулами, вытекающими из метода наименьших квадратов, например:

Аппарат линейной регрессии достаточно хорошо разработан и, как правило, имеется в наборе стандартных программ оценки взаимосвязи для ЭВМ. Важен смысл параметров: а 1 – это коэффициент регрессии, характеризующий влияние, которое оказывает изменение Х на У. Он показывает, на сколько единиц в среднем изменится У при изменении Х на одну единицу. Если а, больше 0. то наблюдается положительная связь. Если а имеет отрицательное значение, то увеличение Х на единицу влечет за собой уменьшение У в среднем на а 1 . Параметр а 1 обладает размерностью отношения У к X.

Параметр a 0 – это постоянная величина в уравнении регрессии. На наш взгляд, экономического смысла он не имеет, но в ряде случаев его интерпретируют как начальное значение У.

Например, по данным о стоимости оборудования Х и производительности труда У методом наименьших квадратов получено уравнение

У = -12,14 + 2,08Х.

Коэффициент а, означает, что увеличение стоимости оборудования на 1 млн руб. ведет в среднем к росту производительности труда на 2.08 тыс. руб.

Значение функции У = a 0 + а 1 Х называется расчетным значением и на графике образует теоретическую линию регрессии.

Смысл теоретической регрессии в том, что это оценка среднего значения переменной У для заданного значения X.

Парная корреляция или парная регрессия могут рассматриваться как частный случай отражения связи некоторой зависимой переменной, с одной стороны, и одной из множества независимых переменных – с другой. Когда же требуется охарактеризовать связь всего указанного множества независимых переменных с результативным признаком, говорят о множественной корреляции или множественной регрессии.

8.3. Оценка значимости параметров взаимосвязи

Получив оценки корреляции и регрессии, необходимо проверить их на соответствие истинным параметрам взаимосвязи.

Существующие программы для ЭВМ включают, как правило, несколько наиболее распространенных критериев. Для оценки значимости коэффициента парной корреляции рассчитывают стандартную ошибку коэффициента корреляции:

В первом приближении нужно, чтобы . Значимость r xy проверяется его сопоставлением с , при этом получают

где t расч – так называемое расчетное значение t-критерия.

Если t расч больше теоретического (табличного) значения критерия Стьюдента (t табл) для заданного уровня вероятности и (n-2) степеней свободы, то можно утверждать, что r xy значимо.

Подобным же образом на основе соответствующих формул рассчитывают стандартные ошибки параметров уравнения регрессии, а затем и t-критерии для каждого параметра. Важно опять-таки проверить, чтобы соблюдалось условие t расч > t табл. В противном случае доверять полученной оценке параметра нет оснований.

Вывод о правильности выбора вида взаимосвязи и характеристику значимости всего уравнения регрессии получают с помощью F-критерия, вычисляя его расчетное значение:

где n – число наблюдений;
m – число параметров уравнения регрессии.

F расч также должно быть больше F теор при v 1 = (m-1) и v 2 = (n-m) степенях свободы. В противном случае следует пересмотреть форму уравнения, перечень переменных и т.д.

8.4. Непараметрические методы оценки связи

Методы корреляционного и дисперсионного анализа не универсальны: их можно применять, если все изучаемые признаки являются количественными. При использовании этих методов нельзя обойтись без вычисления основных параметров распределения (средних величин, дисперсий), поэтому они получили название параметрических методов.

Между тем в статистической практике приходится сталкиваться с задачами измерения связи между качественными признаками, к которым параметрические методы анализа в их обычном виде неприменимы. Статистической наукой разработаны методы, с помощью которых можно измерить связь между явлениями, не используя при этом количественные значения признака, а значит, и параметры распределения. Такие методы получили название непараметрических.

Если изучается взаимосвязь двух качественных признаков, то используют комбинационное распределение единиц совокупности в форме так называемых таблиц взаимной сопряженности.

Рассмотрим методику анализа таблиц взаимной сопряженности на конкретном примере социальной мобильности как процесса преодоления замкнутости отдельных социальных и профессиональных групп населения. Ниже приведены данные о распределении выпускников средних школ по сферам занятости с выделением аналогичных общественных групп их родителей.

Распределение частот по строкам и столбцам таблицы взаимной сопряженности позволяет выявить основные закономерности социальной мобильности: 42,9 % детей родителей группы 1 («Промышленность и строительство») заняты в сфере интеллектуального труда (39 из 91); 38,9 % детей. родители которых трудятся в сельском хозяйстве, работают в промышленности (34 из 88) и т.д.

Можно заметить и явную наследственность в передаче профессий. Так, из пришедших в сельское хозяйство 29 человек, или 64,4 %, являются детьми работников сельского хозяйства; более чем у 50 % в сфере интеллектуального труда родители относятся к той же социальной группе и т.д.

Однако важно получить обобщающий показатель, характеризующий тесноту связи между признаками и позволяющий сравнить проявление связи в разных совокупностях. Для этой цели исчисляют, например, коэффициенты взаимной сопряженности Пирсона (С) и Чупрова (К):

где f 2 – показатель средней квадратической сопряженности, определяемый путем вычитания единицы из суммы отношений квадратов частот каждой клетки корреляционной таблицы к произведению частот соответствующего столбца и строки:

К 1 и К 2 – число групп по каждому из признаков. Величина коэффициента взаимной сопряженности, отражающая тесноту связи между качественными признаками, колеблется в обычных для этих показателей пределах от 0 до 1.

В социально-экономических исследованиях нередко встречаются ситуации, когда признак не выражается количественно, однако единицы совокупности можно упорядочить. Такое упорядочение единиц совокупности по значению признака называется ранжированием. Примерами могут быть ранжирование студентов (учеников) по способностям, любой совокупности людей по уровню образования, профессии, по способности к творчеству и т.д.

При ранжировании каждой единице совокупности присваивается ранг, т.е. порядковый номер. При совпадении значения признака у различных единиц им присваивается объединенный средний порядковый номер. Например, если у 5-й и 6-й единиц совокупности значения признаков одинаковы, обе получат ранг, равный (5 + 6) / 2 = 5,5.

Измерение связи между ранжированными признаками производится с помощью ранговых коэффициентов корреляции Спирмена (r) и Кендэлла (t). Эти методы применимы не только для качественных, но и для количественных показателей, особенно при малом объеме совокупности, так как непараметрические методы ранговой корреляции не связаны ни с какими ограничениями относительно характера распределения признака.

Предыдущая

Просмотров