Статистическое изучение связи между явлениями общественной жизни. Статистическое изучение взаимосвязи Наиболее разработанной в теории статистики является методология так называемой парной корреляции

9.1. Причинность, регрессия, корреляция

В процессе статистического исследования зависимостей вскрываются причинно-следственные отношения между явлениями, что позволяет выявлять факторы (признаки), оказывающие основное влияние на вариацию изучаемых явлений и процессов. Причинно-следственные отношения – это связь явлений и процессов, когда изменение одного из них – причины, ведет к изменению другого – следствия.

Признаки по их значению для изучения взаимосвязи делятся на два вида: факторные и результативные.

Социально-экономические явления представляют собой результат одновременного воздействия большого числа причин. Следовательно, при изучении этих явлений необходимо выявлять главные, основные причины, абстрагируясь от второстепенных.

В основе первого этапа статистического изучения связи лежит качественный анализ изучаемого явления, т.е. исследование его природы методами экономической теории, социологии, конкретной экономики. Второй этап – построение модели связи. Третий, последний этап – интерпретация результатов, вновь связан с качественными особенностями изучаемого явления.

В статистике различают функциональную связь и стохастическую. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Такая связь проявляется во всех случаях наблюдения и для каждой конкретной единицы исследуемой совокупности. Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений, то такая зависимость называется стохастической. Частным случаем стохастической связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков.

Связи между признаками и явлениями ввиду их большого разнообразия классифицируются по ряду оснований: по степени тесноты связи, направлению и аналитическому выражению.

Степень тесноты корреляционной связи количественно может быть оценена с помощью коэффициента корреляции, величина которого определяет характер связи (табл. 1).

Таблица 1 - Количественные критерии тесноты связи

По направлению выделяют связь прямую и обратную .

При прямой связи с увеличением или уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного. В случае обратной связи с увеличением значений факторного признака значения результативного убывают, и наоборот.

По аналитическому выражению выделяют связи: прямолинейные (или просто линейные) и нелинейные . Если статистическая связь между явлениями может быть приближенно выражена уравнением прямой линии, то ее называют линейной; если же она выражается уравнением какой-либо кривой линии (параболы, гиперболы, показательной, экспоненциальной и т.п.), то такую связь называют нелинейной или криволинейной.

Для выявления наличия связи, ее характера и направления в статистике используются методы: приведения параллельных данных; аналитических группировок; статистических графиков; корреляции.

Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических величин. Такое сопоставление позволяет установить наличие связи и получить представление о ее характере. Например, изменение двух величин представлено следующими данными.

Графически взаимосвязь двух признаков изображается с помощью поля корреляции . В системе координат на оси абсцисс откладываются значения факторного признака, а на оси ординат – результативного. Чем сильнее связь между признаками, тем теснее будут группироваться точки вокруг определенной линии, выражающей форму связи (рис.).

При отсутствии тесных связей имеет место беспорядочное расположение точек на графике.

Для социально-экономических явлений характерно, что наряду с существенными факторами, формирующими уровень результативного признака на него оказывают влияние многие другие неучтенные и случайные факторы. Это свидетельствует о том, что взаимосвязи явлений, которые изучает статистика, носят корреляционный характер.

Корреляция – это статистическая взаимосвязь между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания (средней величины) другой.

В статистике принято различать следующие виды зависимостей .

1. Парная корреляция – связь между двумя признаками (результативным и факторным или двумя факторными).

2. Частная корреляция – зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков.

3. Множественная корреляция – зависимость результативного и двух или более факторных признаков, включенных в исследование.

Задачей корреляционного анализа является количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаком (при многофакторной связи).

Теснота связи количественно выражается величиной коэффициентов корреляции, которые дают возможность определить «полезность» факторных признаков при построении уравнений множественной регрессии. Кроме того, величина коэффициента корреляции служит оценкой соответствия уравнения регрессии выявленным причинно-следственным связям.

9.2. Оценка тесноты связи

Теснота корреляционной связи между факторным и результативным признаками может исчисляться с помощью таких коэффициентов : эмпирический коэффициент корреляционной связи (коэффициент Фехнера); коэффициент ассоциации; коэффициент взаимной сопряженности Пирсона и Чупрова; коэффициент контингенции; ранговые коэффициенты корреляции Спирмэна и Кендэла; линейный коэффициент корреляции; корреляционное отношение и др.

Наиболее совершенно тесноту связи характеризует линейный коэффициент корреляции: , где – средняя из произведений значений признаков ху ; – средние значения признаков х и у ; - средние квадратические отклонения признаков х и у. Он используется в том случае, если связь между признаками линейная

Линейный коэффициент корреляции может быть положительным или отрицательным.

Положительная его величина свидетельствует о прямой связи, отрицательная – об обратной. Чем ближе к ±1, тем связь теснее. При функциональной связи между признаками = ±1. Близость к 0 означает, что связь между признаками слабая.

9.3. Методы регрессионного анализа

С понятием корреляции тесно связано понятие регрессии . Первая служит для оценки тесноты связи, вторая - исследует ее форму. Корреляционно-регрессионный анализ , как общее понятие, включает в себя измерение тесноты и направления связи (корреляционный анализ) и установление аналитического выражения (формы) связи (регрессионный анализ).

После того, как с помощью корреляционного анализа выявлено наличие статистических связей между переменными и оценена степень их тесноты, переходят к математическому описанию конкретного вида зависимостей с использованием регрессионного анализа. Для этого подбирают класс функций, связывающий результативный показатель у и аргументы х 1 , х 2 ,… х k , отбирают наиболее информативные аргументы, вычисляют оценки неизвестных значений параметров связи и анализируют свойства полученного уравнения.

Функция, описывающая зависимость среднего значения результативного признака у от заданных значений аргументов, называется функцией (уравнением) регрессии . Регрессия – линия, вид зависимости средней результативного признака от факторного.

Наиболее разработанной в теории статистики является методология парной корреляции, рассматривающая влияние вариации факторного признака х на результативный у

Уравнение прямолинейной корреляционной связи имеет вид: .

Параметры а 0 и а 1 называют параметрами уравнения регрессии.

Для определения параметров уравнения регрессии используется способ наименьших квадратов, который даёт систему двух нормальных уравнений:

.

Решая эту систему в общем виде, можно получить формулы для определения параметров уравнения регрессии: ,

УПРАЖНЕНИЯ

Задача 9.1. 15 заводов проранжированы в порядке возрастания рентабельности производства.

№ предприятия

Рентабельность производства, %

Выработка одного работающего, т / чел

Себестоимость единицы продукции, руб.

Установите наличие и форму корреляционной связи между рентабельностью производства и выработкой, рентабельностью производства и себестоимостью единицы продукции с помощью методов статистических графиков и регрессионного анализа.

1. Курс теории статистики для подготовки специалистов финансово-экономического профиля: учебник/ Салин В. Н. - М. : Финансы и статистика, 2006. - 480 с.

2. Общая теория статистики: учебник для студентов вузов / М. Р. Ефимова, Е. В. Петрова, В. Н. Румянцев. - 2-е изд., испр. и доп. - М. : ИНФРА-М, 2006. - 414 с.

3. Практикум по общей теории статистики: учебное пособие / М.Р. Ефимова, О.И. Ганченко, Е.В. Петрова. - Изд. 3-е, перераб. и доп. - М. Финансы и статистика, 2007. - 368 с.

4. Практикум по статистике / А.П. Зинченко, А.Е, Шибалкин, О.Б. Тарасова, Е.В. Шайкина; Под ред. А.П. Зинченк. – М.: КолосС, 2003. – 392 с.

5. Статистика: Учебник для студ. учреждений сред. проф. образования / В.С. Мхитарян, Т.А. Дуброва, В.Г. Минашкин и др.; Под ред. В.С. Мхитаряна. – 3-е изд., стер. – М.: Издательский центр «Академия», 2004. -272 с.

6. Статистика: учебник для студентов вузов / Санкт-Петербург. гос. ун-т экономики и финансов; под ред. И. И. Елисеевой. - М. : Высшее образование, 2008. - 566 с.

7. Теория статистики: учебник для студентов экономических специальностей вузов / Р. А. Шмойлова [и др.] ; ред. Р. А. Шмойлова. - 5-е изд. - М. : Финансы и статистика, 2008. - 656 с.

Изучение зависимостей - это сложнейшая задача, поскольку социально-экономические явления сами по себе сложны и многообразны. Кроме того, полученные выводы носят вероятностный характер, так как они делаются на основе данных, представляющих собой выборку во времени или пространстве.

Статистические методы изучения зависимости построены с учетом особенностей изучаемых закономерностей. Статистика изучает преимущественно стохастические связи, когда одному значению признака-фактора соответствует группа значений результативного признака. Если с изменением значений признака-фактора изменяются среднегрупповые значения результативного признака, то такие связи называют корреляционными. Не всякая стохастическая зависимость является корреляционной. Если каждому значению факторного признака соответствует строго определенное значение результативного признака, то такая зависимость функциональная. Ее называют еще полной корреляцией. Неоднозначные корреляционные зависимости называют неполной корреляцией.

По механизму взаимодействия различают:

· Непосредственные связи - когда причина прямо влияет на следствие;

· Косвенные связи - когда между причиной и следствием существуют ряд промежуточных признаков (например, влияние возраста на заработок).

По направлениям различают:

· Прямые связи - когда значение факторного и результативного признаков изменяются в одном направлении;

· Обратные связи - когда значения факторного и результативного признаков изменяются в разных направлениях.

· Прямолинейные (линейные) связи - выражены прямой линией;

· Криволинейные связи - выражены параболой, гиперболой.

По числу взаимосвязанных признаков различают:

· Парные связи - когда анализируется взаимосвязь двух признаков (факторного и результативного);

· Множественные связи - характеризуют влияние нескольких признаков на один результативный.

По силе взаимодействия различают:

· Слабые (заметные) связи;

· Сильные (тесные) связи.

Задача статистики определить наличие, направление, форму и тесноту взаимосвязи.

Для изучения зависимости применяются различные статистические методы. Поскольку зависимости в статистике проявляются через вариацию признаков, то и методы в основном измеряют и сопоставляют вариацию факторного и результативного признаков.

Если изобразить результаты группировки на графике, получим эмпирическую линию регрессии. Интервалы значений факторного признака заменяются средними групповыми показателями.

Помимо эмпирической линии регрессии, непосредственно определяющей форму и направление взаимосвязей, существует корреляционное поле, на котором отражаются параметрические данные.

По корреляционному полю так же можно судить о характере взаимосвязи. Если точки сконцентрированы около диагонали идущей слева направо, снизу вверх - то связь прямая. Если около другой диагонали - обратная. Если точки рассеяны по всему полю графика - связь отсутствует.

При построении аналитической группировки важно правильно определить величину интервала. Если в результате первичной группировки связь не проявляется отчетливо, можно укрупнить интервал. Однако, укрупняя интервалы, можно иногда обнаружить связь даже там, где ее нет. Поэтому при построении аналитической группировки руководствуются правилом: чем больше групп мы можем выделить, не натолкнувшись ни на одно исключение, тем надежнее наша гипотеза о наличии и форме связи.

Нематематические методы дают приближенную оценку о наличии, формы и направлении связи. Более глубокий анализ осуществляется с помощью математических методов, которые развились на базе методов, применяемых статистиками - нематематиками:

· Регрессионный анализ, позволяющий выразить с помощью уравнения форму взаимосвязи.

· Корреляционный анализ используется для определения тесноты или силы взаимосвязи признаков. Корреляционные методы делят:

- Параметрические методы, которые дают оценку тесноты связи непосредственно на базе значений факторного и результативного признаков;

- Непараметрические методы - дают оценку на основе условных оценок признаков.

Оценка тесноты криволинейных зависимостей дается после расчета параметра уравнения регрессии. Поэтому такой метод называется корреляционно-регрессивным.

Если анализируется зависимость одного факторного и результативного признаков, то в этом случае имеем дело с парной корреляцией и регрессией. Если анализируются несколько факторных и результативных признаков - это множественная корреляция и регрессия.

Регрессия - это линия, характеризующая наиболее общую тенденцию во взаимосвязи факторного и результативного признаков.

Предполагается, что аналитическое уравнение выражает подлинную форму зависимости, а все отклонения от этой функции обусловлены действием различных случайных причин. Так как изучаются корреляционные связи, изменению факторного признака соответствует изменение среднего уровня результативного признака. При построении аналитических группировок мы рассматривали эмпирическую линию регрессии. Однако, эта линия не пригодна для экономического моделирования и ее форма зависит от произвола исследователя. Теоретически линия регрессии в меньшей степени зависит от субъективизма исследователя, однако, здесь так же может быть произвол при выборе формы или функции взаимосвязи. Считается, что выбор функции должен опираться на глубокое знание специфики предмета исследования.

На практике чаще всего применяются следующие формы регрессионных моделей:

· Линейная;

· Полулогарифметическая кривая;

· Гипербола;

· Парабола второго порядка;

· Показательная функция;

· Степенная функция.


Данное свойство средней, гласящее, что сумма квадратов отклонений всех вариантов ряда от средней арифметической меньше суммы квадратов их отклонений от любого другого числа, положено в основу метода наименьших квадратов, позволяющего рассчитать параметры избранного уравнения регрессии таким образом, чтобы линия регрессии была в среднем наименее удалена от эмпирических данных.

Непараметрические методы измерения тесноты взаимосвязи количественных признаков были первыми из методов измерения тесноты взаимосвязи. Впервые попытался измерить тесноту связи в 30-ч годах 19 века французский ученый Гиррий. Он сопоставлял между собой среднегрупповые значения факторного и результативного признаков. При этом абсолютные значения заменялись их отношениями к некоторым константам. Полученные результаты ранжировались в порядке возрастания. О наличии или отсутствии связи Гиррий судил сопоставляя ранее по группам и подсчитывая количество совпадений и несовпадений рангов. Если преобладало число совпадений - связь считалась прямой. Несовпадение - обратной. При равенстве совпадений и несовпадений - связь отсутствовала.

Методика Гиррий была использована Фехнером при разработке своего коэффициента, а так же Спирменом при разработке коэффициента корреляции рангов.

Коэффициент указывает на наличие весьма тесной обратной связи.

На ряду с коэффициентом Фехнера для измерения взаимосвязи количественных признаков применяются коэффициенты корреляции рангов. Наиболее распространенным среди них является коэффициент корреляции рангов Спирмена.

Непараметрические методы применяются для измерения тесноты связи качественных и альтернативных признаков, а так же количественных признаков, распределение которых отличается от нормального распределения.

Для измерения связи альтернативных признаков применяются коэффициент ассоциации Дэвида Юла и коэффициент контингенции Карла Пирсона. Для расчета этих показателей применяется следующая матрица взаимного распределения частот:

a, b, c, d - частоты взаимного распределения признаков.

При прямой связи частоты сконцентрированы по диагонали a-d, при обратной связи по диагонали b-c, при отсутствии связи частоты практически равномерно распределены по всему полю таблицы.

Коэффициент ассоциации

Коэффициент ассоциации непригоден для расчета в том случае, если одна из частот по диагонали равна 0. В этом случае применяется коэффициент контингенции, который рассчитывается по формуле:

Коэффициент контингенции также указывает на практическое отсутствие связи между признаками (его величина всегда меньше К ас).

Для измерения тесноты линейной взаимосвязи применяется коэффициент корреляции. Базовая форма коэффициента корреляции следующая:


Фактически, коэффициент корреляции - это среднее произведения нормативных отклонений:

Если связь между признаками отсутствует, то результативный признак не варьирует при изменении факторного признака, следовательно. Такой же результат получается при сбалансированности сумм отрицательных и положительных произведений.

Обычно для расчета коэффициента корреляции применяются формулы, использующие те показатели, которые уже рассчитывались при определении параметров уравнения регрессии.

Множественная корреляция и регрессия применяется для изучения влияния двух и более факторов на результативный признак. Процесс исследования включает несколько этапов.

Сначала проводится выбор формы уравнения взаимосвязи, чаще всего выбирается n-мерная линейная формула:

Поскольку расчеты важны и трудоемки, важнейшее значение имеет отбор факторов для включения в регрессионную модель. На основе качественного анализа необходимо отбирать наиболее существенные факторы. На этапе отбора факторов, рассчитывается так же единичная матрица парных коэффициентов корреляции между признаками факторов, отобранных для включения в уравнение регрессии.

1. Виды и формы связей между явлениями.

2. Методы изучения взаимосвязей.

3. Корреляционно-регрессионное моделирование.

4. Оценка КРМ на адекватность.

1. Все явления объективного мира, в том числе и общественные, находятся в постоянной взаимосвязи и взаимодействии между собой, в непрерывном изменении и развитии. Важнейшей задачей статистики, наряду с оценкой состояния массовых явлений и выявлением закономерностей их развития, является изучение связей между ними.

Связи массовых общественных явлений устанавливают на основе теоретического анализа их сущности, изучения закономерностей и движущих сил развития, оценки условий их функционирования. При этом используются категории, понятия и накопленные ранее знания других наук. Задача статистики состоит в том, чтобы выявить само наличие связи в конкретных условиях, а также получить показатели, характеризующие ее силу, степень и характер.

Теоретический и практический интерес представляют в первую очередь причинно-следственные связи, когда одни явления (факторы) выступают причиной изменения других (результаты). Их анализ позволяет, во-первых, объяснить фактическое положение дел, а во-вторых, воздействуя на факторы, добиться изменения результатов в желаемом направлении.

Виды связей:

I. По характеру:

1) функциональные. Связь между явлениями называется функциональной , если изменению факторного показателя x на единицу соответствует строго определенное изменение результативного признака y. Такие связи выражают формулами, действительными во всех случаях. Примером может служить изменение заработной платы (при той же самой часовой ставке) в зависимости от числа отработанных часов, изменение затрат на топливо в зависимости от его расхода в натуральном выражении (при неизменных ценах) и т.д.

2) статистические (корреляционные). Статистическими (корреляционными) называют связи, при которых строго определенному изменению факторного признака x соответствует целый ряд (статистическое распределение) изменений результата y, не вполне определенных, подверженных случайным колебаниям. Эти связи проявляются лишь в среднем, в массовых явлениях; кроме изучаемого фактора на результат воздействуют и другие причины, в том числе носящие случайный характер. Например, при увеличении доз вносимых удобрений урожайность культур в среднем повышается, но не всегда и не на одну и ту же величину.

II. По форме выражения:

1) прямые - с возрастанием факторного признака увеличивается результативный (например, при увеличении стажа работника, как правило, производительность его труда повышается);

2) обратные - изменения идут в противоположном направлении (так, при повышении продуктивности животных и урожайности культур затраты на единицу продукции в среднем сокращаются).



III. По аналитическому выражению:

1) прямолинейные - с возрастанием одного признака при любом его исходном значении другой изменяется в среднем на одну и ту же величину;

2) криволинейные - эти изменения сами изменяются (увеличиваются, уменьшаются или даже меняют свой знак).

IV. В зависимости от количества факторных признаков, включенных в модель:

1) парные (однофакторные);

2) множественные (многофакторные).

2. Для изучения функциональных связей используют методы:

Балансовые связи. Он основан на простой функциональной зависимости между наличием какого-то ресурса на начало и конец периода, его поступлением и расходованием в течение этого периода. Если известны любые три из указанных показателей, четвертый определяется автоматически. Наличие на конец года = Наличие на начало года + Поступило – Выбыло.

Например, годовое потребление в хозяйстве продукции собственного производства можно рассчитать так:

Потребление = Наличие на начало года + Производство – Наличие на конец года.

Индексного анализа.

Для изучения корреляционных связей используют методы:

Сопоставление параллельных рядов;

Самый простой и наиболее распространенный прием – сопоставление параллельных рядов. Его сущность состоит в одновременном рассмотрении изучаемых признаков по единицам совокупности или по периодам (моментам) динамического ряда. Сопоставление производится чисто визуально, без специальных расчетов (табл 9.3).

В данном случае хорошо видно, что в динамике дозы внесения органических и минеральных удобрений вплоть до 1990 г. увеличиваются, а затем снижаются. Сходная тенденция наблюдается и по урожайности зерновых: рост до 1990 г. с последующим снижением. Напротив, по урожайности картофеля никакого параллелизма с показателями внесения удобрений не прослеживается.

Сопоставление параллельных рядов (его особенно удобно вести с помощью линейных графиков) позволяет установить наличие связи, ее направление и очень приблизительно – ее силу. Так, изменения доз органических и минеральных удобрений связаны очень тесно, их связь с урожайностью зерновых культур, хотя и слабая, также имеется, она носит прямой и линейный характер, а вот связь с урожайностью картофеля практически не прослеживается.

Главный недостаток данного приема – отсутствие каких-либо показателей связи. Сопоставление не решает также вопрос о причинно-следственных связях изучаемых явлений. Из теории, например, известно, что внесение удобрений приводит к росту урожайности. Но картофель возделывается в основном в хозяйствах населения, и его доля в структуре посевов невелика. Поэтому показатель внесения удобрений в среднем на 1 га всей посевной площади, и к тому же во всех категориях хозяйств, является слишком общим, чтобы могла обнаружиться какая-то связь с урожайностью картофеля.

Графический метод (метод корреляционного поля);

Состоит в нанесении точек графика на координатную плоскость, а также определении поля корреляции и направления связи между признаками.

Пример: Имеются данные:

Обратная зависимость.

Метод построения групповых корреляционных таблиц;

Имеются данные:

Границы групп для х:

Границы групп для у:

1 гр.: 18-21,2;

2 гр.: 21,2-24,4;

3 гр.: 24,4-27,6;

4 гр.: 27,6-30,8;

5 гр.: 30,8-34.

Таблица – Групповая корреляционная таблица

х 18-21,2 21,2-24,4 24,4-27,6 27,6-30,8 30,8-34
1-4 - - - -
4-7 - - -
7-10 - - -
10-13 - - - -
13-16 - - -
-

Вывод: связь прямая однонаправленная (т.к. частоты расположены по диагонали).

Метод аналитических группировок;

Метод дисперсионного анализа;

Метод КРА;

Метод непараметрической оценки связей.

3. Метод корреляционно-регрессионного моделирования состоит из двух этапов:

I. Регрессия – поиск уравнения связи, которое наиболее полно характеризует зависимость между признаками, и определение параметров этого уравнения.

Условное начало, содержательной интерпретации не подлежит;

Коэффициенты регрессии, показывающие, на сколько единиц изменится результативный признак при изменении факторного признака на единицу при улови, что все прочие факторные признаки останутся неизменными.

II. Корреляция – определение показателей тесноты связи.

Чаще всего корреляцию характеризуют двумя показателями:

Коэффициент корреляции (характеризует степень тесноты связи между результативным и всеми факторными признаками; измеряется в интервале от 0 до 1 по модулю; чем ближе к 1, тем более тесная связь между признаками);

Коэффициент детерминации (показывает, на сколько процентов включенные в модель факторы объясняют вариацию результативного признака: измеряется в интервале от 0 до 100%).

корреляции

2. Коэф. парной детерминации

2. Эмперический коэф. детерми-

2. Коэф. множ. детерминации

коэффициент чистой регресс при i- том факторном признаке;

Ср. кВ. отклонения по i-тому факторному признаку.

Чтобы сделать коэффициенты регрессии сопоставимыми и определить влияние каждого в отдельности фактора на результативный признак, рассчитывают стандартизированные коэффициенты:

1) Коэффициенты эластичности:

Коэффициенты эластичности показывают, на сколько процентов изменится результативный признак, при увеличении факторного признака на 1%.

показывают, на сколько средний квадратических отклонений изменится результативный признак при увеличении факторного на свое среднее квадратическое отклонение.

3) Коэффициенты отдельного определения:

Коэффициенты отдельного определения определения показывают вклад каждого фактора в вариацию результативного признака.

4. Адекватность КРМ – это оценка построенной модели в действительности.

Оценка построенной модели на адекватность проводится с использованием F критерия Фишера:

n – объем совокупности;

k – число факторных признаков в уравнении;

Дисперсия выровненных значений результативного признака по уравнению регрессии.

Дисперсия отклонений фактических значений результативного признака от выровненных по уравнению регрессии.

По таблице значений F- критерия Фишера определяется табличное его значение при уровне значимости 0,01; 0,05; или 0,1 и числе степеней свободы n-k-1. Если - модель адекватна.

Значимость коэффициентов регрессии определяется с помощью критерия Стьюдента.

Исследуя природу, общество, экономику, необходимо считаться со взаимосвязью наблюдаемых процессов и явлений. При этом полнота описания так или иначе определяется количественными характеристиками причинно-следственных связей между ними. Оценка наиболее существенных из них, а также воздействия одних факторов на другие является одной из основных задач статистики.

Формы проявления взаимосвязей весьма разнообразны. В качестве двух самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связи. В первом случае величине факторного признака строго соответствует одно или несколько значений функции. Достаточно часто функциональная связь проявляется в физике, химии. В экономике примером может служить прямо пропорциональная зависимость между производительностью труда и увеличением производства продукции.

Корреляционная связь (которую также называют неполной, или статистической) проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной. Объяснение тому -- сложность взаимосвязей между анализируемыми факторами, на взаимодействие которых влияют

неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. При корреляционной связи каждому значению аргумента соответствуют случайно распределенные в некотором интервале значения функции.

По направлению связи бывают прямыми, когда зависимая переменная растет с увеличением факторного признака, и обратными, при которых рост последнего сопровождается уменьшением функции. Такие связи также можно назвать соответственно положительными и отрицательными.

Относительно своей аналитической формы связи бывают линейными и нелинейными. В первом случае между признаками в среднем проявляются линейные соотношения. Нелинейная взаимосвязь выражается нелинейной функцией, а переменные связаны между собой в среднем нелинейно.

Существует еще одна достаточно важная характеристика связей с точки зрения взаимодействующих факторов . Если характеризуется связь двух признаков, то ее принято называть парной. Если изучаются более чем две переменные - множественной.

Указанные выше классификационные признаки наиболее часто встречаются в статистическом анализе. Но кроме перечисленных различают также непосредственные, косвенные и ложные связи. Собственно, суть каждой из них очевидна из названия. В первом случае факторы взаимодействуют между собой непосредственно. Для косвенной связи характерно участие какой-то третьей переменной, которая опосредует связь между изучаемыми признаками. Ложная связь -- это связь, установленная формально и, как правило, подтвержденная только количественными оценками. Она не имеет под собой качественной основы или же бессмысленна.

По силе различаются слабые и сильные связи. Эта формальная характеристика выражается конкретными величинами и интерпретируется в соответствии с общепринятыми критериями силы связи для конкретных показателей.

В наиболее общем виде задача статистики в области изучения взаимосвязей состоит в количественной оценке их наличия и направления, а также характеристике силы и формы влияния одних факторов на другие. Для ее решения применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая -- регрессионный анализ. В то же время ряд исследователей объединяет эти методы в корреляционно-регрессионный анализ, что имеет под собой некоторые основания: наличие целого ряда общих вычислительные процедур, взаимодополнения при интерпретации результатов и др.

Поэтому в данном контексте можно говорить о корреляционном анализе в широком смысле -- когда всесторонне характеризуется взаимосвязь. В то же время выделяют корреляционный анализ в узком смысле -- когда исследуется сила связи -- и регрессионный анализ, в ходе которого оцениваются ее форма и воздействие одних факторов на другие.

Задачи собственно корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов, оказывающих наибольшее влияние на результативный признак:

Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значений зависимой переменной.

Решение названных задач опирается на соответствующие приемы, алгоритмы, показатели, применение которых, дает основание говорить о статистическом изучении взаимосвязей.

Следует заметить, что традиционные методы корреляции и регрессии широко представлены в разного рода статистических пакетах программ для ЭВМ. Исследователю остается только правильно подготовить информацию, выбрать удовлетворяющий требованиям анализа пакет программ и быть готовым к интерпретации полученных результатов. Алгоритмов вычисления параметров связи существует множество, и в настоящее время вряд ли целесообразно проводить такой сложный вид анализа вручную. Вычислительные процедуры представляют самостоятельный интерес, но знание принципов изучения взаимосвязей, возможностей и ограничений тех или иных методов интерпретации результатов является обязательным условием исследования.

Методы оценки тесноты связи подразделяются на корреляционные (параметрические) и непараметрические. Параметрические методы основаны на использовании, как правило, оценок нормального распределения и применяются в случаях, когда изучаемая совокупность состоит из величин, которые подчиняются закону нормального распределения. На практике это положение чаще всего принимается априори. Собственно, эти методы--параметрические--и принято называть корреляционными.

Непараметрические методы не накладывают ограничений на закон распределения изучаемых величин. Их преимуществом является и простота вычислений.

Учебные цели:

  • 1) изучить основные виды статистических взаимосвязей общественных явлений и основные методы их изучения;
  • 2) показать использование корреляционно-регрессионного анализа для прогнозирования.

ИЗУЧЕНИЕ ПРИЧИННО-СЛЕДСТВЕННЫХ ОТНОШЕНИЙ В СТАТИСТИКЕ

Познание социально-экономических явлений предполагает всесторонний анализ существующих между ними взаимосвязей. Изучение взаимосвязей - одна из важнейших познавательных задач теории статистики. В основе исследования связей лежит общефилософское понятие о всеобщей связи явлений, которая познается путем изучения причинно-следственных отношений.

Причинно-следственными отношениями называют такие связи между явлениями и процессами, когда изменение одной из них (причины) ведет к изменению другого (следствия).

Статистика не занимается выяснением этих причин, этим занимаются специальные экономические дисциплины. Статистика выявляет наличие и направление связи, количественно оценивает воздействие каждой причины на вариацию конкретного признака, выражает связь аналитически, что позволяет учитывать указанное воздействие при принятии управленческих решений различного уровня.

Статистическое изучение общественных явлений позволяет количественно выражать сложные взаимосвязи, основываясь на результатах качественного анализа, который не только предшествует статистическому исследованию, но также является критерием оценки результатов.

Теоретический (качественный) анализ позволяет установить экономическую сущность явлений и процессов, вскрыть их существенные свойства, а также сходства и различия между собой. Это является важнейшим этапом изучения связей между явлениями и процессами.

В процессе исследования зависимостей вскрываются причинно- следственные отношения, что позволяет выявить факторы (причины), оказывающие существенное влияние на вариацию изучаемых явлений и процессов. Причина - это совокупность условий, обстоятельств, действие которых приводит к появлению следствия.

Таким образом, на основе проведения качественного анализа появляется возможность разделить признаки на два класса:

  • 1) факторные признаки (факторы), которые обусловливают изменение других признаков;
  • 2) результативные признаки, которые изменяются под действием факторных признаков.

Следует иметь в виду, что в разных случаях один и тот же показатель, например производительность труда, может выступать то как факторный, то как результативный признак. Например, производительность труда, с одной стороны, зависит от уровня автоматизации производства, стажа и квалификации работников. Здесь производительность труда является результативным признаком. С другой стороны, от уровня производительности труда зависит прибыль предприятия. В этом случае производительность труда является факторным признаком.

Виды связей. Связи между явлениями классифицируют по различным направлениям: характеру, степени тесноты, направлению, аналитическому выражению и т.д.

По характеру зависимости различают функциональную и стохастическую связь. Связь между признаками называют функциональной (детерминированной), если каждому значению одного из них соответствует одно (или несколько, в случае множественных связей) вполне определенное значение другого. Такая зависимость является строгой, точной, полной.

Схематично функциональную связь можно представить следующим образом: X => У.

В общем виде функциональную связь можно записать: y t = /(г,).

Такой вид связи достаточно часто проявляется в математике, физике, химии. В экономике примером функциональной связи может служить прямо пропорциональная зависимость между признаками. Например, производительность труда рабочего и затраченное им время на производство единицы продукции находятся в функциональной связи, в строго обратном отношении.

Характерной особенностью функциональных связей является то, что для таких связей всегда известен:

  • - механизм влияния, выраженный определенным уравнением (функцией).

Для социально-экономических явлений характерно то, что наряду с существенными факторами, определяющими в основном величину результативного признака, на него оказывают воздействие многие другие, в том числе и случайные факторы. Поэтому существующая зависимость не проявляется здесь в каждом отдельном случае, как при функциональных связях, а лишь в общем при большом числе наблюдений. Такая зависимость называется стохастической.

Зарождение стохастической теории статистики в России относят к 1880 г. Термин «стохастическая теория статистики» (от греч. stochastikos - предполагать) принадлежит Я. Бернулли. В научный оборот этот термин был введен В.И. Борткевичем, который указывал на то, что в реальной жизни мы практически всегда сталкиваемся с событиями, каждое из которых является следствием нескольких причин. Большой вклад в развитие стохастической теории статистики внес А.А. Чупров.

При стохастической зависимости изменение факторного признака приводит к изменению закона распределения результативного признака (рис. 6.1):

Рис. 6.1

Примером стохастической связи является следующая зависимость: при одном и том же стаже нескольких рабочих их часовая заработная плата является различной.

Особенностью стохастических связей является то, что для них не известен:

  • - полный перечень факторов, определяющих величину результативного признака;
  • - механизм влияния, выраженный определенным уравнением, функцией.

Частным случаем стохастической связи является корреляционная, при которой изменение среднего значения результативного признака обусловлено изменением факторного признака.

Корреляционная связь является неполной, нестрогой и проявляется лишь при достаточно большом числе случаев. Схематично ее можно представить следующим образом: X => F.

В общем виде корреляционную связь можно записать: у { = /(х,).

Корреляционная связь не существует без стохастической и служит важнейшей характеристикой последней. Очевидно, что если существует корреляционная связь, то, следовательно, и стохастическая, так как наличие средних - достаточное условие различия распределений. В то же время при наличии стохастической связи корреляционная связь может отсутствовать, так как различные распределения могут иметь одинаковые средние и отличаться другими свойствами, например иметь равную вариацию.

Корреляционная связь отличается от стохастической по форме проявления. Соотношение между ними аналогично соотношению между средней и рядом распределения. Ряд распределения дает наиболее полную характеристику совокупности. Средняя же не существует без ряда распределения и в то же время служит его важнейшей характеристикой.

Стохастическая связь дает наиболее полную характеристику взаимосвязи признаков.

По степени тесноты связи делятся на слабые, умеренные и сильные (тесные). Количественные критерии оценки тесноты связи дает статистика.

По направлению различают связи прямые и обратные. При прямой связи с увеличением (уменьшением) значений факторного признака происходит увеличение (уменьшение) значений результативного. Например, рост производительности труда приводит к увеличению прибыли. При обратной связи с ростом (снижением) факторного признака значения результативного уменьшаются (увеличиваются). Например, рост производительности труда приводит к снижению себестоимости.

По аналитическому выражению выделяют связи прямолинейные (линейные) и криволинейные (нелинейные). Линейной является статистическая связь, которая приближенно выражена уравнением прямой. Если связь выражается уравнением какой-либо кривой линии (параболы, гиперболы показательной и т.д.), то она является нелинейной.

В зависимости от количества факторов, влияющих на результат, различают парную и многофакторную (множественную) связь. Парная корреляция - частный случай отражения связи некоторой зависимой переменной, с одной стороны, и одной из множества независимых переменных - с другой. Следовательно, парная связь - это связь двух признаков. Когда же требуется охарактеризовать связь всего множества независимых переменных с результативным признаком, то применяют множественную корреляцию. Следовательно, если несколько факторов влияет на результативный признак, то связь будет многофакторной.

Существуют также связи непосредственные, косвенные и ложные. В первом случае факторы взаимодействуют между собой непосредственно. Для косвенной связи характерно участие какой-то третьей переменной, которая опосредует связь между изучаемыми признаками.

Источники ложной корреляции выявил К. Пирсон. Ложная связь - это связь, установленная между признаками, не имеющими причинной связи друг с другом, являющейся следствием воздействия общей причины. Это связь, выявленная формально и, как правило, под- твержденная только количественными оценками. Она не имеет под собой качественной основы или же бессмысленна. Проявление ложной корреляции, которое привело к бессмысленным результатам, обнаружил английский статистик Эдни Дж. Юл при изменении корреляции между рядами динамики.

Основными задачами статистики по изучению взаимосвязей общественных явлений являются:

  • 1) на основе теоретического анализа установление наличия и направления взаимосвязей;
  • 2) количественное измерение тесноты связи факторного (или факторных) и результативного признаков;
  • 3) выражение выявленной связи в виде определенного уравнения.

Основные методы изучения связей. К основным методам изучения функциональных связей относятся: графический, индексный, балансовый, аналитических группировок и др.

К методам изучения корреляционных связей относятся: графический, аналитических группировок, параллельных рядов и др., а также дисперсионный, корреляционный и регрессионный анализ и др.

Метод параллельных рядов основан на сопоставлении двух или нескольких рядов статистических величин. Простое сопоставление значений показателей дает возможность установить наличие связи и получить представление о ее характере.

Метод аналитических группировок позволяет установить наличие или отсутствие влияния двух или более факторов на изменение результативного признака, а также направление связи. С помощью данного метода можно охарактеризовать общие черты связи.

Основной принцип исследования взаимосвязей с помощью метода группировок заключается в том, что обычно в качестве группировоч- ного признака выбирают факторный. В сказуемом таблицы размещают абсолютные, относительные или средние значения результативного показателя. Далее изучается, как изменение факторного признака приводит к изменению результативного. Например, с помощью группировки можно установить, что с ростом производительности труда снижается себестоимость продукции, но количественно оценить эту связь нельзя.

Простейшим приемом выявления связи между двумя признаками является построение корреляционной таблицы (табл. 6.1).

Таблица 6.1

Построение корреляционной таблицы

В основу группировки положены два изучаемых во взаимосвязи признака - X и Y. Частоты /, показывают количество соответствующих сочетаний Хи Y. Если /расположены в таблице беспорядочно, то можно говорить об отсутствии связи между переменными.

В случае образования какого-либо характерного сочетания / допустимо утверждать о связи между X и Y. При этом если/; концентрируется около одной из двух диагоналей, то имеет место прямая или обратная линейная связь. В итогах корреляционной таблицы по строкам и столбцам приводятся два распределения - одно по X, другое по Y. Метод группировки позволяет не только определить тесноту связи, но и измерить ее тесноту на основе использования показателей вариации.

Графический метод позволяет изобразить взаимосвязь между признаками с помощью корреляционного поля («поля рассеяния»), которое является наглядным изображением корреляционной таблицы. В системе координат на оси абсцисс откладываются значения факторного признака, а на оси ординат - результативного (рис. 6.2-6.7).

По расположению точек, их концентрации в определенном направлении можно судить о наличии связи.

Из всех перечисленных методов корреляционно-регрессионный анализ является наиболее совершенным, так как он позволяет не только выявить, но и выразить имеющуюся связь в виде определенного математического уравнения, которое характеризует механизм взаимодействия между факторами и результативными признаками.

Рис. 6.3.

Рис. 6.4.

Рис. 6.5.

Рис. 6.7. График корреляционного поля Зависимость между Хи У отсутствует

Обязательными условиями применения корреляционного и регрессионного анализа являются следующие:

  • 1) случайный отбор обследуемых единиц;
  • 2) однородность совокупности по изучаемому признаку;
  • 3) достаточно большое число обследуемых единиц;
  • 4) все факторные признаки должны иметь количественное выражение.