Графический метод статистическое изучение взаимосвязей. Статистическое исследование взаимосвязей

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Подобные документы

    Предмет и метод статистики. Сущность и основные аспекты статистического наблюдения. Ряды распределения. Статистические таблицы. Абсолютные величины. Показатели вариации. Понятие о статистических рядах динамики. Сопоставимость в рядах динамики.

    шпаргалка , добавлен 26.01.2009

    Рассмотрение процесса ревизии в бухгалтерии предприятия налоговыми органами с точки зрения статистического наблюдения. Выбор из исходных данных абсолютной статистической величины. Представление статистических данных. Средние величины. Показатели вариации.

    контрольная работа , добавлен 28.05.2015

    Абсолютные и относительные статистические показатели, методы прогнозирования. Закон распределения вероятностей дискретной случайной величины. Оценки параметров генеральной совокупности. Статистическое исследование социально-экономического потенциала.

    шпаргалка , добавлен 16.05.2012

    Средние величины и показатели вариации. Агрегатные индексы физического объёма товарной массы. Группировка статистических данных. Индивидуальные и сводный индексы себестоимости единицы продукции. Показатели ряда динамики. Расчёт стоимости основных средств.

    контрольная работа , добавлен 04.06.2015

    Абсолютные и относительные статистические величины. Понятие и принципы применения средних величин и показателей вариации. Правила применения средней арифметической и гармонической взвешенных. Коэффициенты вариации. Определение дисперсии методом моментов.

    учебное пособие , добавлен 23.11.2010

    Предмет и метод статистики. Группировка и ряд распределения. Абсолютные, относительные, средние величины, показатели вариации. Выборочное наблюдение, ряды динамики. Основы корреляционного и регрессионного анализа. Статистика населения и рынка труда.

    методичка , добавлен 16.02.2011

    Сводка и группировка материалов статистического наблюдения. Абсолютные, относительные и средние величины, показатели вариации. Ряды динамики, индексный анализ. Проведение корреляционно-регрессионного анализа таблиц о сборе урожая и внесении удобрений.

    курсовая работа , добавлен 14.05.2013

    Общая характеристика органов пенсионного обеспечения, организация работы органов Пенсионного фонда Российской Федерации. Статистические показатели и их расчет: средние величины, показатели вариации, ряды динамики, индексы, трендовый анализ, группировка.

    курсовая работа , добавлен 15.06.2010

Основные понятия корреляционного и регрессионного анализа

Исследуя природу, общество, экономику, необходимо считаться со взаимосвязью наблюдаемых процессов и явлений. При этом полнота описания так или иначе определяется количественными характеристиками причинно-следственных связей между ними. Оценка наиболее существенных из них, а также воздействия одних факторов на другие является одной из основных задач статистики.

Формы проявления взаимосвязей весьма разнообразны. В качестве двух самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связи. В первом случае величине факторного признака строго соответствует одно или несколько значений функции. Достаточно часто функциональная связь проявляется в физике, химии. В экономике примером может служить прямо пропорциональная зависимость между производительностью труда и увеличением производства продукции.

Корреляционная связь (которую также называют неполной, или статистической) проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной. Объяснение тому – сложность взаимосвязей между анализируемыми факторами, на взаимодействие которых влияют неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. При корреляционной связи каждому значению аргумента соответствуют случайно распределенные в некотором интервале значения функции.

Например, некоторое увеличение аргумента повлечет за собой лишь среднее увеличение или уменьшение (в зависимости от направленности) функции, тогда как конкретные значения у отдельных единиц наблюдения будут отличаться от среднего. Такие зависимости встречаются повсеместно. Например, в сельском хозяйстве это может быть связь между урожайностью и количеством внесенных удобрений. Очевидно, что последние участвуют в формировании урожая. Но для каждого конкретного поля, участка одно и то же количество внесенных удобрений вызовет разный прирост урожайности, так как во взаимодействии находится еще целый ряд факторов (погода, состояние почвы и др.), которые и формируют конечный результат. Однако в среднем такая связь наблюдается – увеличение массы внесенных удобрений ведет к росту урожайности.



По направлению связи бывают прямыми, когда зависимая переменная растет с увеличением факторного признака, и обратными, при которых рост последнего сопровождается уменьшением функции. Такие связи также можно назвать соответственно положительными и отрицательными.

Относительно своей аналитической формы связи бывают линейными и нелинейными. В первом случае между признаками в среднем проявляются линейные соотношения. Нелинейная взаимосвязь выражается нелинейной функцией, а переменные связаны между собой в среднем нелинейно.

Существует еще одна достаточно важная характеристика связей с точки зрения взаимодействующих факторов. Если характеризуется связь двух признаков, то ее принято называть парной . Если изучаются более чем две переменные – множественной .

Указанные выше классификационные признаки наиболее часто встречаются в статистическом анализе. Но кроме перечисленных различают также непосредственные, косвенные и ложные связи. Собственно, суть каждой из них очевидна из названия. В первом случае факторы взаимодействуют между собой непосредственно. Для косвенной связи характерно участие какой-то третьей переменной, которая опосредует связь между изучаемыми признаками. Ложная связь – это связь, установленная формально и, как правило, подтвержденная только количественными оценками. Она не имеет под собой качественной основы или же бессмысленна.

По силе различаются слабые и сильные связи. Эта формальная характеристика выражается конкретными величинами и интерпретируется в соответствии с общепринятыми критериями силы связи для конкретных показателей.

В наиболее общем виде задача статистики в области изучения взаимосвязей состоит в количественной оценке их наличия и направления, а также характеристике силы и формы влияния одних факторов на другие. Для ее решения применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая – регрессионный анализ. В то же время ряд исследователей объединяет эти методы в корреляционно-регрессионный анализ, что имеет под собой некоторые основания: наличие целого ряда общих вычислительных процедур, взаимодополнения при интерпретации результатов и др.

Поэтому в данном контексте можно говорить о корреляционном анализе в широком смысле – когда всесторонне характеризуется взаимосвязь. В то же время выделяют корреляционный анализ в узком смысле – когда исследуется сила связи – и регрессионный анализ, в ходе которого оцениваются ее форма и воздействие одних факторов на другие.

Задачи собственнокорреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов оказывающих наибольшее влияние на результативный признак.

Задачирегрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значении зависимой переменной.

Решение названных задач опирается на соответствующие приемы, алгоритмы, показатели, применение которых дает основание говорить о статистическом изучении взаимосвязей.

Следует заметить, что традиционные методы корреляции и регрессии широко представлены в разного рода статистических пакетах программ для ЭВМ. Исследователю остается только правильно подготовить информацию, выбрать удовлетворяющий требованиям анализа пакет программ и быть готовым к интерпретации полученных результатов. Алгоритмов вычисления параметров связи существует множество, и в настоящее время вряд ли целесообразно проводить такой сложный вид анализа вручную. Вычислительные процедуры представляют самостоятельный интерес, но знание принципов изучения взаимосвязей, возможностей и ограничений тех или иных методов интерпретации результатов является обязательным условием исследования.

Методы оценки тесноты связи подразделяются на корреляционные (параметрические) и непараметрические. Параметрические методы основаны на использовании, как правило, оценок нормального распределения и применяются в случаях, когда изучаемая совокупность состоит из величин, которые подчиняются закону нормального распределения. На практике это положение чаще всего принимается априори. Собственно, эти методы – параметрические – и принято называть корреляционными.

Непараметрические методы не накладывают ограничений на закон распределения изучаемых величин. Их преимуществом является и простота вычислений.

Глава 8. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ

8.1. Виды общественных явлений и формы

связей между ними

Статистическое изучение взаимосвязей исходит из предположения о всеобщей связи и взаимодействия явлений общественной жизни. Взаимосвязь и взаимообусловленность наблюдается при рассмотрении показателей работы любого предприятия. Например, повышение производительности труда влечёт за собой снижение себестоимости единицы продукции. Те общественные явления (или их отдельные признаки), которые оказывают влияние на другие и обуславливают их изменения, называют факторными. Те общественные явления (или их отдельные признаки), которые изменяются под влияние факторных, называются результативными (производительность труда – факторный, а себестоимость продукции – результативный показатель).

По характеру зависимости явлений различают функциональную (полную) и корреляционную (неполную) связи между ними. Функциональной называется связь, для которой каждому значению факторного показателя соответствует вполне определённое значение результативного показателя. Функциональные зависимости находят широкое применение в точных науках. Что же касается общественных явлений, то они складываются под влиянием множества факторов, которые, в свою очередь, взаимодействуют друг с другом. Причём, точно известно, в какой мере каждый из них влияет на величину явления. Такого рода связи называются корреляционными. В корреляционных связях между причиной и следствием нет полного соответствия, а наблюдается лишь известное соотношение. Каждому значению факторного показателя соответствует при этом ряд значений результативного признака. Однако, и это очень важно, с изменением значений факторного признака меняется средняя величина результативного признака.

Связи между явлениями можно классифицировать и по другим признакам:

  • По направлению (прямые, обратные).
  • По аналитическому выражению (линейные, нелинейные).
  • По тесноте связи или степени приближения её к функциональной (сильные, слабые).

Связь двух признаков называется парной корреляцией, влияние нескольких факторных признаков на результативный признак – множественной корреляцией.

8.2. Методы изучения взаимосвязей между явлениями и характеризующими их признаками

Изучение взаимосвязей – важнейшая познавательная задача статистики, которую она решает с помощью особых методов. Помимо аналитических группировок к этим методам относятся: метод сопоставления параллельных рядов, балансовый метод и методы, основанные на положениях и теоремах математической статистики (корреляционный, факторный, дисперсионный).

Сущность метода сопоставления параллельных рядов состоит в том, что полученные в результате сводки и обработки материала располагаются параллельными рядами либо по признаку пространства, либо по признаку времени. Совместное изучение такого рода рядов даёт возможность проследить соотношение и направление изменений сопоставляемых признаков изучаемого явления. Важным условием получения достоверных результатов использования этого метода является предварительное обнаружение причинно-следственной связи между изучаемыми признаками.

Сущность балансового метода заключается в характеристике ресурсов изучаемого явления и их распространения. Простейшим балансом является баланс материальных ресурсов на предприятии, а именно: остаток на начало анализируемого периода + поступление = расход + остаток на конец анализируемого периода. Ясно, что поскольку поступление и расход материальных ресурсов должны находиться в определённом соответствии (например, в равенстве), постольку между правой и левой частями (элементами) приведённого выше баланса должна быть выдержана определённая пропорциональность. Характеристика этой пропорциональности и должна быть найдена в результате балансовых построений. Возможности в характеристике взаимосвязей и пропорций значительно расширяются, если поступление в балансе разделить по источникам (поставщикам), а расход – по назначениям (покупателям). В этом случае баланс покажет взаимосвязь не только между поступлением, расходом и остатком в пределах предприятия, но и между данным предприятием и другими предприятиями, одни из которых снабжают его материальными ресурсами, а другие – потребляют его продукцию. С помощью балансового метода можно изучать оборот не только материальных, но и трудовых ресурсов, денежных средств, основных фондов.

В связи с указанными особенностями корреляционных зависимостей перед методами изучения взаимосвязей, основанными на положениях математической статистики, возникает две задачи:

1). обнаружить эту зависимость на фактическом материале и установить аналитическое выражение связи;

2). измерить тесноту связи.

Для решения первой задачи необходимо осуществить выбор факторных и результативных показателей, собрать соответствующий фактический материал, обработать его с помощью графических построений.

Вторая задача решается расчётом коэффициентов корреляции, параметров регрессии.

Продемонстрируем метод корреляционного анализа на примере установления тесноты связи между показателями электровооружённости труда и производительности труда, если имеется следующий фактический материал:

Теперь для решения первой задачи осталось необходимым определить какой из двух анализируемых показателей является факторным (Х), а какой – результативным (Y), а затем представить связь между ними графически. Очевидным является, что из двух анализируемых показателей электровооружённость труда является факторным, а его производительность – результативным показателем. Поэтому в системе прямоугольных координат значения первого будем откладывать по оси абсцисс, а значения второго – по оси ординат (см. рис.3).

Рис. 3 Значения факторного и результативного показателей

Как видно из рис. 3, значения результативного показателя расположены не по прямой, соединяющей крайние его значения, а в виде «облачка», вытянутого вдоль этой прямой. Существуют специальные приёмы, позволяющие находить тот вид аналитического выражения связи (прямая, гипербола, парабола и т.д.), который наилучшим образом соответствует функциональной зависимости. Простейший вид корреляционной зависимости выражается уравнением y=a+bx, где применительно к рассматриваемому нами примеру у – коэффициент роста производительности труда; х – коэффициент роста электровооружённости; а b – параметры уравнения.

Измерение тесноты связи (определение значений а, в) между двумя показателями (х, у), связанными линейной зависимостью, возможно в результате решения следующей систему уравнений:

где n – число наблюдений (в нашем случае n=7).

Для решения системы уравнений построим таблицу, в которой наряду с исходными данными поместим результаты всех необходимых промежуточных расчётов, а именно:

Тогда система уравнений с двумя неизвестными (а,в) приобретает вид:

а её решение позволяет определить конкретное их значение: а = -0,45;

в = 1,542. Следовательно, у = 1,542х – 0,45. Подставляя в это уравнение (так называемое уравнение регрессии) конкретные значения х, получаем расчётное значение функции - :

Сравнивая значения «y» и «» видим, что они близки, но не совпадают друг с другом. Это означает, что на темпы роста производительности труда влияют не только на темпы роста его энерговооружённости, но и другие факторы, которые оказались неучтёнными. Количественной характеристикой тесноты связи между исследуемой парой показателей является коэффициент корреляции между ними r, значения которого изменяются в пределах от

(– 1) до (+1) и тем больше по абсолютной величине, чем меньше искажающее влияние неучтённых факторов.

Исследование статистической зависимости результативного признака от нескольких факторных признаков предполагает, что в качестве последних будут отобраны наиболее существенные из них. Введение большого числа факторов осложняет решение задачи. Непродуманное же их сокращение приводит к тому, что уравнение не будет воспроизводить исследуемое явление. В уравнение нельзя вводить фактор, находящиеся между собой в функциональной или близкой к функциональной связи. При введении их в уравнение наблюдается явление коллинеарности (если факторов два) или мультиколлинеарности (если факторов более двух). Выявление вышеназванных явлений осуществляется с помощью расчёта коэффициентов корреляции между факторами. Если величина коэффициентов корреляции между факторами будет больше или равна 0,8, то при дальнейшем исследовании один из таких факторов отбрасывается. В такой процедуре не будет необходимости при использовании факторного анализа. Факторный анализ отличается тем, что, не опираясь на заранее заданный перечень факторов, он помогает обнаружить наиболее важные из них. Например, экономист непосредственно наблюдает множество различных показателей статистического учёта деятельности предприятия, чтобы выявить закономерности, влияющие на рост производительности труда (образовательный уровень рабочих, коэффициент сменности оборудования, электровооружённость труда, возраст оборудования и т.п.). Так или иначе, все факторы, отражаемые этими показателями, воздействуют на производительность труда. При этом многие из них связаны между собой, отражая с разных сторон те же, по существу, явления. С помощью приёмов факторного анализа этих связей удаётся обнаружить, что на самом деле решающее влияние на рост производительности труда оказывают лишь несколько обобщающих факторов (например, размер предприятия, уровень организации труда, характер продукции), непосредственно не наблюдавшихся при исследовании. Задача состоит, следовательно, в том, чтобы выявить скрытые обобщающие факторы. Выявленные факторы позволяют строить уравнение множественной регрессии с относительно небольшим числом коэффициентов.

Дисперсионный анализ призван выявить влияние отдельных факторов на результат эксперимента. Суть этого метода состоит в том, что совокупность наблюдений группируют по факторному признаку, находя среднюю результата и дисперсию по каждой группе. Затем определяют общую дисперсию и вычисляют, какая доля её зависит от условий, общих для всех групп, какая – от исследуемого фактора, а какая – от случайных причин. И наконец, с помощью специального критерия, определяют настолько существенны различия между группами наблюдений и, следовательно, можно ли считать ощутимым влияние тех или иных факторов. По существу дисперсионный анализ служит предварительным этапом регрессионного анализа статистических данных, позволяющих выделить относительно небольшое, но достаточное для целей исследования количество параметров регрессии.

Библиографический список

Социально - экономическая статистика: практикум/ под ред. В.Н. Салина, Е.П. Шпаковской. – М.: Финансы и статистика, 2006.

Виды общественных явлений и формы связей между ними. Методы изучения взаимосвязей между явлениями и характеризующими их признаками.

У нас самая большая информационная база в рунете, поэтому Вы всегда можете найти походите запросы

1.8.1. Статистическое изучение взаимосвязей, их классификация.

1.8.2. Задачи изучения взаимосвязей.

1.8.3. Понятие корреляционно-регрессионного анализа, условия его применения.

1.8.4. Показатели тесноты связи, линейный коэффициент кор­реляции.

1.8.5. Меры оценки тесноты связи для атрибутивных признаков.

1.8.1. Статистическое изучение взаимосвязей, их класси­фикация

Статистическое изучение взаимосвязей является одним из важ­нейших разделов статистики. Изучение взаимосвязей между раз­личными явлениями общественной жизни позволяет предсказы­вать развитие процессов, зависимых от других, и, в конечном счете, оказывать на них влияние. Таким образом, изучение связей позволяет от объяснения фактов перейти к изменению фактов.

Взаимосвязь - это совместное согласованное изменение двух или нескольких признаков.

Присутствие взаимосвязи между различными явлениями, процес­сами выражается во взаимосогласованном изменении статистиче­ских данных, описывающих эти процессы.

Например, стаж работы является одним из факторов роста производительности труда. Поэтому увеличение стажа, как правило, приводит к росту выработки. Статистические данные отражают со­гласованность в изменении обоих показателей.

Все многообразие взаимосвязей принято классифицировать по различным признакам: Форма проявления:

причинно-следственные связи - в том случае, когда из двух взаимодействующих признаков можно выделить причину и след­ствие, признак-фактор (х) и признак-результат (х ).

Например, взаимосвязь между объемом производимой продукции и себестоимостью единицы продукции проявляется следующим образом: с увеличением объема производимой продукции себестоимость единицы продукции снижается. Здесь, объем продукции - признак-фактор, а себестоимость - признак результат.

Связи соответствия - в случае, когда нет возможности выде­лить причину и следствие, в частности оба согласованно меняю­щихся признака являются следствиями третьего признака. Механизм связи:

Функциональная;

Стохастическая (статистическая).


Под функциональной зависимостью между явлениями понима­ется такая связь, которая может быть выражена для каждого слу­чая вполне определенно строгой математической формулой. При функциональной зависимости каждому значению одной ве­личины соответствует одно или несколько, но вполне определен­ных значений другой величины. Например, отношения между стороной и площадью квадрата (S = а 2 ), временем и путем при движении с постоянной скоростью (S = vt ) и тому подобными ве­личинами, часто встречающимися в геометрии, механике. Для массовых социальных явлений характерны зависимости дру­гого рода, возникающие в результате взаимодействия многих причин и условий и осложненные действием объективной слу­чайности и ошибок наблюдения. Выразить подобные зависимо­сти с помощью однозначных, точных формул, пригодных для описания каждого отдельного случая невозможно.

При статистической связи разным значениям одной переменной соответствуют разные распределения значений другой перемен­ной.

Частным случаем статистической связи является корреляционная связь.

Корреляционная зависимость - взаимосвязь между признака­ми, состоящая в том, что средняя величина значений одного при­знака меняется в зависимости от изменения другого признака (например, зависимость между выработкой и стажем работы, ме­жду числом судимостей преступника и временем его нахождения на свободе между ними и др.). Здесь, в отличие от функциональ­ной зависимости, в индивидуальных случаях при определении значения одного признака могут быть разные значения другого, то есть совсем не обязательно, что обнаруженная связь будет подтверждаться в каждом конкретном случае.

Например, изменение профессорско-преподавательского состава в сторону увеличения числа

преподавателей, имеющих ученую степень, приводит в конечном итоге к повышению качества обра­зования. Но это не значит, что каждый отдельно взятый выпускник будет обладать большим набором знаний, чем выпускник учебного заведения, имеющего более «слабый» преподавательский состав.

Следовательно, в статистическом анализе корреляционные зави­симости проявляются не между каждой парой сопоставляемых данных, а между изменениями в рядах распределения множества соответствующих величин.

Кроме того, что корреляционная зависимость не имеет функцио­нального характера, следует учитывать две ее особенности:

Вывод может быть сделан только на основе анализа доста­точно больших статистических совокупностей, позволяющих по строить относительно длинные статистические ряды;
- желательно, чтобы число наблюдений было не менее чем в 5-6 раз больше числа факторов.

Корреляционный анализ имеет смысл лишь в тех случаях, когда возможность причинной связи между анализируемыми призна­ками теоретически обоснована хотя бы на уровне содержатель­ной гипотезы.

Если с изменением значения признака среднее значение другого признака не изменяется закономерным образом, но закономерно изменяется другая статистическая характеристика (например, по­казатели вариации), то связь не является корреляционной, но яв­ляется статистической.

В случае статистической связи предполагается, что оба признака имеют случайную вариацию индивидуальных значений относи­тельно средней величины, то есть каждый из признаков принима­ет несколько случайных значений. В том случае, если такую ва­риацию имеет один из признаков, а значения другого являются жестко детерминированными, то говорят о регрессии, но не о статистической связи. При анализе динамических рядов можно измерять регрессию уровней ряда (имеющих случайную колеб­лемость) на номера лет. Например, динамика производства про­дукции. Но, нельзя говорить о корреляции (взаимосвязи) между выпуском продукции и временем и оценивать между ними тесно­ту связи.

Направление связи:

Обратные.

В том случае, если при увеличении признака-фактора растет при­знак-результат, говорят о прямой корреляционной связи. Напри­мер, чем выше уровень алкоголизации общества, тем выше пре­ступность, причем преступность специфичная («пьяная»). Если при увеличении признака-причины уменьшается признак-результат, говорят об обратной корреляционной зависимости. На­пример, чем выше социальный контроль в обществе, тем ниже пре­ступность.

Форма связи:

Прямолинейные;

Криволинейные.

И прямые, и обратные связи могут быть прямолинейными и кри­волинейными. Математически прямолинейные связи могут быть описаны с помощью уравнения прямой:

y = а + вх,

где у - признак-результат; х - признак-фактор.

Криволинейные связи носят иной характер. Возрастание величи­ны факторного признака оказывается неравномерное влияние на величину результирующего признака.

Например, связь преступлений с возрастом нарушителей. Вначале криминальная активность лиц растет прямо пропорционально увеличению возраста (приблизительно до 30 лет), а затем начинает снижаться. Математически такие связи описываются с помощью кривых (гиперболы, параболы).

Прямолинейные корреляционные связи могут быть однофакторными, когда исследуется связь между одним признаком-фактором и одним признаком-следствием {парная корреляция). Они могут быть многофакторными, когда исследуется влияние многих взаимодействующих между собой признаков-факторов на признак-следствие (множественная корреляция).

Аннотация: Для большинства статистических исследований важно выявить существующие взаимосвязи между протекающими явлениями и процессами. Почти все наблюдаемые явления экономической жизни общества, какими бы независимыми они ни казались на первый взгляд, как правило, - следствие действия определенных факторов. Например, прибыль, получаемая предприятием, связана со множеством показателей: численностью работников, их образованием, стоимостью основных производственных фондов и т. п.

12.1. Понятие о функциональной и корреляционной связи

Между общественными и экономическими явлениями имеется два основных типа связи - функциональная и статистическая (называемая также стохастической, вероятностной или корреляционной). Перед тем как рассмотреть их подробнее, введем понятия независимых и зависимых признаков.

Независимыми, или факторными, называют признаки, которые вызывают изменения других, связанных с ними признаков. Признаки, изменение которых под воздействием определенных факторов требуется проследить, называют зависимыми, или результативными.

При функциональной связи изменение независимых переменных приводит к получению точно определенных значений зависимой переменной.

Наиболее часто функциональные связи проявляются в естественных науках, например в механике функциональной является зависимость расстояния, пройденного объектом, от скорости его движения и т. п.

При статистической связи каждому значению независимой переменной Х соответствует множество значений зависимой переменной Y, причем не известно заранее, какое именно. Например, мы знаем, что прибыль коммерческого банка определенным образом связана с размером его уставного капитала (этот факт не подлежит сомнению). Тем не менее, нельзя вычислить точную величину прибыли при заданном значении последнего показателя, так как она зависит еще и от множества других факторов, помимо размера уставного капитала, среди которых имеются и случайные. В нашем случае, скорее всего, мы определим лишь среднее значение прибыли, которое будет получено в целом по совокупности банков со сходным объемом уставного капитала. Таким образом, статистическая связь отличается от функциональной наличием действия на зависимую переменную большого числа факторов.

Заметим, что статистическая связь проявляется лишь "в общем и среднем" при большом числе наблюдений за явлением. Так, интуитивно мы можем предполагать, что существует зависимость между объемом основных фондов предприятия и получаемой им прибылью, а именно с увеличением первого размер прибыли возрастает. Но на это можно возразить и привести пример предприятия, обладающего достаточным количеством современного производственного оборудования, но тем не менее терпящего убытки. В данном случае мы имеем наглядный пример статистической связи, которая проявляется лишь в больших совокупностях, содержащих десятки и сотни единиц в отличие от функциональной, подтверждающейся для каждого наблюдения.

Корреляционной является статистическая связь между признаками, при которой изменение значений независимой переменной Х приводит к закономерному изменению математического ожидания случайной величины Y.

Пример 12.1. Предположим, что имеются данные по предприятиям о размере нераспределенной прибыли предыдущего года, объеме инвестиций в основной капитал и о суммах, выделенных на приобретение ценных бумаг (тыс. ден. ед.):

Таблица 12.1.
Номер предприятия Нераспределенная прибыль предыдущего года Приобретение ценных бумаг Инвестиции в основные фонды
1 3 010 190 100
2 3 100 182 250
3 3 452 185 280
4 3 740 170 270
5 3 980 172 330
6 4 200 160 420
7 4 500 145 606
8 5 020 120 690
9 5 112 90 800
10 5 300 30 950

Из таблицы видно, что имеется прямое соответствие между нераспределенной прибылью предприятия и его инвестициями в основной капитал : при увеличении нераспределенной прибыли объем инвестиций также возрастает. Теперь обратим внимание на связь между показателем нераспределенной прибыли и объемом приобретенных ценных бумаг. Здесь она носит совершенно иной характер: увеличение первого показателя приводит к прямо противоположному эффекту - стоимость приобретенных ценных бумаг за редким исключением (что уже однозначно исключает наличие функциональной связи) уменьшается. Такой визуальный анализ данных , при котором наблюдения ранжируются по возрастанию или убыванию независимой величины х, а затем анализируется изменение значений зависимой величины у, называется методом приведения параллельных данных.

В рассмотренном примере в первом случае связь прямая, т.д. увеличение (уменьшение) одного показателя влечет увеличение (уменьшение) другого (наблюдается соответствие в изменениях показателей), а во втором - обратная, т.д. уменьшение одного показателя вызывает рост другого или же увеличение одного соответствует снижению другого.

Прямая и обратная зависимости характеризуют направление связи между признаками, которую можно проиллюстрировать графически с помощью поля корреляции. При его построении в прямоугольной системе координат на оси абсцисс располагают значения независимой переменной х, а на оси ординат - зависимой у. Пересечение координат обозначают точками, которые символизируют наблюдения. По форме рассеяния точек на корреляционном поле судят о форме и тесноте связи. На рисунке 12.1 приводятся корреляционные поля, соответствующие различным формам связи.


Рис. 12.1.

а - прямая (положительная) связь ;

б - обратная (отрицательная) связь ;

в - отсутствие связи

Раздел статистической науки, занимающийся исследованием причинных связей между социально-экономическими явлениями и процессами, имеющими количественное выражение , - это корреляционно-регрессионный анализ . По существу имеются два отдельных направления анализа - корреляционный и регрессионный. Однако в связи с тем, что на практике они применяются чаще всего комплексно (исходя из результатов корреляционного анализа проводят регрессионный), их объединяют в один вид.

Проведение корреляционно-регрессионного анализа предполагает решение следующих задач:

Из перечисленных задач первые две относят непосредственно к задачам корреляционного анализа, три последующие - к регрессионному анализу и только по отношению к количественным показателям.

12.1.1. Требования к статистической информации, исследуемой методами корреляционно-регрессионного анализа

Методы корреляционно-регрессионного анализа можно применить не ко всем статистическим данным. Перечислим основные требования, предъявляемые к анализируемой информации:

  1. используемые для исследования наблюдения должны являться случайно выбранными из генеральной совокупности объектов. В противном случае исходные данные, представляющие собой определенную выборку из генеральной совокупности, не будут отражать ее характер, полученные по ним выводы о закономерностях развития окажутся бессмысленными и не имеющими никакой практической ценности;
  2. требование независимости наблюдений друг от друга. Зависимость наблюдений друг от друга называется автокорреляцией, для ее устранения в теории корреляционно-регрессионного анализа созданы специальные методы;
  3. исходная совокупность данных должна быть однородной, без аномальных наблюдений. И действительно, одно-единственное, резко выделяющееся наблюдение может привести к катастрофическим последствиям для регрессионной модели, ее параметры окажутся смещенными, выводы абсурдными;
  4. желательно, чтобы исходные данные для анализа подчинялись нормальному закону распределения. Нормальный закон распределения используется для того, чтобы при проверке значимости коэффициентов корреляции и построении для них интервальных границ можно было использовать определенные критерии. Если же проверять значимость и строить интервальные оценки не требуется, переменные могут иметь любой закон распределения. В регрессионном анализе при построении уравнения регрессии требование нормальности распределения исходных данных предъявляется лишь к результативной переменной Y, независимые факторы рассматриваются как неслучайные величины и могут в действительности иметь любой закон распределения. Как и в случае корреляционного анализа, требование нормальности распределения нужно для проверки значимости регрессионного уравнения, его коэффициентов и нахождения доверительных интервалов;
  5. число наблюдений, по которым устанавливается взаимосвязь признаков и строится модель регрессии, должно превышать количество факторных признаков хотя бы в 3-4 раза (а лучше в 8-10 раз). Как отмечалось выше, статистическая связь проявляется только при значительном числе наблюдений на основе действия закона больших чисел, причем, чем связь слабее, тем больше требуется наблюдений для установления связи, чем сильнее - тем меньше;
  6. факторные признаки Х не должны находиться между собой в функциональной зависимости. Значительная связь независимых (факторных, объясняющих) признаков между собой указывает на мультиколлениарность. Ее наличие приводит к построению неустойчивых регрессионных моделей, "ложных" регрессий.

12.1.2. Линейная и нелинейная связи

Линейная связь выражается прямой линией, а нелинейная - какой-либо кривой линией. Линейная связь выражается уравнением прямой: y = a 0 + a i *x. Прямая наиболее привлекательна с точки зрения простоты расчета параметров уравнения. К ней прибегают всегда, в том числе и в случаях нелинейных связей, когда нет угрозы значительных потерь в точности оценок. Однако для некоторых зависимостей представление их в линейной форме приводит к большим ошибкам (ошибкам аппроксимации) и, как следствие, к ложным выводам. В этих случаях используют нелинейные регрессионные функции, которые в общем случае могут иметь любой произвольный вид, тем более что современное программное обеспечение позволяет быстро их построить. Чаще всего для выражения нелинейной связи используются следующие нелинейные уравнения: степенное, параболическое, гиперболическое, логарифмическое.

Параметры этих моделей, как и в случаях линейных зависимостей, оцениваются также на основе метода наименьших квадратов (см. п. 12.3.1).

12.2. Корреляционно-регрессионный анализ

Основными задачами корреляционного анализа являются определение наличия связи между отобранными признаками, установление ее направления и количественная оценка тесноты связи. Для этого в корреляционном анализе сначала оценивается матрица парных коэффициентов корреляции, затем на ее основе определяются частные и множественные коэффициенты корреляции и детерминации. После нахождения значений коэффициентов проверяют их значимость . Конечный результат корреляционного анализа - это отбор факторных признаков Х для дальнейшего построения уравнения регрессии, позволяющего количественно описать взаимосвязь.

Рассмотрим этапы корреляционного анализа подробнее.

12.2.1. Парные (линейные) коэффициенты корреляции

Корреляционный анализ начинается с расчета парных (линейных) коэффициентов корреляции.

Парный коэффициент корреляции представляет собой меру линейной зависимости между двумя переменными на фоне действия остальных переменных, входящих в модель.

В зависимости от того, какой порядок вычислений более удобен исследователю, расчет данного коэффициента проводят по одной из следующих формул:

Парный коэффициент корреляции изменяется в пределах от -1 до +1. Абсолютное значение, равное единице, свидетельствует о том, что связь функциональная: -1 - обратная (отрицательная), +1 - прямая (положительная). Нулевое значение коэффициента указывает на отсутствие линейной связи между признаками.

Качественную оценку полученным количественным значениям парных коэффициентов корреляции можно дать на основе шкалы, представленной в табл. 12.2.

Примечание: положительное значение коэффициента говорит о том, что связь между признаками прямая, отрицательное - обратная.

12.2.2. Оценка существенности связи

После того, как значения коэффициентов получены, следует проверить их значимость. Поскольку исходные данные, по которым устанавливается взаимосвязь признаков, являются определенной выборкой из некоей генеральной совокупности объектов, исчисленные по этим данным парные коэффициенты корреляции будут выборочными. Таким образом, они лишь оценивают связь исходя из той информации, которую несут отобранные единицы наблюдения. Если исходные данные "хорошо" отражают структуру и закономерности генеральной совокупности, то и исчисленный по ним коэффициент корреляции будет показывать реальную связь, присущую в действительности всей исследуемой совокупности объектов. Если данные не "копируют" взаимосвязи совокупности в целом, то и рассчитанный коэффициент корреляции сформирует ложное представление о зависимости. В идеале, чтобы установить этот факт, требуется исчислить коэффициент корреляции на основе данных всей совокупности и сравнить его с исчисленным по отобранным наблюдениям. Однако на практике, как правило, этого сделать нельзя, так как зачастую неизвестна вся генеральная совокупность или же она слишком велика. Поэтому о том, насколько реально коэффициент представляет действительность, можно судить лишь приблизительно. На основе логики легко прийти к выводу, что, очевидно, с увеличением числа наблюдений (при ) доверие к исчисленному коэффициенту будет увеличиваться.

Значимость парных коэффициентов корреляции проверяется одним из двух способов: с помощью таблицы Фишера - Йейтса или по t-критерию Стьюдента. Рассмотрим способ проверки с помощью таблицы Фишера - Йейтса как наиболее простой.

В начале проверки задается уровень значимости (чаще всего обозначаемый буквой греческого алфавита "альфа" - ), который показывает вероятность принятия ошибочного решения. Возможность совершить ошибку вытекает из того факта, что для определения взаимосвязи используются данные не всей совокупности, а лишь ее части. Обычно принимает следующие значения: 0,05; 0,02; 0,01; 0,001. Например, если = 0,05, то это означает, что в среднем в пяти случаях из ста принятое решение о значимости (или незначимости) парных коэффициентов корреляции будет ошибочным; при = 0,001 - в одном случае из тысячи и т.д.

Вторым параметром при проверке значимости является число степеней свободы v, которое в данном случае вычисляется как v = n - 2. По таблице Фишера - Йейтса находится критическое значение коэффициента корреляции r кр. ( = 0,05, v = n - 2). Коэффициенты, значения которых по модулю больше найденного критического значения, считаются значимыми.

Пример 12.2. Предположим, что в первом случае имеется 12 наблюдений, и по ним вычислили парный коэффициент корреляции, который оказался равным 0,530, во втором - 92 наблюдения, и рассчитанный парный коэффициент корреляции составил 0,36. Но если мы проверим их значимость, в первом случае коэффициент окажется незначимым, а во втором - значимым, невзирая на то, что он по величине гораздо меньше. Оказывается, в первом случае слишком мало наблюдений, что повышает требования, и критическая величина парного коэффициента корреляции при уровне значимости = 0,05 составляет 0,576 (v = 12 - 2), а во втором - наблюдений значительно больше и достаточно превысить критическое значение 0,205 (v = 92 - 2), чтобы коэффициент корреляции при том же уровне оказался значимым. Таким образом, чем меньше наблюдений, тем всегда будет выше критическое значение коэффициента.

Проверка значимости по существу решает вопрос, случайны или нет полученные результаты расчетов.

12.2.3. Определение множественного коэффициента корреляции

Следующий этап корреляционного анализа связан с расчетом множественного (совокупного) коэффициента корреляции.

Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной и совокупностью других переменных, рассматриваемых в корреляционном анализе.

Если изучается связь между результативным признаком y и лишь двумя факторными признаками х 1 и х 2 , то для вычисления множественного коэффициента корреляции можно использовать следующую формулу, компонентами которой являются парные коэффициенты корреляции:

где r - парные коэффициенты корреляции.



Поделиться: