Método gráfico para el estudio estadístico de relaciones. Estudio estadístico de relaciones.

Enviar su buen trabajo en la base de conocimientos es sencillo. Utilice el siguiente formulario

Los estudiantes, estudiantes de posgrado y jóvenes científicos que utilicen la base de conocimientos en sus estudios y trabajos le estarán muy agradecidos.

Documentos similares

    Materia y método de la estadística. La esencia y principales aspectos de la observación estadística. Serie de distribución. Tablas estadísticas. Valores absolutos. Indicadores de variación. El concepto de serie temporal estadística. Comparabilidad en series dinámicas.

    hoja de trucos, agregada el 26/01/2009

    Consideración del proceso de auditoría en el departamento de contabilidad de una empresa por parte de las autoridades tributarias desde el punto de vista de la observación estadística. Selección de un valor estadístico absoluto a partir de datos fuente. Presentación de datos estadísticos. Valores promedio. Indicadores de variación.

    prueba, añadido el 28/05/2015

    Indicadores estadísticos absolutos y relativos, métodos de previsión. Ley de distribución de probabilidad de una variable aleatoria discreta. Estimaciones de parámetros poblacionales. Estudio estadístico del potencial socioeconómico.

    hoja de trucos, agregada el 16/05/2012

    Valores medios e indicadores de variación. Índices agregados del volumen físico de la masa de mercancías. Agrupación de datos estadísticos. Índices de costes unitarios individuales y consolidados. Indicadores de una serie de dinámicas. Cálculo del coste de los activos fijos.

    prueba, añadido el 04/06/2015

    Valores estadísticos absolutos y relativos. El concepto y principios del uso de valores medios e indicadores de variación. Reglas para utilizar la media aritmética y la ponderación armónica. Coeficientes de variación. Determinación de la dispersión por el método de los momentos.

    tutorial, añadido el 23/11/2010

    Materia y método de la estadística. Agrupación y distribución por filas. Valores absolutos, relativos, medios, indicadores de variación. Observación de muestras, series de tiempo. Conceptos básicos del análisis de correlación y regresión. Estadísticas de población y mercado laboral.

    manual de formación, añadido el 16/02/2011

    Resumen y agrupación de materiales de observación estadística. Valores absolutos, relativos y medios, indicadores de variación. Series dinámicas, análisis de índices. Realización de análisis de correlación y regresión de tablas sobre cosecha y aplicación de fertilizantes.

    trabajo del curso, añadido el 14/05/2013

    Características generales de los órganos de provisión de pensiones, organización del trabajo de los órganos del Fondo de Pensiones de la Federación de Rusia. Indicadores estadísticos y su cálculo: valores medios, indicadores de variación, series dinámicas, índices, análisis de tendencias, agrupaciones.

    trabajo del curso, añadido el 15/06/2010

Conceptos básicos de análisis de correlación y regresión.

Al estudiar la naturaleza, la sociedad y la economía, es necesario tener en cuenta la interrelación de los procesos y fenómenos observados. Además, la integridad de la descripción está determinada de una forma u otra por las características cuantitativas de las relaciones de causa y efecto entre ellas. Evaluar los más importantes de ellos, así como el impacto de unos factores sobre otros, es una de las principales tareas de la estadística.

Las formas de manifestación de las relaciones son muy diversas. Como los dos tipos más comunes de ellos. resaltar funcional(lleno) y correlación conexión (incompleta). En el primer caso, el valor de la característica del factor corresponde estrictamente a uno o más valores de la función. Muy a menudo, aparecen conexiones funcionales en física y química. En economía, un ejemplo es la relación directamente proporcional entre la productividad laboral y el aumento de la producción.

Una relación de correlación (que también se llama incompleta o estadística) aparece en promedio, para observaciones masivas, cuando los valores dados de la variable dependiente corresponden a un cierto número de valores probables de la variable independiente. La explicación de esto es la complejidad de las relaciones entre los factores analizados, cuya interacción está influenciada por variables aleatorias no contabilizadas. Por lo tanto, la conexión entre los signos aparece sólo en promedio, en la mayoría de los casos. En una relación de correlación, cada valor de argumento corresponde a valores de función distribuidos aleatoriamente en un intervalo determinado.

Por ejemplo, un ligero aumento en el argumento implicará solo un aumento o disminución promedio (según la dirección) de la función, mientras que los valores específicos para unidades de observación individuales diferirán del promedio. Estas dependencias se encuentran en todas partes. Por ejemplo, en agricultura, esta podría ser la relación entre el rendimiento y la cantidad de fertilizante aplicado. Evidentemente, estos últimos intervienen en la formación del cultivo. Pero para cada campo o parcela específica, la misma cantidad de fertilizante aplicado provocará un aumento diferente en el rendimiento, ya que interactúan otros factores (clima, condición del suelo, etc.), que forman el resultado final. Sin embargo, en promedio, se observa esta relación: un aumento en la masa de fertilizantes aplicados conduce a un aumento en el rendimiento.



Según la dirección de comunicación hay derecho, cuando la variable dependiente aumenta al aumentar el atributo del factor, y contrarrestar, en el que el crecimiento de este último va acompañado de una disminución de su función. Estas conexiones también pueden denominarse positivas y negativas, respectivamente.

En cuanto a su forma analítica, las conexiones son lineal Y no lineal. En el primer caso, aparecen relaciones lineales en promedio entre las características. Una relación no lineal se expresa mediante una función no lineal y las variables están relacionadas entre sí de forma no lineal en promedio.

Hay otra característica bastante importante de las conexiones desde el punto de vista de los factores que interactúan. Si se caracteriza la conexión entre dos características, generalmente se llama cuarto de vapor. Si se estudian más de dos variables: múltiple.

Los criterios de clasificación anteriores se encuentran con mayor frecuencia en el análisis estadístico. Pero además de los enumerados, también hay directo indirecto Y FALSO comunicaciones. En realidad, la esencia de cada uno de ellos se desprende del nombre. En el primer caso, los factores interactúan directamente entre sí. Una conexión indirecta se caracteriza por la participación de alguna tercera variable que media la relación entre las características en estudio. Una conexión falsa es una conexión establecida formalmente y, por regla general, confirmada únicamente mediante estimaciones cuantitativas. No tiene base cualitativa o no tiene sentido.

Variar en fuerza débil Y fuerte comunicaciones. Esta característica formal se expresa en cantidades específicas y se interpreta de acuerdo con criterios generalmente aceptados para la fuerza de conexión para indicadores específicos.

En su forma más general, la tarea de la estadística en el campo del estudio de las relaciones es cuantificar su presencia y dirección, así como caracterizar la fuerza y ​​forma de influencia de unos factores sobre otros. Para solucionarlo se utilizan dos grupos de métodos, uno de los cuales incluye métodos de análisis de correlación y el otro, análisis de regresión. Al mismo tiempo, varios investigadores combinan estos métodos en un análisis de correlación-regresión, que tiene alguna base: la presencia de una serie de procedimientos computacionales generales, complementariedad en la interpretación de los resultados, etc.

Por lo tanto, en este contexto, podemos hablar de análisis de correlación en un sentido amplio, cuando la relación se caracteriza de manera integral. Al mismo tiempo, existe un análisis de correlación en sentido estricto, cuando se examina la fuerza de la conexión, y un análisis de regresión, durante el cual se evalúa su forma y el impacto de unos factores sobre otros.

Las tareas mismas Análisis de correlación se reducen a medir la cercanía de la conexión entre diferentes características, determinar relaciones causales desconocidas y evaluar los factores que tienen la mayor influencia en la característica resultante.

Tareas análisis de regresión se encuentran en el área de establecer la forma de la dependencia, determinar la función de regresión y usar una ecuación para estimar los valores desconocidos de la variable dependiente.

La solución a estos problemas se basa en técnicas, algoritmos e indicadores adecuados, cuyo uso da pie a hablar del estudio estadístico de relaciones.

Cabe señalar que los métodos tradicionales de correlación y regresión están ampliamente representados en diversos paquetes de software estadístico para computadoras. El investigador sólo puede preparar la información correctamente, seleccionar un paquete de software que cumpla con los requisitos de análisis y estar preparado para interpretar los resultados obtenidos. Existen muchos algoritmos para calcular los parámetros de comunicación y, en la actualidad, no es aconsejable realizar manualmente un tipo de análisis tan complejo. Los procedimientos computacionales tienen un interés independiente, pero el conocimiento de los principios del estudio de las relaciones, las posibilidades y limitaciones de ciertos métodos de interpretación de resultados es un requisito previo para la investigación.

Los métodos para evaluar la fuerza de una conexión se dividen en correlación (paramétrica) y no paramétrica. Los métodos paramétricos se basan en el uso, por regla general, de estimaciones de la distribución normal y se utilizan en los casos en que la población en estudio está formada por valores que obedecen a la ley de la distribución normal. En la práctica, esta posición suele aceptarse a priori. En realidad, estos métodos son paramétricos y suelen denominarse métodos de correlación.

Los métodos no paramétricos no imponen restricciones a la ley de distribución de las cantidades estudiadas. Su ventaja es la simplicidad de los cálculos.

Capítulo 8. ESTUDIO ESTADÍSTICO DE LAS RELACIONES

8.1. Tipos de fenómenos y formas sociales.

conexiones entre ellos

El estudio estadístico de las relaciones se basa en el supuesto de una conexión e interacción universal de los fenómenos de la vida social. La interrelación e interdependencia se observan al considerar los indicadores de desempeño de cualquier empresa. Por ejemplo, un aumento de la productividad laboral implica una disminución de los costos unitarios. Aquellos fenómenos sociales (o sus características individuales) que influyen en los demás y provocan sus cambios se denominan factoriales. Aquellos fenómenos sociales (o sus características individuales) que cambian bajo la influencia de factores factoriales se denominan efectivos (la productividad laboral es un indicador de factores y el costo de producción es un indicador efectivo).

Según la naturaleza de la dependencia de los fenómenos, se distingue entre conexiones funcionales (completas) y de correlación (incompletas) entre ellos. Funcional es una relación en la que cada valor de un indicador de factor corresponde a un valor muy específico del indicador resultante. Las dependencias funcionales se utilizan ampliamente en las ciencias exactas. En cuanto a los fenómenos sociales, se desarrollan bajo la influencia de muchos factores que, a su vez, interactúan entre sí. Es más, se sabe exactamente en qué medida cada uno de ellos influye en la magnitud del fenómeno. Este tipo de conexión se llama correlación. En las correlaciones entre causa y efecto no existe una correspondencia completa, sino que sólo se observa una relación conocida. Cada valor del indicador del factor corresponde a una serie de valores de la característica resultante. Sin embargo, y esto es muy importante, cuando los valores de la característica del factor cambian, el valor promedio de la característica resultante cambia.

Las conexiones entre fenómenos se pueden clasificar según otros criterios:

  • En dirección (adelante, atrás).
  • Por expresión analítica (lineal, no lineal).
  • Según la cercanía de la conexión o el grado de su aproximación a la funcional (fuerte, débil).

La conexión entre dos características se llama correlación de pares, la influencia de varias características de factores en la característica resultante se llama correlación múltiple.

8.2. Métodos para estudiar las relaciones entre los fenómenos y sus características.

El estudio de las relaciones es la tarea cognitiva más importante de la estadística, que resuelve con la ayuda de métodos especiales. Además de las agrupaciones analíticas, estos métodos incluyen: el método de comparación de series paralelas, el método del balance y métodos basados ​​​​en las disposiciones y teoremas de la estadística matemática (correlación, factor, dispersión).

La esencia del método de comparación de series paralelas es que los resúmenes resultantes y el procesamiento del material se organizan en filas paralelas, ya sea en función del espacio o del tiempo. El estudio conjunto de este tipo de series permite rastrear la relación y dirección de los cambios en las características comparadas del fenómeno en estudio. Una condición importante para obtener resultados confiables al utilizar este método es la detección preliminar de una relación de causa y efecto entre las características en estudio.

La esencia del método del equilibrio es caracterizar los recursos del fenómeno en estudio y su distribución. El saldo más simple es el saldo de recursos materiales de la empresa, a saber: saldo al comienzo del período analizado + ingresos = gastos + saldo al final del período analizado. Está claro que dado que la recepción y el gasto de recursos materiales deben estar en cierta correspondencia (por ejemplo, en igualdad), se debe mantener una cierta proporcionalidad entre las partes (elementos) derecha e izquierda del saldo anterior. Las características de esta proporcionalidad deben encontrarse como resultado de la construcción del balance. Las posibilidades para caracterizar relaciones y proporciones se amplían significativamente si los ingresos del balance se dividen por fuentes (proveedores) y los gastos por destino (clientes). En este caso, el balance mostrará la relación no solo entre ingresos, gastos y saldos dentro de la empresa, sino también entre esta empresa y otras empresas, algunas de las cuales le suministran recursos materiales, mientras que otras consumen sus productos. Con el método del balance, es posible estudiar la rotación no solo de material, sino también de recursos laborales, efectivo y activos fijos.

En relación con las características indicadas de las dependencias de correlación, los métodos para estudiar relaciones basados ​​​​en las disposiciones de la estadística matemática enfrentan dos tareas:

1). detectar esta dependencia del material fáctico y establecer una expresión analítica de la conexión;

2). medir la fuerza de la conexión.

Para resolver el primer problema, es necesario seleccionar factores y indicadores de desempeño, recopilar material fáctico relevante y procesarlo mediante construcciones gráficas.

El segundo problema se resuelve calculando coeficientes de correlación y parámetros de regresión.

Demostremos el método de análisis de correlación utilizando el ejemplo del establecimiento de una estrecha relación entre los indicadores del equipo eléctrico del trabajo y la productividad laboral, si se dispone del siguiente material fáctico:

Ahora bien, para resolver el primer problema resta determinar cuál de los dos indicadores analizados es factorial (X) y cuál es efectivo (Y), para luego presentar gráficamente la relación entre ellos. Es obvio que de los dos indicadores analizados, la potencia eléctrica del trabajo es un factor y su productividad es un indicador eficaz. Por lo tanto, en el sistema de coordenadas rectangular, los valores del primero se trazarán a lo largo del eje de abscisas y los valores del segundo a lo largo del eje de ordenadas (ver Fig. 3).

Arroz. 3 Valores de factores e indicadores de desempeño.

Como se puede ver en la Fig. 3, los valores del indicador efectivo no se encuentran a lo largo de una línea recta que conecta sus valores extremos, sino en forma de una "nube" que se extiende a lo largo de esta línea recta. Existen técnicas especiales que permiten encontrar el tipo de expresión analítica de una conexión (recta, hipérbola, parábola, etc.) que mejor se corresponde con la dependencia funcional. La forma más simple de dependencia de la correlación se expresa mediante la ecuación y=a+bx, donde, en relación con el ejemplo que estamos considerando, y es la tasa de crecimiento de la productividad laboral; x tasa de crecimiento de los equipos eléctricos; a b parámetros de la ecuación.

Es posible medir la cercanía de la conexión (determinar los valores de a, b) entre dos indicadores (x, y) relacionados por una dependencia lineal resolviendo el siguiente sistema de ecuaciones:

donde n es el número de observaciones (en nuestro caso n=7).

Para resolver el sistema de ecuaciones construiremos una tabla en la que, junto con los datos iniciales, colocaremos los resultados de todos los cálculos intermedios necesarios, a saber:

Entonces el sistema de ecuaciones con dos incógnitas (a, b) toma la forma:

y su solución nos permite determinar su valor específico: a = -0,45;

pulg = 1,542. Por tanto, y = 1,542x 0,45. Sustituyendo valores específicos de x en esta ecuación (la llamada ecuación de regresión), obtenemos el valor calculado de la función -:

Comparando los valores de “y” y “” vemos que están próximos, pero no coinciden entre sí. Esto significa que la tasa de crecimiento de la productividad laboral está influenciada no sólo por la tasa de crecimiento de su oferta energética, sino también por otros factores que no se tuvieron en cuenta. Una característica cuantitativa de la cercanía de la relación entre el par de indicadores en estudio es el coeficiente de correlación entre ellos r, cuyos valores varían de

(1) a (+1) y cuanto mayor sea el valor absoluto, menor será la influencia distorsionante de factores no contabilizados.

El estudio de la dependencia estadística de una característica efectiva de varias características factoriales supone que la más significativa de ellas será seleccionada como la última. La introducción de una gran cantidad de factores complica la solución del problema. Su reducción imprudente lleva a que la ecuación no reproduzca el fenómeno en estudio. Los factores que tienen una relación funcional o cercana a la funcional entre sí no pueden incluirse en la ecuación. Cuando se introducen en la ecuación se observa el fenómeno de colinealidad (si hay dos factores) o multicolinealidad (si hay más de dos factores). La identificación de los fenómenos anteriores se lleva a cabo calculando coeficientes de correlación entre factores. Si el valor de los coeficientes de correlación entre factores es mayor o igual a 0,8, en investigaciones posteriores se descarta uno de estos factores. Este procedimiento no será necesario cuando se utilice el análisis factorial. El análisis factorial se diferencia en que, sin depender de una lista predeterminada de factores, ayuda a identificar los más importantes. Por ejemplo, un economista observa directamente muchos indicadores estadísticos diferentes de las actividades de una empresa para identificar patrones que influyen en el crecimiento de la productividad laboral (nivel educativo de los trabajadores, tasa de cambio de equipos, equipo eléctrico, antigüedad de los equipos, etc.). De una forma u otra, todos los factores reflejados por estos indicadores afectan la productividad laboral. Además, muchos de ellos están interconectados y reflejan esencialmente los mismos fenómenos desde diferentes lados. Utilizando las técnicas de análisis factorial de estas relaciones, es posible descubrir que, de hecho, solo unos pocos factores generalizadores (por ejemplo, el tamaño de la empresa, el nivel de organización laboral, la naturaleza del producto) que no fueron directamente observados durante el estudio tienen una influencia decisiva en el crecimiento de la productividad laboral. La tarea, por tanto, es identificar factores generalizadores ocultos. Los factores identificados permiten construir una ecuación de regresión múltiple con un número relativamente pequeño de coeficientes.

El análisis de varianza está diseñado para identificar la influencia de factores individuales en el resultado del experimento. La esencia de este método es que se agrupa un conjunto de observaciones según una característica del factor, encontrando el resultado promedio y la varianza para cada grupo. Luego se determina la varianza total y qué parte de ella se calcula depende de condiciones comunes a todos los grupos, qué parte depende del factor en estudio y qué parte depende de causas aleatorias. Y finalmente, utilizando un criterio especial, determinan qué tan significativas son las diferencias entre grupos de observaciones y, por tanto, si la influencia de determinados factores puede considerarse notable. Básicamente, el análisis de varianza sirve como etapa preliminar en el análisis de regresión de datos estadísticos, lo que permite identificar un número relativamente pequeño de parámetros de regresión, pero suficiente para los propósitos del estudio.

Bibliografía

Estadísticas socioeconómicas: taller / ed. V.N. Salina, E.P. Shpakovskaya. M.: Finanzas y Estadística, 2006.

Tipos de fenómenos sociales y formas de conexión entre ellos. Métodos para estudiar las relaciones entre los fenómenos y las características que los caracterizan.

Disponemos de la base de datos de información más grande de RuNet, por lo que siempre podrás encontrar consultas similares

1.8.1. Estudio estadístico de relaciones, su clasificación.

1.8.2. Problemas de estudiar las relaciones.

1.8.3. El concepto de análisis de correlación-regresión, condiciones para su aplicación.

1.8.4. Indicadores de cercanía de conexión, coeficiente de correlación lineal.

1.8.5. Medidas para evaluar la cercanía de las conexiones de las características de los atributos.

1.8.1. Estudio estadístico de relaciones, su clasificación.

El estudio estadístico de las relaciones es una de las ramas más importantes de la estadística. El estudio de las relaciones entre diversos fenómenos de la vida social nos permite predecir el desarrollo de procesos dependientes de otros y, en última instancia, influir en ellos. Así, el estudio de las conexiones nos permite pasar de explicar hechos a cambiar hechos.

Una relación es un cambio conjunto coordinado en dos o más características.

La presencia de una relación entre varios fenómenos y procesos se expresa en un cambio mutuamente acordado en los datos estadísticos que describen estos procesos.

Por ejemplo, la experiencia laboral es uno de los factores que aumentan la productividad laboral. Por tanto, un aumento de la experiencia, por regla general, conduce a un aumento de la producción. Las estadísticas reflejan consistencia en los cambios en ambos indicadores.

Toda la variedad de relaciones se suele clasificar según varios criterios: Forma de manifestación:

relaciones causa y efecto- en el caso de que sea posible distinguir causa y efecto de dos signos que interactúan, un factor de signo (X) y el signo de resultado ( X).

Por ejemplo, la relación entre el volumen de producción y el costo de una unidad de producción se manifiesta de la siguiente manera: con un aumento en el volumen de producción, el costo de una unidad de producción disminuye. Aquí, el volumen de producción es un atributo de factor y el costo es un atributo de resultado.

Enlaces de cumplimiento - en particular, en el caso de que no sea posible distinguir causa y efecto, ambos signos que cambian coherentemente son consecuencias del tercer signo. Mecanismo de comunicación:

Funcional;

Estocástico (estadístico).


Bajo dependencia funcional Entre fenómenos se entiende una conexión que puede expresarse para cada caso de manera bastante definida mediante una fórmula matemática estricta. Con una dependencia funcional, cada valor de una cantidad corresponde a uno o varios valores, pero bien definidos, de otra cantidad. Por ejemplo, la relación entre lado y área de un cuadrado. (S = un 2), tiempo y distancia cuando se mueve a velocidad constante ( S = Vermont) y cantidades similares que se encuentran a menudo en geometría y mecánica. Los fenómenos sociales masivos se caracterizan por dependencias de diferente tipo, que surgen como resultado de la interacción de muchas causas y condiciones y se complican por la acción de la aleatoriedad objetiva y los errores de observación. Es imposible expresar tales dependencias utilizando fórmulas precisas e inequívocas adecuadas para describir cada caso individual.

En conexión estadística diferentes valores de una variable corresponden a diferentes distribuciones de valores de otra variable.

Un caso especial de comunicación estadística es la comunicación de correlación.

Dependencia de correlación- la relación entre los signos, consistente en que valor promedio los valores de una característica cambian dependiendo de los cambios en otra característica (por ejemplo, la relación entre producción y experiencia laboral, entre el número de condenas de un delincuente y el tiempo que pasó en libertad entre ellas, etc.). Aquí, a diferencia de la dependencia funcional, en casos individuales, al determinar el valor de una característica, pueden existir diferentes valores de otra, es decir, no es en absoluto necesario que la conexión descubierta se confirme en cada caso específico. .

Por ejemplo, un cambio en el profesorado hacia un aumento en el número

docentes con un título académico conduce en última instancia a un aumento de la calidad de la educación. Pero esto no significa que cada graduado individual tendrá un mayor conjunto de conocimientos que un graduado de una institución educativa que tiene un personal docente "más débil".

En consecuencia, en el análisis estadístico, las dependencias de correlación no aparecen entre cada par de datos comparados, sino entre cambios en la serie de distribución de un conjunto de valores correspondientes.

Además del hecho de que la dependencia de la correlación no es de naturaleza funcional, se deben tener en cuenta dos de sus características:

Sólo se puede llegar a esta conclusión sobre la base de un análisis de poblaciones estadísticas suficientemente grandes que permitan construir series estadísticas relativamente largas;
- Es deseable que el número de observaciones sea al menos 5-6 veces mayor que el número de factores.

El análisis de correlación tiene sentido sólo en los casos en que la posibilidad de una relación causal entre las características analizadas está teóricamente justificada al menos al nivel de una hipótesis sustantiva.

Si, con un cambio en el valor de una característica, el valor promedio de otra característica no cambia de manera regular, pero otra característica estadística cambia naturalmente (por ejemplo, indicadores de variación), entonces la relación no es correlacional, sino que es estadístico.

En el caso de una relación estadística, se supone que ambas características tienen una variación aleatoria de los valores individuales con respecto al valor promedio, es decir, cada una de las características toma varios valores aleatorios. En el caso de que una de las características tenga tal variación, y los valores de la otra estén estrictamente determinados, entonces hablamos de regresiones, pero no sobre la conexión estadística. Al analizar series de tiempo, se puede medir la regresión de los niveles de las series (que tienen fluctuaciones aleatorias) en números de años. Por ejemplo, la dinámica de la producción de productos. Pero es imposible hablar de la correlación (relación) entre la producción del producto y el tiempo y evaluar la estrecha conexión entre ellos.

Dirección de comunicación:

Contrarrestar.

En el caso de que a medida que aumenta el rasgo factor, aumenta el rasgo resultado, hablamos de correlación directa. Por ejemplo, cuanto mayor es el nivel de alcoholización en una sociedad, mayor es la delincuencia y la delincuencia específica (“borrachos”). Si al aumentar el signo de causa el signo de resultado disminuye, hablamos de correlación inversa. Por ejemplo, cuanto mayor es el control social en la sociedad, menor es la tasa de criminalidad.

Formulario de contacto:

Línea recta;

Con línea no recta.

Se pueden realizar conexiones tanto hacia adelante como hacia atrás. derecho Y con línea no recta. Matemáticamente, las relaciones lineales se pueden describir usando una ecuación en línea recta:

y = a + pulg,

Dónde en- signo-resultado; X- factor de signo.

Las conexiones curvilíneas son de diferente naturaleza. Un aumento en el valor de una característica de un factor tiene una influencia desigual en el valor de la característica resultante.

Por ejemplo, la relación entre los delitos y la edad de los infractores. Inicialmente, la actividad delictiva de los individuos aumenta en proporción directa a la edad (hasta aproximadamente los 30 años), y luego comienza a disminuir. Matemáticamente, estas conexiones se describen mediante curvas (hipérbolas, parábolas).

Las correlaciones en línea recta pueden ser de un factor cuando se estudia la conexión entre un signo de factor y un signo de consecuencia. (correlación por pares). Pueden ser multifactoriales, cuando se estudia la influencia de muchos signos-factores que interactúan sobre la consecuencia del signo. (correlación múltiple).

Anotación: Para la mayoría de los estudios estadísticos, es importante identificar las relaciones existentes entre los fenómenos y procesos en curso. Casi todos los fenómenos observables de la vida económica de la sociedad, por independientes que parezcan a primera vista, son, por regla general, consecuencia de la acción de ciertos factores. Por ejemplo, el beneficio recibido por una empresa está asociado con muchos indicadores: el número de empleados, su educación, el costo de los activos fijos de producción, etc.

12.1. El concepto de conexión funcional y de correlación.

Hay dos tipos principales de conexiones entre los fenómenos sociales y económicos: funcionales y estadísticas (también llamadas estocásticas, probabilísticas o de correlación). Antes de considerarlos con más detalle, introduzcamos los conceptos de características independientes y dependientes.

Independientes o factoriales son características que provocan cambios en otras características relacionadas. Los signos cuyos cambios bajo la influencia de ciertos factores deben rastrearse se denominan dependientes o efectivos.

En una relación funcional, cambiar las variables independientes da como resultado valores definidos con precisión de la variable dependiente.

Muy a menudo, las conexiones funcionales aparecen en las ciencias naturales, por ejemplo, en la mecánica funcional, la dependencia de la distancia recorrida por un objeto de la velocidad de su movimiento, etc.

En una relación estadística, cada valor de la variable independiente X corresponde a un conjunto de valores de la variable dependiente Y, y no se sabe de antemano cuál. Por ejemplo, sabemos que el beneficio de un banco comercial está en cierto modo relacionado con el tamaño de su capital autorizado (este hecho está fuera de toda duda). Sin embargo, es imposible calcular la cantidad exacta de beneficio para un valor dado del último indicador, ya que depende de muchos otros factores, además del tamaño del capital autorizado, algunos de los cuales son aleatorios. En nuestro caso, lo más probable es que determinemos solo el valor promedio de la ganancia que recibirá en su conjunto un conjunto de bancos con una cantidad similar de capital autorizado. Por tanto, una relación estadística se diferencia de una relación funcional en la presencia de un efecto sobre la variable dependiente de un gran número de factores.

Obsérvese que la relación estadística aparece sólo “en general y en promedio” con un gran número de observaciones del fenómeno. Entonces, intuitivamente, podemos suponer que existe una relación entre el volumen de activos fijos de una empresa y las ganancias que recibe, es decir, con un aumento en el primero, la cantidad de ganancias aumenta. Pero se puede oponerse a esto y dar un ejemplo de una empresa que tiene una cantidad suficiente de equipos de producción modernos, pero que, sin embargo, sufre pérdidas. En este caso, tenemos un claro ejemplo de conexión estadística, que se manifiesta sólo en grandes poblaciones que contienen decenas y cientos de unidades, a diferencia de la funcional, que se confirma para cada observación.

La correlación es una relación estadística entre características en la que un cambio en los valores de la variable independiente X conduce a un cambio natural en la expectativa matemática de la variable aleatoria Y.

Ejemplo 12.1. Supongamos que hay datos sobre las empresas sobre la cantidad de ganancias retenidas del año anterior, el volumen de inversiones en capital principal y sobre los importes destinados a la compra de valores (miles de unidades monetarias):

Tabla 12.1.
Número de empresa Ganancias retenidas del año anterior Compra de valores Inversiones en activos fijos
1 3 010 190 100
2 3 100 182 250
3 3 452 185 280
4 3 740 170 270
5 3 980 172 330
6 4 200 160 420
7 4 500 145 606
8 5 020 120 690
9 5 112 90 800
10 5 300 30 950

La tabla muestra que existe una correspondencia directa entre las ganancias retenidas de la empresa y sus inversiones en capital principal: Cuando aumentan las ganancias retenidas, también aumenta el volumen de inversión. Ahora prestemos atención a la relación entre el indicador de ganancias retenidas y el volumen de valores comprados. Aquí es de naturaleza completamente diferente: un aumento en el primer indicador conduce al efecto exactamente opuesto: el costo de los valores adquiridos, con raras excepciones (lo que excluye claramente la presencia de una conexión funcional), disminuye. Este análisis de datos visuales, en el que las observaciones se clasifican en orden ascendente o descendente del valor independiente x, y luego se analiza el cambio en los valores del valor dependiente y, se denomina método de reducción de datos paralelos.

En el ejemplo considerado, en el primer caso la conexión es directa, etc. Un aumento (disminución) de un indicador implica un aumento (disminución) de otro (se observa correspondencia en los cambios de indicadores), y en el segundo, lo contrario, etc. una disminución en un indicador provoca un aumento en otro, o un aumento en uno corresponde a una disminución en el otro.

Las dependencias directas e inversas caracterizan la dirección de la relación entre características, que se puede ilustrar gráficamente utilizando el campo de correlación. Al construirlo en un sistema de coordenadas rectangular, los valores de la variable independiente x se colocan en el eje de abscisas y la variable dependiente y se coloca en el eje de ordenadas. La intersección de coordenadas está indicada por puntos que simbolizan las observaciones. La forma y cercanía de la conexión se juzga por la forma de la dispersión de puntos en el campo de correlación. La Figura 12.1 muestra campos de correlación correspondientes a diversas formas de comunicación.


Arroz. 12.1.

a - conexión directa (positiva);

b - conexión de retroalimentación (negativa);

c - falta de comunicación

La rama de la ciencia estadística que estudia las relaciones causales entre fenómenos y procesos socioeconómicos que tienen una expresión cuantitativa es el análisis de correlación-regresión. Básicamente, existen dos direcciones de análisis distintas: correlación y regresión. Sin embargo, debido al hecho de que en la práctica se utilizan con mayor frecuencia de manera integral (según los resultados del análisis de correlación, se realiza un análisis de regresión), se combinan en un solo tipo.

La realización de análisis de correlación y regresión implica resolver los siguientes problemas:

De las tareas enumeradas, las dos primeras se relacionan directamente con las tareas de análisis de correlación, las tres siguientes, con el análisis de regresión y solo en relación con indicadores cuantitativos.

12.1.1. Requisitos para la información estadística estudiada mediante métodos de análisis de correlación y regresión.

Los métodos de análisis de correlación y regresión no se pueden aplicar a todos los datos estadísticos. Enumeramos los principales requisitos para la información analizada:

  1. Las observaciones utilizadas para la investigación deben seleccionarse al azar de la población general de objetos. De lo contrario, los datos iniciales, que representan una muestra específica de la población general, no reflejarán su carácter, y las conclusiones que se extraigan de ellos sobre los patrones de desarrollo resultarán carentes de sentido y valor práctico;
  2. el requisito de que las observaciones sean independientes entre sí. La dependencia de las observaciones entre sí se llama autocorrelación, para eliminarla se han creado métodos especiales en la teoría del análisis de correlación-regresión;
  3. el conjunto de datos original debe ser homogéneo, sin observaciones anómalas. De hecho, una sola observación claramente destacada puede tener consecuencias catastróficas para el modelo de regresión: sus parámetros estarán sesgados, las conclusiones serán absurdas;
  4. Es deseable que los datos iniciales para el análisis obedezcan una ley de distribución normal. La ley de distribución normal se utiliza para que se puedan utilizar ciertos criterios al verificar la importancia de los coeficientes de correlación y construir límites de intervalo para ellos. Si no es necesario comprobar la significancia y construir estimaciones de intervalo, las variables pueden tener cualquier ley de distribución. En el análisis de regresión, al construir una ecuación de regresión, el requisito de una distribución normal de los datos iniciales se impone solo a la variable resultante Y; los factores independientes se consideran variables no aleatorias y, de hecho, pueden tener cualquier ley de distribución. Como en el caso del análisis de correlación, el requisito de normalidad de la distribución es necesario para comprobar la importancia de la ecuación de regresión, sus coeficientes y encontrar intervalos de confianza;
  5. el número de observaciones a partir de las cuales se establece la relación de características y se construye un modelo de regresión debe exceder el número de características de los factores al menos de 3 a 4 veces (y preferiblemente de 8 a 10 veces). Como se señaló anteriormente, una conexión estadística aparece sólo con un número significativo de observaciones basadas en la ley de los grandes números, y cuanto más débil es la conexión, más observaciones se requieren para establecerla; cuanto más fuerte, menos;
  6. Las características factoriales de X no deben ser funcionalmente dependientes unas de otras. Una conexión significativa entre características independientes (factoriales, explicativas) indica multicolateralidad. Su presencia conduce a la construcción de modelos de regresión inestables, regresiones “falsas”.

12.1.2. Conexiones lineales y no lineales.

Una relación lineal se expresa mediante una línea recta y una relación no lineal se expresa mediante algún tipo de línea curva. Una relación lineal se expresa mediante la ecuación de una línea recta: y = a 0 + a i *x. La línea recta es más atractiva en términos de simplicidad en el cálculo de los parámetros de la ecuación. Siempre se recurre a él, incluso en casos de conexiones no lineales, cuando no existe amenaza de pérdidas significativas en la precisión de las estimaciones. Sin embargo, para algunas dependencias, representarlas en forma lineal conduce a grandes errores (errores de aproximación) y, como consecuencia, a conclusiones falsas. En estos casos se utilizan funciones de regresión no lineal, que generalmente pueden tener cualquier forma arbitraria, especialmente porque el software moderno permite construirlas rápidamente. Muy a menudo, se utilizan las siguientes ecuaciones no lineales para expresar relaciones no lineales: potencia, parabólica, hiperbólica, logarítmica.

Los parámetros de estos modelos, como en el caso de las dependencias lineales, también se estiman mediante el método de mínimos cuadrados (ver apartado 12.3.1).

12.2. Análisis de correlación y regresión.

Los principales objetivos del análisis de correlación son determinar la presencia de una conexión entre características seleccionadas, establecer su dirección y cuantificar la cercanía de la conexión. Para hacer esto, en el análisis de correlación, primero se estima la matriz de coeficientes de correlación pareados, luego, sobre esta base, se determinan los coeficientes de correlación y determinación parciales y múltiples. Después de encontrar los valores de los coeficientes, se verifica su importancia. El resultado final del análisis de correlación es la selección de las características del factor X para la construcción posterior de una ecuación de regresión que permita una descripción cuantitativa de la relación.

Consideremos las etapas del análisis de correlación con más detalle.

12.2.1. Coeficientes de correlación pareados (lineales)

El análisis de correlación comienza con el cálculo de coeficientes de correlación pareados (lineales).

El coeficiente de correlación por pares es una medida de la relación lineal entre dos variables en comparación con las otras variables incluidas en el modelo.

Dependiendo del procedimiento de cálculo que sea más conveniente para el investigador, este coeficiente se calcula mediante una de las siguientes fórmulas:

El coeficiente de correlación por pares varía de -1 a +1. Un valor absoluto igual a uno indica que la relación es funcional: -1 - inversa (negativa), +1 - directa (positiva). Un valor de coeficiente cero indica la ausencia de una relación lineal entre las características.

Se puede realizar una evaluación cualitativa de los valores cuantitativos obtenidos de los coeficientes de correlación pareados sobre la base de la escala presentada en la tabla. 12.2.

Nota: un valor de coeficiente positivo indica que la relación entre las características es directa, un valor negativo indica que la relación es inversa.

12.2.2. Evaluar la importancia de la relación.

Una vez obtenidos los valores de los coeficientes, se debe comprobar su importancia. Dado que los datos iniciales a partir de los cuales se establece la relación de características son una determinada muestra de una determinada población general de objetos, los coeficientes de correlación pareados calculados a partir de estos datos serán selectivos. Por lo tanto, sólo estiman la relación basándose en la información que llevan las unidades de observación seleccionadas. Si los datos iniciales reflejan "bien" la estructura y los patrones de la población general, entonces el coeficiente de correlación calculado a partir de ellos mostrará la conexión real inherente a la realidad de toda la población de objetos en estudio. Si los datos no "copian" las relaciones de la población en su conjunto, entonces el coeficiente de correlación calculado formará una idea falsa de la relación. Idealmente, para establecer este hecho, es necesario calcular el coeficiente de correlación a partir de los datos de toda la población y compararlo con el calculado a partir de observaciones seleccionadas. Sin embargo, en la práctica, por regla general, esto no es posible, ya que a menudo se desconoce toda la población o es demasiado grande. Por lo tanto, sólo se puede juzgar de forma aproximada el grado de realismo con que el coeficiente representa la realidad. Basándonos en la lógica, es fácil llegar a la conclusión de que, obviamente, con un aumento en el número de observaciones (en ), aumentará la confianza en el coeficiente calculado.

La importancia de los coeficientes de correlación por pares se verifica de dos maneras: utilizando la tabla de Fisher-Yates o la prueba t de Student. Consideremos el método de verificación utilizando la tabla de Fisher-Yates como el más simple.

Al comienzo de la prueba, se establece un nivel de significancia (normalmente indicado por la letra del alfabeto griego "alfa" - ), que muestra la probabilidad de tomar una decisión errónea. La posibilidad de cometer un error surge del hecho de que para determinar la relación no se utilizan datos de toda la población, sino solo de una parte de ella. Normalmente toma los siguientes valores: 0,05; 0,02; 0,01; 0,001. Por ejemplo, si = 0,05, esto significa que en promedio, en cinco casos de cada cien, la decisión sobre la importancia (o insignificancia) de los coeficientes de correlación pareados será errónea; at = 0,001 - en un caso entre mil, etc.

El segundo parámetro al comprobar la significancia es el número de grados de libertad v, que en este caso se calcula como v = n - 2. Utilizando la tabla de Fisher-Yates, se encuentra el valor crítico del coeficiente de correlación r cr. ( = 0,05, v = norte - 2). Se consideran significativos los coeficientes cuyo valor absoluto es mayor que el valor crítico encontrado.

Ejemplo 12.2. Supongamos que en el primer caso hay 12 observaciones y a partir de ellas se calculó el coeficiente de correlación de pares, que resultó ser igual a 0,530, en el segundo caso hay 92 observaciones y el coeficiente de correlación de pares calculado fue 0,36. Pero si comprobamos su importancia, en el primer caso el coeficiente resulta insignificante, y en el segundo, significativo, a pesar de que su magnitud es mucho menor. Resulta que en el primer caso hay muy pocas observaciones, lo que aumenta los requisitos, y el valor crítico del coeficiente de correlación de pares en un nivel de significancia = 0,05 es 0,576 (v = 12 - 2), y en el segundo caso hay muchas más observaciones y basta con superar el valor crítico de 0,205 ( v = 92 - 2), para que el coeficiente de correlación al mismo nivel resulte significativo. Por tanto, cuantas menos observaciones, mayor será siempre el valor crítico del coeficiente.

Las pruebas de significancia esencialmente deciden si los resultados del cálculo son aleatorios o no.

12.2.3. Determinación del coeficiente de correlación múltiple.

La siguiente etapa del análisis de correlación está asociada con el cálculo del coeficiente de correlación múltiple (acumulado).

El coeficiente de correlación múltiple caracteriza la cercanía de la relación lineal entre una variable y el conjunto de otras variables consideradas en el análisis de correlación.

Si se estudia la relación entre la característica resultante y y solo dos características factoriales x 1 y x 2, entonces para calcular el coeficiente de correlación múltiple se puede utilizar la siguiente fórmula, cuyos componentes son coeficientes de correlación pareados:

donde r son coeficientes de correlación por pares.

Compartir: