Definición mediana. La mediana del conjunto de números es

4. Moda. Mediana. Media general y muestral

La moda está en la pantalla, la mediana está en el triángulo y los promedios son la temperatura en el hospital y en la sala. Continuamos nuestro curso práctico estadísticas entretenidas (Lección 1) estudio de características centrales población estadística, cuyos nombres ves en el encabezado. Y comenzaremos desde su final, porque valores promedio discurso vino casi desde los primeros párrafos del tema. Para lectores avanzados Tabla de contenido:

  • Media general y muestral– cálculo según datos primarios y para la serie variacional discreta generada;
  • Moda– definición y hallazgo para un caso discreto;
  • Mediana– una definición general de cómo encontrar la mediana;
  • Media, moda y mediana de la serie de variación del intervalo– cálculo a partir de datos primarios y de la serie terminada. Fórmulas de la moda y la mediana,
  • Cuartiles, deciles, percentiles: brevemente sobre lo principal.

Bueno, es mejor que los "tontos" se familiaricen con el material en orden:

Así que exploremos algunos población volumen, es decir, su característica numérica, no importa discreto o continuo (Lecciones 2, 3).

Secundaria general llamó promedio todos los valores de este conjunto:

si los numeros son iguales (que es típico de serie discreta) , entonces la fórmula se puede escribir en una forma más compacta:
, donde
opción veces repetidas;
opción - tiempos;
opción - tiempos;

opción - tiempos.

Ejemplo de cálculo en vivo secundaria general conocimos en Ejemplo 2, pero para no aburrir, ni siquiera recordaré su contenido.

Más. Como recordamos, la tramitación de toda la población en general es muchas veces difícil o imposible, y por ello se organizan representante muestreo volumen, y en base al estudio de esta muestra se llega a una conclusión sobre toda la población.

Muestra promedio llamó promedio todos los valores de muestra:

y en presencia de las mismas opciones, la fórmula se escribirá de manera más compacta:
- como la suma de los productos de la variante en el correspondiente frecuencias .

La media muestral permite estimar con precisión verdadero valor, que es suficiente para muchos estudios. Cuanto mayor sea la muestra, más precisa será esta estimación.

Comencemos la práctica, o más bien continuemos, con serie de variación discreta y la condición familiar:

Ejemplo 8

Con base en los resultados de un estudio selectivo de los trabajadores del taller, se establecieron sus categorías de calificación: 4, 5, 6, 4, 4, 2, 3, 5, 4, 4, 5, 2, 3, 3, 4, 5 , 5, 2, 3, 6, 5, 4, 6, 4, 3.

Como resolver¿tarea? si nos dan información primaria(valores brutos originales), luego se pueden resumir estúpidamente y dividir por el tamaño de la muestra:
- la categoría de cualificación media de los trabajadores del taller.

Pero en muchos problemas se requiere componer una serie variacional (cm. Ejemplo 4) :

- o esta serie se propuso originalmente (lo que sucede con más frecuencia). Y luego, por supuesto, usamos la fórmula "civilizada":

Moda . La moda de una serie variacional discreta es opción con máxima frecuencia. A este caso. La moda es fácil de encontrar en la mesa, y aún más fácil en rango de frecuencia es la abscisa del punto más alto:


A veces hay varios valores de este tipo (con la misma frecuencia máxima), y luego cada uno de ellos se considera una moda.

Si todos o casi todos opciones diferente (que es típico de serie de intervalos), entonces el valor modal se determina de una manera ligeramente diferente, que se analiza en la segunda parte de la lección.

Mediana . Mediana de la serie de variación * - este es el valor que lo divide en dos partes iguales (según el número de opciones).

Pero ahora necesitamos encontrar la media, la moda y la mediana.

Decisión: encontrar medio según los datos primarios, lo mejor es sumar todas las opciones y dividir el resultado por el volumen de la población:
guarida. unidades

Estos cálculos, por cierto, no llevarán mucho tiempo, incluso cuando se utiliza una calculadora fuera de línea. Pero si hay Excel, entonces, por supuesto, anotar en cualquier celda libre =SUMA(, selecciona todos los números con el ratón, cierra el corchete ) , poner un signo de división / , ingrese el número 30 y presione Ingresar. Listo.

En cuanto a la moda, su valoración basada en datos iniciales se vuelve inservible. Aunque vemos los mismos números entre ellos, pero entre ellos fácilmente puede haber cinco o seis o siete opciones con la misma frecuencia máxima, por ejemplo, frecuencia 2. Además, los precios se pueden redondear. Por lo tanto, el valor modal se calcula de acuerdo con la serie de intervalo generada (más sobre eso más adelante).

¿Qué puedes decir sobre la mediana? conectarse a excel =MEDIANA(, selecciona todos los números con el ratón, cierra el corchete ) y haga clic Ingresar: . Además, aquí ni siquiera necesitas ordenar nada.

Pero en Ejemplo 6 ordenados en orden ascendente (recordar y ordenar - enlace arriba), y esta es una buena oportunidad para repetir el algoritmo formal para encontrar la mediana. Dividimos la muestra por la mitad:

Y como consta de un número par de opciones, la mediana es igual a la media aritmética de las opciones 15 y 16 ordenado(!) serie de variación:

guarida. unidades

situación dos. Cuando se da una serie de intervalos ya hecha (una tarea típica de aprendizaje).

Seguimos analizando el mismo ejemplo con botas, donde, según los datos iniciales fue compilado por IVR. Calcular medio se requieren los puntos medios de los intervalos:

– para usar la conocida fórmula del caso discreto:

- excelente resultado! La discrepancia con el valor más preciso () calculado a partir de los datos primarios es de solo 0,04.

De hecho, aquí aproximamos la serie de intervalos por una discreta, y esta aproximación resultó ser muy efectiva. Sin embargo, no hay ningún beneficio particular aquí, porque. bajo moderno software no es dificil de calcular valor exacto incluso para una gran variedad de datos primarios. Pero esto es con la condición de que nos sean conocidos :)

Con otros indicadores centrales, todo es más interesante.

Para encontrar moda, necesitas encontrar espaciado modal (con máxima frecuencia)- en este problema, este es un intervalo con una frecuencia de 11, y usa la siguiente fórmula fea:
, donde:

es el límite inferior del intervalo modal;
es la longitud del intervalo modal;
es la frecuencia del intervalo modal;
– frecuencia del intervalo anterior;
– frecuencia del siguiente intervalo.

De este modo:
guarida. unidades - como puede ver, el precio "de moda" de los zapatos es notablemente diferente del promedio aritmético.

Sin entrar en la geometría de la fórmula, simplemente daré histograma de frecuencias relativas y nota:


de donde se ve claramente que el modo se desplaza con respecto al centro del intervalo modal hacia el intervalo izquierdo con una frecuencia más alta. Lógicamente.

Como referencia, analizaré casos raros:

– si el intervalo modal es extremo, entonces ;

- si se encuentran 2 intervalos modales cercanos, por ejemplo, y , entonces consideramos el intervalo modal , mientras que los intervalos cercanos (izquierdo y derecho), si es posible, también se amplían 2 veces.

- si hay una distancia entre los intervalos modales, entonces aplicamos la fórmula a cada intervalo, obteniendo así 2 o más modas.

Aquí hay un mod de envío :)

Y la mediana. Si se proporciona una serie de intervalos preparada, entonces la mediana se calcula utilizando una fórmula un poco menos terrible, pero al principio es tedioso (un error tipográfico freudiano :)) para encontrar intervalo medio - este es un intervalo que contiene una variante (o 2 variantes), que divide la serie de variación en dos partes iguales.

Arriba, describí cómo determinar la mediana, enfocándome en frecuencias acumuladas relativas, aquí es más conveniente calcular las frecuencias acumuladas "ordinarias". El algoritmo computacional es exactamente el mismo: el primer valor se elimina a la izquierda (flecha roja), y cada siguiente se obtiene como la suma del anterior con la frecuencia actual de la columna de la izquierda (marcas verdes como ejemplo):

¿Todos entienden el significado de los números en la columna de la derecha? - este es el número de opciones que lograron "acumularse" en todos los intervalos "pasados", incluido el actual.

Como tenemos un número par de opciones (30 piezas), la mediana será el intervalo que contiene 30/2 = 15 y 16 opciones. Y centrándonos en las frecuencias acumuladas, es fácil llegar a la conclusión de que estas opciones están contenidas en el intervalo.

Fórmula mediana:
, donde:
- el volumen de la población estadística;
es el límite inferior del intervalo mediano;
es la longitud del intervalo mediano;
frecuencia intervalo mediano;
frecuencia acumulada anterior intervalo.

De este modo:
guarida. unidades – tenga en cuenta que el valor de la mediana, por el contrario, resultó estar desplazado hacia la derecha, porque en mano derecha hay un número significativo de opciones:


Y para casos especiales de referencia.

Para calcular la mediana en MS EXCEL hay una función especial MEDIAN() . En este artículo, definiremos la mediana y aprenderemos a calcularla para una muestra y para una ley de distribución dada de una variable aleatoria.

Empecemos con medianas por muestras(es decir, para un conjunto fijo de valores).

Muestra mediana

Mediana(mediana) es el número que está en el medio del conjunto de números: la mitad de los números en el conjunto son mayores que mediana, y la mitad de los números son menores que mediana .

Calcular medianas necesario primero (valores en muestreo). Por ejemplo, mediana para muestra (2; 3; 3; 4 ; cinco; 7; 10) será 4. Desde. solo en muestreo 7 valores, tres de ellos menores que 4 (i.e. 2; 3; 3) y tres valores mayores que (i.e. 5; 7; 10).

Si el conjunto contiene un número par de números, entonces se calcula para dos números en el medio del conjunto. Por ejemplo, mediana para muestra (2; 3; 3 ; 6 ; 7; 10) será 4.5, porque (3+6)/2=4,5.

Para determinar medianas en MS EXCEL existe una función del mismo nombre MEDIAN() , la versión en inglés de MEDIAN().

Mediana no necesariamente coincide. Una coincidencia ocurre solo si los valores en la muestra se distribuyen simétricamente alrededor medio. por ejemplo, para muestras (1; 2; 3 ; 4 ; 5; 6) mediana y promedio son iguales a 3.5.

Si se sabe función de distribución F(x) o función de densidad de probabilidadpag(X), después mediana se puede encontrar a partir de la ecuación:

Por ejemplo, al resolver esta ecuación analíticamente para la distribución Lognormal lnN(μ; σ 2), obtenemos que mediana se calcula mediante la fórmula =EXP(μ). Para μ=0, la mediana es 1.

Presta atención al punto Funciones de distribución, para cual F(x)=0.5(ver imagen arriba) . La abscisa de este punto es 1. Este es el valor de la mediana, que naturalmente coincide con el valor calculado previamente mediante la fórmula em.

en MS EXCEL mediana por distribución logarítmica normal LnN(0;1) se puede calcular usando la fórmula =LOGNORM.INV(0,5,0,1) .

Nota: Recuerde que la integral de sobre toda el área de configuración de una variable aleatoria es igual a uno.

Por lo tanto, la línea mediana (x=Mediana) divide el área bajo el gráfico funciones de densidad de probabilidad en dos partes iguales.

La tendencia central de los datos se puede considerar no solo como un valor con desviación total cero (media aritmética) o frecuencia máxima (moda), sino también como una marca (valor en la población) que divide los datos clasificados (ordenados de forma ascendente o descendente). orden) en dos partes iguales. La mitad de los datos originales es menor que esta marca y la otra mitad es mayor. Eso es lo que es mediana.

Entonces, en estadística, la mediana es el nivel del indicador que divide el conjunto de datos en dos mitades iguales. Los valores en una mitad son menores que y en la otra mitad son mayores que la mediana. Como ejemplo, considere un conjunto de números aleatorios.

Obviamente, con una distribución simétrica, el medio, que divide a la población por la mitad, estará en el mismo centro, en el mismo lugar que la media aritmética (y la moda). Esta es, por así decirlo, una situación ideal cuando el modo, la mediana y la media aritmética coinciden y todas sus propiedades caen en un punto: frecuencia máxima, bisección, suma cero de desviaciones, todo en un solo lugar. Sin embargo, la vida no es tan simétrica como la distribución normal.

Supongamos que estamos tratando con mediciones técnicas de desviaciones del valor esperado de algo (contenido de elementos, distancia, nivel, masa, etc., etc.). Si todo está bien, lo más probable es que las desviaciones se distribuyan de acuerdo con una ley cercana a la normal, aproximadamente, como en la figura anterior. Pero si hay un factor importante e incontrolable en el proceso, pueden aparecer valores anormales que afectarán significativamente la media aritmética, pero al mismo tiempo apenas afectarán la mediana.

La mediana muestral es una alternativa a la media aritmética, porque es resistente a desviaciones anómalas (outliers).

matemático propiedad mediana es que la suma de las desviaciones absolutas (módulo) del valor mediano da el mínimo significado posible cuando se compara con las desviaciones de cualquier otra cantidad. Incluso menos que la media aritmética, ¡ay, cómo! Este hecho encuentra su aplicación, por ejemplo, en la resolución de problemas de transporte, cuando es necesario calcular el sitio de construcción de objetos cerca de la carretera de tal manera que la longitud total de los vuelos desde diferentes lugares sea mínima (paradas, gasolineras, almacenes , etc., etc.).

Fórmula mediana en estadísticas para discreto Los datos recuerdan un poco a la fórmula de la moda. Es decir, el hecho de que no existe una fórmula como tal. El valor de la mediana se elige entre los datos disponibles, y solo si esto no es posible, se realiza un cálculo simple.

En primer lugar, los datos se clasifican (clasificados en orden descendente). A continuación, hay dos opciones. Si el número de valores es impar, la mediana corresponderá al valor central de la serie, cuyo número se puede determinar mediante la fórmula:

no yo es el número del valor correspondiente a la mediana,

norte es el número de valores en el conjunto de datos.

Entonces la mediana se denota como

Este es el primer caso donde hay un valor central en los datos. La segunda opción se da cuando la cantidad de datos es par, es decir, en lugar de uno, hay dos valores centrales. La solución es sencilla: se toma la media aritmética de los dos valores centrales:

A datos de intervalo no es posible elegir un valor específico. La mediana se calcula de acuerdo con una cierta regla.

Para empezar (después de clasificar los datos) encuentre intervalo medio. Este es el intervalo a través del cual pasa el valor mediano deseado. Determinado utilizando la proporción acumulada de intervalos clasificados. Cuando la participación acumulada por primera vez superó el 50% de todos los valores, también hay un intervalo mediano.

No sé a quién se le ocurrió la fórmula de la mediana, pero obviamente partieron de la suposición de que la distribución de datos dentro del intervalo de la mediana es uniforme (es decir, el 30 % del ancho del intervalo es el 30 % de los valores, el 80 % de la el ancho es el 80% de los valores, etc.). Por lo tanto, conocer el número de valores desde el comienzo del intervalo mediano hasta el 50 % de todos los valores de la población (la diferencia entre la mitad del número de todos los valores y la frecuencia acumulada del intervalo previo a la mediana) , puede encontrar qué parte ocupan en todo el intervalo mediano. Esta participación se transfiere exactamente al ancho del intervalo de la mediana, lo que indica un valor específico, más tarde llamado mediana.

Pasemos al diagrama visual.

Resultó un poco engorroso, pero ahora, espero, todo sea claro y comprensible. Para no dibujar un gráfico de este tipo cada vez durante el cálculo, puede usar fórmula preparada. La fórmula de la mediana es:

donde x yo- el límite inferior del intervalo mediano;

yo me- anchura mediana del intervalo;

∑f/2- el número de todos los valores dividido por 2 (dos);

S (Me-1)- el número total de observaciones que se acumularon antes del comienzo del intervalo mediano, es decir, frecuencia acumulada del intervalo premediano;

para mí- número de observaciones en el intervalo mediano.

Como puede ver fácilmente, la fórmula de la mediana consta de dos términos: 1 - el valor del comienzo del intervalo de la mediana y 2 - la parte que es proporcional a la participación acumulada que falta hasta el 50%.

Por ejemplo, calculemos la mediana de los siguientes datos.

Se requiere encontrar el precio medio, es decir, el precio que es más barato y más caro que la mitad de la cantidad de bienes. Para empezar, hagamos cálculos auxiliares de la frecuencia acumulada, la participación acumulada, la cantidad total de bienes.

De acuerdo con la última columna "Participación acumulada", determinamos el intervalo medio: 300-400 rublos (la participación acumulada por primera vez es más del 50%). Ancho de intervalo - 100 rublos. Ahora queda sustituir los datos en la fórmula anterior y calcular la mediana.

Es decir, para la mitad de los bienes el precio es inferior a 350 rublos, para la otra mitad es superior. Todo es simple. La media aritmética calculada a partir de los mismos datos es de 355 rublos. La diferencia no es significativa, pero lo es.

Cálculo de la mediana en Excel

La mediana para datos numéricos es fácil de encontrar usando funcion excel, Lo que es llamado - MEDIANA. Otra cosa son los datos de intervalo. No hay una función correspondiente en Excel. Por lo tanto, se debe utilizar la fórmula anterior. ¿Qué puedes hacer? Pero esto no es muy trágico, ya que el cálculo de la mediana a partir de datos de intervalo es un caso raro. También puedes calcularlo en una calculadora.

Finalmente, propongo un problema. Hay un conjunto de datos. 15, 5, 20, 5, 10. ¿Cuál es el promedio? Cuatro opciones:

La moda, la mediana y la media de la muestra son Manera diferente determinar la tendencia central en la muestra.

  • Mediana (estadística), en estadísticas matemáticas- un número que caracteriza la muestra (por ejemplo, un conjunto de números). Si todos los elementos de la muestra son diferentes, entonces la mediana es el número de la muestra tal que exactamente la mitad de los elementos de la muestra son mayores que ella y la otra mitad son menores que ella. En un caso más general, la mediana se puede encontrar ordenando los elementos de la muestra en orden ascendente o descendente y tomando el elemento del medio. Por ejemplo, la muestra (11, 9, 3, 5, 5) después de ordenar se convierte en (3, 5, 5, 9, 11) y su mediana es el número 5. Si la muestra tiene un número par de elementos, la la mediana puede no estar determinada de manera única: para datos numéricos, la mitad de la suma de dos valores adyacentes se usa con mayor frecuencia (es decir, la mediana del conjunto (1, 3, 5, 7) se toma igual a 4).

    En otras palabras, la mediana en estadística es el valor que divide la serie por la mitad de tal forma que a ambos lados de la misma (hacia arriba o hacia abajo) se ubica el mismo número de unidades de la población dada. Debido a esta propiedad, este indicador tiene varios otros nombres: el percentil 50 o el cuantil 0.5.

    Se utiliza la mediana en lugar de la media aritmética cuando las variantes extremas de la serie ordenada (la más pequeña y la más grande) en comparación con el resto resultan excesivamente grandes o excesivamente pequeñas.

    La función MEDIANA mide la tendencia central, que es el centro de un conjunto de números en una distribución estadística. Hay tres formas más comunes de determinar la tendencia central:

    • Valor promedio- la media aritmética, que se calcula sumando un conjunto de números, y luego dividiendo la suma resultante por su número.
      Por ejemplo, la media de los números 2, 3, 3, 5, 7 y 10 es 5, que es el resultado de dividir su suma, que es 30, entre su número, que es 6.
    • Mediana- un número que es el medio de un conjunto de números: la mitad de los números tienen valores mayores que la mediana, y la mitad de los números tienen valores más pequeños.
      Por ejemplo, la mediana de los números 2, 3, 3, 5, 7 y 10 es 4.
    • Moda- el número que ocurre con mayor frecuencia en un conjunto dado de números.
      Por ejemplo, la moda de los números 2, 3, 3, 5, 7 y 10 es 3.

    Salario en diversas industrias economía, temperatura y precipitación en el mismo territorio durante períodos de tiempo comparables, rendimientos de cultivos en diferentes regiones geográficas, etc. Sin embargo, el promedio no es de ninguna manera el único indicador generalizador; en algunos casos, un valor como la mediana. En estadística, se usa ampliamente como una característica descriptiva auxiliar de la distribución de una característica en una sola población. Veamos en qué se diferencia del promedio y también qué causó la necesidad de usarlo.

    Mediana en estadística: definición y propiedades

    Imagina la siguiente situación: 10 personas trabajan junto con el director en una empresa. Los empleados ordinarios reciben 1.000 hryvnia cada uno, y su gerente, que además es el propietario, recibe 10.000 hryvnia. Si calculamos la media aritmética, resulta que el salario promedio en esta empresa es de 1900 UAH. ¿Será cierta esta afirmación? O para tomar este ejemplo, en la misma habitación del hospital hay nueve personas con una temperatura de 36,6°C y una persona con una temperatura de 41°C. La media aritmética en este caso es: (36.6 * 9 + 41) / 10 \u003d 37.04 ° C. Pero esto no significa que todos los presentes estén enfermos. Todo esto sugiere que el promedio por sí solo a menudo no es suficiente, y es por eso que se usa la mediana además de él. En estadística, este indicador se denomina variante que se ubica exactamente en el medio de una serie de variación ordenada. Si lo calcula para nuestros ejemplos, obtiene, respectivamente, 1000 UAH. y 36,6 °С. En otras palabras, la mediana en estadística es el valor que divide la serie por la mitad de tal forma que a ambos lados de la misma (hacia arriba o hacia abajo) se ubica el mismo número de unidades de la población dada. Debido a esta propiedad, este indicador tiene varios otros nombres: el percentil 50 o el cuantil 0.5.

    Cómo encontrar la mediana en las estadísticas

    El método de cálculo de este valor depende en gran medida del tipo de serie variacional que tengamos: discreta o de intervalo. En el primer caso, la mediana en las estadísticas es bastante simple. Todo lo que tienes que hacer es encontrar la suma de las frecuencias, dividir por 2 y luego sumar ½ al resultado. Sería mejor explicar el principio de cálculo con el siguiente ejemplo. Supongamos que hemos agrupado los datos de fertilidad y queremos saber cuál es la mediana.

    Número de grupo familiar por número de hijos

    Número de familias

    Después de realizar algunos cálculos simples, obtenemos que el indicador deseado es igual a: 195/2 + ½ = opción. Para averiguar qué significa esto, debe acumular frecuencias secuencialmente, comenzando con las opciones más pequeñas. Entonces, la suma de las dos primeras líneas nos da 30. Claramente, no hay 98 opciones aquí. Pero si al resultado le sumamos la frecuencia de la tercera opción (70), obtenemos una suma igual a 100. Solo contiene la opción 98, lo que significa que la mediana será una familia que tiene dos hijos.

    En cuanto a la serie de intervalos, aquí se suele utilizar la siguiente fórmula:

    M e \u003d X Me + i Me * (∑f / 2 - S Me-1) / f Me, en el que:

    • X Me - el primer valor del intervalo mediano;
    • ∑f es el número de la serie (la suma de sus frecuencias);
    • i Me - el valor del rango medio;
    • f Me - frecuencia del rango medio;
    • S Me-1 - la suma de frecuencias acumuladas en los rangos que preceden a la mediana.

    Una vez más, es difícil resolver esto sin un ejemplo. Supongamos que hay datos sobre el valor

    Salario, mil rublos.

    Frecuencias acumuladas

    Para usar la fórmula anterior, primero debemos determinar el intervalo mediano. Como tal rango, se elige uno cuya frecuencia acumulada exceda o sea igual a la mitad de la suma total de frecuencias. Entonces, dividiendo 510 por 2, obtenemos que este criterio corresponde a un intervalo con un valor salarial de 250,000 rublos. hasta 300.000 rublos Ahora puedes sustituir todos los datos en la fórmula:

    M e \u003d X Me + i Me * (∑f / 2 - S Me-1) / f Me \u003d 250 + 50 * (510/2 - 170) / 115 \u003d 286,96 mil rublos.

    Esperamos que nuestro artículo te haya sido de utilidad y que ahora tengas una idea clara de qué es la mediana en estadística y cómo se debe calcular.

Cuota: