중앙값 정의. 숫자 집합의 중앙값은 다음과 같습니다.

4. 패션. 중앙값. 일반 및 표본 평균

모드는 화면에 있고 중앙값은 삼각형 안에 있고 평균값은 병원과 병동의 온도입니다. 우리는 실습 과정을 계속합니다 흥미로운 통계 (레슨 1)중심 특성을 연구하다 통계적 인구, 제목에 이름이 표시됩니다. 그리고 우리는 그것의 끝에서부터 시작할 것입니다. 왜냐면 오 평균값대화는 거의 주제의 첫 단락부터 시작되었습니다. 고급 독자용 목차:

  • 일반 및 표본 평균– 1차 데이터와 생성된 개별 변형 시리즈를 기반으로 계산합니다.
  • 패션– 개별 사례에 대한 정의 및 결정
  • 중앙값– 중앙값을 찾는 방법에 대한 일반적인 정의
  • 간격 변동 계열의 평균, 모드 및 중앙값– 기본 데이터와 완성된 시리즈를 기반으로 계산합니다. 모드 및 중앙값 공식,
  • 사분위수, 십분위수, 백분위수 - 주요 사항에 대해 간략히 설명합니다.

글쎄, "인형"의 경우 다음과 같은 순서로 자료에 익숙해지는 것이 좋습니다.

그럼 몇 가지를 살펴보겠습니다. 인구부피, 즉 수치적 특성은 중요하지 않습니다. 이산적인또는 마디 없는 (레슨 2, 3).

일반중등 ~라고 불리는 평균이 세트의 모든 값:

숫자 중에 동일한 숫자가 있는 경우 (이것은 전형적인 이산 시리즈) , 그러면 수식을 더 간결한 형식으로 작성할 수 있습니다.
, 어디
옵션한 번 반복됩니다.
옵션 - 한 번;
옵션 - 한 번;

옵션 - 한 번.

실시간 계산 예시 일반 중등만났다 실시예 2, 하지만 지루해지지 않기 위해 내용도 기억하지 않겠습니다.

더 나아가. 우리가 기억하는 것처럼 전체 인구를 처리하는 것은 종종 어렵거나 불가능하므로 인구를 조직합니다. 대표견본 용량, 그리고 이 표본에 대한 연구를 바탕으로 전체 인구에 대한 결론이 도출됩니다.

샘플 평균 ~라고 불리는 평균모든 샘플 값:

동일한 옵션이 있는 경우 공식은 더 간결하게 작성됩니다.
– 해당 옵션에 의한 옵션 제품의 합계 주파수 .

표본 평균을 사용하면 정확하게 추정할 수 있습니다. 참뜻이는 많은 연구에 충분합니다. 게다가 표본이 클수록 이 추정치는 더 정확해집니다.

연습을 시작하거나 계속하겠습니다. 개별 변형 시리즈그리고 익숙한 조건:

실시예 8

작업장 근로자에 ​​대한 샘플 연구 결과를 바탕으로 자격 범주가 4, 5, 6, 4, 4, 2, 3, 5, 4, 4, 5, 2, 3, 3, 4, 5로 설정되었습니다. 5, 2, 3, 6, 5, 4, 6, 4, 3.

어떻게 결정하다일? 우리에게 주어진다면 기본 데이터(원래 원시 값), 간단히 요약하고 결과를 샘플 크기로 나눌 수 있습니다.
– 작업장 근로자의 평균 통계 자격 범주.

그러나 많은 문제에서는 변형 시리즈를 구성하는 것이 필요합니다. (센티미터. 실시예 4) :

- 또는 이 시리즈는 처음에 제안되었습니다(더 자주 발생함). 그리고 물론 우리는 "문명화된" 공식을 사용합니다.

패션 . 이산 변이 계열의 모드는 다음과 같습니다. 옵션최대 빈도로. 안에 이 경우. 패션은 테이블에서 쉽게 찾을 수 있고, 테이블에서는 더욱 쉽게 찾을 수 있습니다. 주파수 범위가장 높은 지점의 가로좌표는 다음과 같습니다.


때로는 이러한 값이 여러 개(동일한 최대 주파수를 가짐) 있고 각각이 모드로 간주되는 경우가 있습니다.

전부 또는 거의 전부인 경우 옵션다르다(이것은 전형적인 간격 시리즈) 그런 다음 모달 값은 약간 다른 방식으로 결정되며 이는 강의의 두 번째 부분에서 논의됩니다.

중앙값 . 변형 계열의 중앙값 * – 옵션 개수에 따라 2등분으로 나눈 값입니다.

하지만 이제 우리는 평균, 최빈값, 중앙값을 찾아야 합니다.

해결책: 찾다 평균기본 데이터에 따르면 모든 옵션을 요약하고 결과를 인구 규모로 나누는 것이 가장 좋습니다.
굴. 단위

그런데 이러한 계산은 오프라인 계산기를 사용할 때 시간이 많이 걸리지 않습니다. 하지만 Excel이 있다면 물론 자유 세포를 망치로 두드리십시오. =합계(, 마우스로 모든 숫자를 선택하고 괄호를 닫습니다. ) , 구분 기호를 넣어 / , 숫자 30을 입력하고 입력하다. 준비가 된.

패션의 경우 초기 데이터를 기반으로 한 평가가 불가능해집니다. 숫자 간에 동일한 숫자가 표시되더라도 최대 빈도가 동일한 5개, 6개 또는 7개의 변형이 있을 수 있습니다(예: 빈도 2). 또한 가격은 반올림될 수 있습니다. 따라서 생성된 구간 계열을 사용하여 모달 값을 계산합니다. (자세한 내용은 나중에).

중앙값에 대해 말할 수 없는 것: 엑셀에 입력하다 =중앙값(, 마우스로 모든 숫자를 선택하고 괄호를 닫습니다. ) 그리고 누르세요 입력하다: . 게다가 여기서는 아무것도 정렬할 필요조차 없습니다.

하지만 실시예 6오름차순으로 정렬됨 (기억하고 정렬하세요 - 위 링크), 이는 중앙값을 찾기 위한 공식 알고리즘을 반복할 수 있는 좋은 기회입니다. 샘플 크기를 반으로 나눕니다.

그리고 짝수개의 옵션으로 구성되어 있으므로 중앙값은 15번째와 16번째 옵션의 산술평균과 같습니다. 질서 있는(!) 변형 시리즈:

굴. 단위

상황 2. 미리 만들어진 간격 시리즈가 제공되는 경우(일반적인 교육 작업)

우리는 초기 데이터에 따라 부츠를 사용하여 동일한 예를 계속 분석합니다. IVR이 컴파일되었습니다.. 계산하려면 평균간격의 중간점이 필요합니다.

– 친숙한 개별 케이스 공식을 사용하려면:

- 훌륭한 결과! 1차 데이터에서 계산된 보다 정확한 값()과의 차이는 0.04에 불과합니다.

본질적으로 여기서는 간격 계열을 이산형으로 근사화했으며 이 근사치는 매우 효과적인 것으로 나타났습니다. 하지만 여기서는 특별한 이점이 없습니다. 왜냐하면... 현대적으로 소프트웨어계산은 어렵지 않아요 정확한 값매우 큰 기본 데이터 배열의 경우에도 마찬가지입니다. 그러나 이것은 우리가 알고 있다는 전제하에 이루어집니다. :)

다른 중앙 지표를 사용하면 모든 것이 더 흥미로워집니다.

패션을 찾으려면 찾아야 한다 모달 간격 (최대 주파수)– 이 문제에서는 빈도가 11인 간격이며 다음과 같은 무서운 공식을 사용합니다.
, 어디:

– 모달 간격의 하한
– 모달 간격의 길이;
– 모달 간격의 빈도;
– 이전 간격의 빈도;
– 다음 간격의 빈도.

따라서:
굴. 단위 – 보시다시피 부츠의 "유행"가격은 산술 평균과 눈에 띄게 다릅니다.

공식의 기하학으로 들어가지 않고, 나는 단지 상대도수 히스토그램그리고 나는 다음을 언급할 것이다:


여기서 모드는 모달 간격의 중심을 기준으로 더 높은 주파수로 왼쪽 간격으로 이동한다는 것을 분명히 알 수 있습니다. 논리적.

몇 가지 드문 경우를 살펴보겠습니다.

– 모달 간격이 극단적인 경우 다음 중 하나입니다.

– 예를 들어 및 와 같이 근처에 있는 2개의 모달 간격을 찾으면 모달 간격을 고려하고 가능하면 가까운 간격(왼쪽 및 오른쪽)도 2배로 늘립니다.

– 모달 간격 사이에 거리가 있는 경우 각 간격에 공식을 적용하여 2개 이상의 모드를 얻습니다.

이것이 바로 디스패치 모드입니다 :)

그리고 중앙값. 미리 만들어진 간격 계열이 주어지면 약간 덜 무서운 공식을 사용하여 중앙값을 계산하지만 먼저 찾는 것이 지루합니다 (프로이트의 오타 :)) 중앙 간격 – 이는 변형 시리즈를 두 개의 동일한 부분으로 나누는 옵션(또는 2개의 옵션)을 포함하는 간격입니다.

위에서는 중앙값을 결정하는 방법에 대해 설명했습니다. 상대 누적 주파수, 여기서는 "일반적인" 누적 주파수를 계산하는 것이 더 편리합니다. 계산 알고리즘은 정확히 동일합니다. 첫 번째 값을 왼쪽으로 이동합니다. (빨간색 화살표), 다음 각 항목은 이전 항목과 왼쪽 열의 현재 빈도의 합으로 얻어집니다. (예를 들어 녹색 기호):

모두들 오른쪽 열에 있는 숫자의 의미를 이해하고 있나요? – 이는 현재 간격을 포함하여 모든 "통과" 간격에서 "축적"된 옵션 수입니다.

짝수 개의 옵션(30개)이 있으므로 중앙값은 30/2 = 15번째 및 16번째 옵션을 포함하는 구간이 됩니다. 그리고 누적된 빈도를 바탕으로 이러한 옵션이 간격에 포함되어 있다는 결론에 도달하기 쉽습니다.

중앙값 공식:
, 어디:
– 통계적 모집단의 양;
– 중앙값 간격의 하한
- 중앙값 간격의 길이;
빈도중앙 간격;
누적 주파수 이전의간격.

따라서:
굴. 단위 – 반대로 중앙값은 오른쪽으로 이동한 것으로 나타났습니다. 에 의해 오른손상당히 많은 옵션이 있습니다:


그리고 참고로 특별한 경우입니다.

MS EXCEL에서 중앙값을 계산하려면 MEDIAN()이라는 특수 함수가 있습니다. 이 기사에서는 중앙값을 정의하고 표본과 주어진 확률 변수의 분포 법칙에 대해 중앙값을 계산하는 방법을 알아봅니다.

시작해보자 중앙값을 위한 견본(즉, 고정된 값 집합의 경우)

표본 중앙값

중앙값(중앙값)은 숫자 집합의 중간에 있는 숫자입니다. 집합에 있는 숫자의 절반이 다음보다 큽니다. 중앙값, 숫자의 절반은 다음보다 작습니다. 중앙값 .

계산하려면 중앙값먼저 필요한 것 (값 견본). 예를 들어, 중앙값샘플(2; 3; 3; 4 ; 5; 7; 10)은 4가 될 것이다. 왜냐면 방금 들어왔어 견본 7개의 값 중 3개는 4보다 작고(예: 2; 3; 3), 3개는 더 큽니다(예: 5; 7; 10).

세트에 짝수 개의 숫자가 포함되어 있으면 세트 중간에 있는 두 숫자에 대해 계산됩니다. 예를 들어, 중앙값샘플용(2; 3; 3 ; 6 ; 7; 10)은 4.5가 될 것입니다. (3+6)/2=4.5.

결정을 위해 중앙값 MS EXCEL에는 MEDIAN()의 영어 버전인 MEDIAN()이라는 동일한 이름의 함수가 있습니다.

중앙값반드시 와 일치하는 것은 아닙니다. 표본의 값이 대칭으로 분포된 경우에만 일치가 발생합니다. 평균. 예를 들어, 견본 (1; 2; 3 ; 4 ; 5; 6) 중앙값그리고 평균 3.5와 같습니다.

알려진 경우 유통 기능에프엑스(F(x)) 또는 확률 밀도 함수(엑스), 저것 중앙값방정식에서 찾을 수 있습니다:

예를 들어, 로그 정규 분포 lnN(μ; σ 2)에 대해 이 방정식을 분석적으로 풀면 다음을 얻습니다. 중앙값=EXP(μ) 공식을 사용하여 계산됩니다. μ=0이면 중앙값은 1입니다.

점에 주의하세요 분포 기능, 이를 위해 에프(x)=0.5(위 그림 참조) . 이 점의 가로좌표는 1과 같습니다. 이는 중앙값의 값으로, 이전에 em 공식을 사용하여 계산한 값과 자연스럽게 일치합니다.

MS 엑셀에서 중앙값을 위한 대수정규분포 LnN(0;1)은 다음 공식을 사용하여 계산할 수 있습니다. =LOGNORM.REV(0.5,0,1) .

메모: 다음의 적분을 기억하세요. 확률 변수를 지정하는 전체 영역에 대한 는 1과 같습니다.

따라서 중앙선(x=Median)은 그래프 아래의 면적을 나눕니다. 확률 밀도 함수두 개의 동일한 부분으로.

데이터의 중심경향은 총편차(산술평균)나 최대빈도(모드)가 0인 값일 뿐만 아니라, 순위가 매겨진 데이터(오름차순 또는 내림차순으로 정렬)를 다음과 같이 나누는 일종의 표시(집계값)로도 볼 수 있다. 두 개의 동일한 부분. 원본 데이터의 절반은 이 표시보다 작고 절반은 더 많습니다. 그게 바로 그거야 중앙값.

따라서 통계의 중앙값은 데이터 세트를 두 개의 동일한 절반으로 나누는 지표의 수준입니다. 절반의 값은 중앙값보다 작고 나머지 절반은 중앙값보다 큽니다. 예를 들어, 난수 세트를 살펴보겠습니다.

분명히 대칭 분포를 사용하면 인구를 절반으로 나누는 중간이 산술 평균 (및 모드)과 같은 위치의 바로 중앙에 위치하게 됩니다. 말하자면 이는 최빈값, 중앙값 및 산술 평균이 일치하고 모든 속성이 한 지점(최대 주파수, 절반, 편차 제로 합)에 모두 한곳에 있는 이상적인 상황입니다. 그러나 생명은 정규분포처럼 대칭적이지 않습니다.

어떤 것의 예상 값(요소의 내용, 거리, 레벨, 질량 등)과의 편차에 대한 기술적 측정을 다루고 있다고 가정해 보겠습니다. 모든 것이 괜찮다면 편차는 대략 위 그림과 같이 정상에 가까운 법칙에 따라 분포될 가능성이 높습니다. 그러나 프로세스에 중요하고 통제할 수 없는 요소가 있는 경우 산술 평균에는 큰 영향을 주지만 중앙값에는 거의 영향을 미치지 않는 변칙적인 값이 나타날 수 있습니다.

표본 중앙값은 산술 평균의 대안입니다. 왜냐하면 비정상적인 편차(이상치)에 강합니다.

매우 정확한 중앙값의 속성중앙값으로부터 절대(모듈로) 편차의 합이 최소값을 제공한다는 것입니다. 가능한 의미, 다른 값과의 편차를 비교할 때. 산술평균보다 훨씬 적은데, 어쩜! 이 사실예를 들어, 다른 장소(정류소, 주유소, 창고)에서 도로까지의 총 비행 시간을 최소화하는 방식으로 도로 근처에 있는 물체의 건설 현장을 계산해야 할 때 운송 문제를 해결하는 데 적용할 수 있습니다. 등).

통계의 중앙값 공식 이산적인데이터는 다소 패션 공식을 연상시킵니다. 즉, 그런 공식이 없기 때문입니다. 중앙값은 사용 가능한 데이터에서 선택되며 이것이 불가능한 경우에만 간단한 계산이 수행됩니다.

우선, 데이터의 순위가 매겨집니다(내림차순으로 정렬). 다음으로 두 가지 옵션이 있습니다. 값의 수가 홀수이면 중앙값은 계열의 중앙 값에 해당하며 그 수는 다음 공식으로 결정될 수 있습니다.

아니요. 나– 중앙값에 해당하는 값의 수,

N– 데이터 세트의 값 수.

그런 다음 중앙값은 다음과 같이 표시됩니다.

이는 데이터에 하나의 중심 값이 있는 경우 첫 번째 옵션입니다. 두 번째 옵션은 데이터 수가 짝수일 때 발생합니다. 즉, 하나 대신 두 개의 중심 값이 있는 경우입니다. 해결책은 간단합니다. 두 중심 값의 산술 평균을 취합니다.

안에 간격 데이터특정 값을 선택할 수 없습니다. 중앙값은 특정 규칙에 따라 계산됩니다.

(데이터 순위를 매긴 후) 시작하려면 다음을 찾으세요. 중앙 간격. 원하는 중앙값이 통과하는 간격입니다. 순위 간격의 누적 점유율을 사용하여 결정됩니다. 누적 점유율이 처음으로 전체 값의 50%를 초과한 경우 중간 간격이 있습니다.

중앙값 공식을 누가 생각해냈는지는 모르겠지만 중앙값 간격 내의 데이터 분포가 균일하다는 가정(즉, 간격 너비의 30%는 값의 30%, 값의 80%는 너비는 값의 80%입니다. 등). 여기에서 중앙값 간격의 시작부터 모집단 전체 값의 50%까지의 값 개수(모든 값 개수의 절반과 중앙값 이전 간격의 누적 빈도의 차이)를 알 수 있습니다. ) 전체 중앙값 구간에서 이들이 차지하는 비율을 확인할 수 있습니다. 이 비율은 중앙값 간격의 너비로 정확하게 전송되어 특정 값을 나타내며 이후에 중앙값이라고 합니다.

시각적 다이어그램을 살펴 보겠습니다.

조금 번거로웠지만 이제는 모든 것이 명확하고 이해할 수 있기를 바랍니다. 계산할 때마다 이러한 그래프를 그리는 것을 방지하려면 다음을 사용할 수 있습니다. 미리 만들어진 공식. 중앙값 공식은 다음과 같습니다.

어디 xMe- 중앙값 간격의 하한

나는 나- 중앙값 간격의 너비;

∑f/2- 모든 값의 수를 2(2)로 나눈 값

에스(나-1)- 중앙값 간격이 시작되기 전에 누적된 총 관측치 수, 즉 중앙값 이전 간격의 누적 빈도;

fMe- 중앙값 구간의 관측치 수.

쉽게 볼 수 있듯이 중앙값 공식은 두 가지 항으로 구성됩니다. 1 – 중앙값 간격의 시작 값과 2 – 최대 50%의 누락된 누적 점유율에 비례하는 부분입니다.

예를 들어, 다음 데이터를 사용하여 중앙값을 계산해 보겠습니다.

중간가격, 즉 상품수량의 절반보다 더 싼 가격과 더 비싼 가격을 찾아야 합니다. 우선 누적빈도, 누적점유율, 총상품수에 대한 보조계산을 해보겠습니다.

마지막 열 "누적 점유율"을 사용하여 중간 간격(300-400 루블)을 결정합니다(누적 점유율은 처음으로 50% 이상임). 간격 너비 - 100 문지름. 이제 남은 것은 데이터를 위 공식에 대입하고 중앙값을 계산하는 것뿐입니다.

즉, 상품의 절반 가격은 350 루블보다 낮고 나머지 절반 가격은 더 높습니다. 간단 해. 동일한 데이터를 사용하여 계산된 산술 평균은 355 루블과 같습니다. 그 차이는 크지 않지만 존재합니다.

Excel에서 중앙값 계산

숫자 데이터의 중앙값은 다음을 사용하여 쉽게 찾을 수 있습니다. 엑셀 기능, 이는 - 중앙값. 간격 데이터는 또 다른 문제입니다. Excel에는 해당 기능이 없습니다. 따라서 위의 공식을 사용해야 합니다. 당신은 무엇을 할 수 있나요? 그러나 간격 데이터에서 중앙값을 계산하는 것은 드문 경우이므로 이는 그다지 비극적이지 않습니다. 계산기로 수학을 한 번만 할 수 있습니다.

마지막으로 문제를 제시합니다. 데이터 세트가 있습니다. 15, 5, 20, 5, 10. 평균은 얼마입니까? 네 가지 옵션:

최빈값, 중앙값 및 표본 평균은 다음과 같습니다. 다른 방법표본의 중심 경향을 결정합니다.

  • 중앙값(통계), V 수학적 통계- 샘플을 특징짓는 숫자(예: 숫자 집합) 모든 표본 요소가 다른 경우 중앙값은 표본 요소의 정확히 절반이 이보다 크고 나머지 절반은 이보다 작은 표본 수입니다. 보다 일반적으로 중앙값은 표본의 요소를 오름차순 또는 내림차순으로 정렬하고 중간 요소를 취하여 찾을 수 있습니다. 예를 들어, 순서를 지정한 후 샘플 (11, 9, 3, 5, 5)는 (3, 5, 5, 9, 11)로 바뀌고 해당 중앙값은 숫자 5입니다. 샘플에 짝수 개의 요소가 있는 경우 중앙값은 고유하게 결정되지 않을 수 있습니다. 수치 데이터의 경우 인접한 두 값의 절반합이 가장 자주 사용됩니다(즉, 집합(1, 3, 5, 7)의 중앙값은 4와 동일하게 사용됩니다).

    즉, 통계의 중앙값은 주어진 모집단의 양쪽(아래쪽 또는 위쪽)에 동일한 수의 단위가 있도록 계열을 절반으로 나누는 값입니다. 이 속성으로 인해 이 지표에는 50번째 백분위수 또는 0.5 분위수 등 여러 다른 이름이 있습니다.

    나머지에 비해 순위가 매겨진 계열(최소 및 최대)의 극단적인 옵션이 지나치게 크거나 지나치게 작은 것으로 판명될 경우 산술 평균 대신 중앙값이 사용됩니다.

    MEDIAN 함수는 통계 분포에서 숫자 집합의 중심인 중심 경향을 측정합니다. 중심 경향을 결정하는 가장 일반적인 세 ​​가지 방법은 다음과 같습니다.

    • 평균값- 산술 평균은 일련의 숫자를 더한 다음 결과 합계를 해당 숫자로 나누어 계산됩니다.
      예를 들어, 숫자 2, 3, 3, 5, 7, 10의 평균은 5이며, 이는 그 합인 30을 그 합인 6으로 나눈 결과입니다.
    • 중앙값- 숫자 집합의 중간에 있는 숫자: 숫자의 절반은 중앙값보다 큰 값을 갖고, 숫자의 절반은 더 작은 값을 갖습니다.
      예를 들어, 숫자 2, 3, 3, 5, 7, 10의 중앙값은 4입니다.
    • 패션- 주어진 숫자 집합에서 가장 자주 발견되는 숫자입니다.
      예를 들어, 숫자 2, 3, 3, 5, 7, 10의 모드는 3입니다.

    급여 다양한 산업비슷한 기간 동안 동일한 지역의 경제, 기온 및 강수량, 다른 지리적 지역에서 재배된 작물의 수확량 등. 그러나 평균은 결코 유일한 일반적인 지표는 아닙니다. 경우에 따라 중앙값과 같은 값 . 통계에서는 특정 모집단의 특성 분포를 보조적으로 설명하는 특성으로 널리 사용됩니다. 평균과 어떻게 다른지, 그리고 왜 사용해야 하는지 알아봅시다.

    통계의 중앙값: 정의 및 속성

    다음 상황을 상상해 보세요. 10명의 사람들이 이사와 함께 회사에서 일하고 있습니다. 일반 근로자는 1,000 UAH를 받고, 소유자이기도 한 관리자는 10,000 UAH를 받습니다. 산술 평균을 계산하면 이 기업의 평균 급여는 1900 UAH인 것으로 나타났습니다. 이 말이 사실일까요? 또는 다음 예를 들어보겠습니다. 같은 병동에 체온이 36.6°C인 사람이 9명 있고, 체온이 41°C인 사람이 한 명 있습니다. 이 경우 산술 평균은 (36.6*9+41)/10 = 37.04°C와 같습니다. 그러나 이것이 참석한 모든 사람이 아프다는 의미는 아닙니다. 이 모든 것은 평균만으로는 충분하지 않은 경우가 많으므로 평균에 추가로 중앙값을 사용하는 이유입니다. 통계에서는 이 지표를 주문된 변형 계열의 정확히 중간에 위치한 옵션이라고 합니다. 예를 들어 계산하면 각각 1000 UAH를 얻습니다. 36.6 ℃. 즉, 통계의 중앙값은 주어진 모집단의 양쪽(아래쪽 또는 위쪽)에 동일한 수의 단위가 있도록 계열을 절반으로 나누는 값입니다. 이 속성으로 인해 이 지표에는 50번째 백분위수 또는 0.5 분위수 등 여러 다른 이름이 있습니다.

    통계에서 중앙값을 찾는 방법

    이 값을 계산하는 방법은 주로 우리가 가지고 있는 변동 계열의 유형(이산형 또는 간격)에 따라 달라집니다. 첫 번째 경우 중앙값은 통계에서 아주 간단하게 찾을 수 있습니다. 여러분이 해야 할 일은 빈도의 합을 구하고 이를 2로 나눈 다음 결과에 ½을 더하는 것입니다. 다음 예를 사용하여 계산 원리를 설명하는 것이 가장 좋습니다. 출산율에 대한 데이터를 그룹화했고 중앙값이 무엇인지 알고 싶다고 가정해 보겠습니다.

    자녀 수에 따른 가족 그룹 수

    가족 수

    몇 가지 간단한 계산을 통해 필요한 지표는 195/2 + ½ = 옵션임을 알 수 있습니다. 이것이 무엇을 의미하는지 알아내려면 가장 작은 옵션부터 시작하여 주파수를 순차적으로 축적해야 합니다. 따라서 처음 두 줄의 합은 30이 됩니다. 여기에는 98개의 옵션이 없다는 것이 분명합니다. 그러나 세 번째 옵션(70)의 빈도를 결과에 추가하면 합계는 100이 됩니다. 여기에는 정확히 98번째 옵션이 포함되어 있으며, 이는 중앙값이 두 자녀가 있는 가족이 됨을 의미합니다.

    간격 계열의 경우 일반적으로 다음 공식이 사용됩니다.

    M e = X Me + i Me * (∑f/2 - S Me-1)/f Me, 여기서:

    • X Me - 중앙값 간격의 첫 번째 값입니다.
    • ∑f - 계열 수(빈도의 합)
    • i Ме - 중앙값 범위의 값입니다.
    • f Me - 중앙값 범위의 빈도;
    • S Ме-1은 중앙값 이전 범위의 누적 빈도의 합입니다.

    다시 말하지만, 예가 없으면 이해하기가 매우 어렵습니다. 값에 대한 데이터가 있다고 가정합니다.

    급여, 천 루블.

    누적 주파수

    위 공식을 사용하려면 먼저 중앙값 간격을 결정해야 합니다. 이러한 범위는 누적주파수가 전체 주파수합의 1/2을 초과하거나 그와 같은 범위를 선택합니다. 따라서 510을 2로 나누면 이 기준이 급여 값이 250,000 루블인 간격에 해당한다는 것을 알 수 있습니다. 최대 300,000 문지름. 이제 모든 데이터를 공식으로 대체할 수 있습니다.

    M e = X Me + i Me * (∑f/2 - S Me-1)/f Me = 250 + 50 * (510/2 - 170) / 115 = 286.96,000 루블.

    우리 기사가 도움이 되었기를 바랍니다. 이제 통계에서 중앙값이 무엇인지, 어떻게 계산해야 하는지 명확하게 이해하게 되셨기를 바랍니다.

공유하다: