카이 제곱 분포 법칙. 피어슨 분포(카이제곱 분포)

19세기 말까지 정규분포는 데이터 변동의 보편적인 법칙으로 간주되었습니다. 그러나 K. Pearson은 경험적 빈도가 정규 분포와 크게 다를 수 있다는 점에 주목했습니다. 이를 어떻게 증명할 것인지에 대한 의문이 생겼습니다. 주관적인 그래픽 비교뿐만 아니라 엄격한 정량적 타당성도 요구되었습니다.

기준은 이렇게 만들어졌다 χ 2(카이 제곱)은 경험적(관찰된) 빈도와 이론적(예상된) 빈도 사이의 불일치의 중요성을 테스트합니다. 이는 1900년에 일어났지만 이 기준은 오늘날에도 여전히 사용되고 있습니다. 또한, 다양한 문제를 해결하도록 조정되었습니다. 우선, 이것은 범주형 데이터의 분석입니다. 수량으로 표현되는 것이 아니라 일부 범주에 속하여 표현되는 것입니다. 예를 들어 자동차의 등급, 실험 참가자의 성별, 식물의 종류 등이 있습니다. 이러한 데이터에는 덧셈, 곱셈과 같은 수학적 연산을 적용할 수 없으며 빈도만 계산할 수 있습니다.

우리는 관찰된 빈도를 나타냅니다. 정보(관찰됨), 예상되는 - E (예상). 예를 들어, 주사위를 60번 굴린 결과를 살펴보겠습니다. 대칭적이고 균일한 경우 임의의 면을 얻을 확률은 1/6이므로 각 면을 얻을 것으로 예상되는 수는 10(1/6∙60)입니다. 관찰 빈도와 기대 빈도를 표에 쓰고 히스토그램을 그립니다.

귀무 가설은 빈도가 일관적이라는 것입니다. 즉, 실제 데이터가 예상 데이터와 모순되지 않습니다. 또 다른 가설은 주파수의 편차가 무작위 변동을 넘어서고 불일치가 통계적으로 유의하다는 것입니다. 엄격한 결론을 내리려면 필요합니다.

  1. 관찰 빈도와 예상 빈도 간의 불일치를 요약한 값입니다.
  2. 차이가 없다는 가설이 참인 경우 이 측정값의 분포입니다.

주파수 사이의 거리부터 시작해 보겠습니다. 차이점만 따지면 O - E, 그러한 측정은 데이터의 규모(빈도)에 따라 달라집니다. 예를 들어 20 - 5 = 15 및 1020 - 1005 = 15입니다. 두 경우 모두 차이는 15입니다. 그러나 첫 번째 경우 예상 빈도는 관찰 빈도보다 3배 적고 두 번째 경우에는 1.5에 불과합니다. %. 규모에 의존하지 않는 상대적인 척도가 필요합니다.

다음 사실에 주목해보자. 일반적으로 빈도가 측정되는 범주의 수는 훨씬 더 클 수 있으므로 단일 관찰이 한 범주 또는 다른 범주에 속할 가능성은 매우 작습니다. 그렇다면 그러한 확률 변수의 분포는 희귀 사건의 법칙을 따르게 됩니다. 포아송의 법칙. 알려진 바와 같이 푸아송의 법칙에서는 수학적 기대값과 분산의 값이 일치합니다(매개변수 λ ). 이는 명목변수의 일부 범주에 대한 예상 빈도가 나는동시에 발생하고 분산됩니다. 또한 포아송의 법칙은 관측값이 많을수록 정규화되는 경향이 있습니다. 이 두 가지 사실을 결합하면 관측 빈도와 기대 빈도 간의 일치에 대한 가설이 옳다면 다음을 얻습니다. 많은 관찰로, 표현

정규성은 충분히 높은 주파수에서만 나타난다는 점을 기억하는 것이 중요합니다. 통계에서는 전체 관측치 수(빈도의 합)가 50개 이상, 각 그라데이션의 예상 빈도가 5개 이상이라는 것이 일반적으로 인정됩니다. 이 경우에만 위에 표시된 값은 표준 정규 분포를 따릅니다. . 이 조건이 충족된다고 가정해보자.

표준정규분포는 거의 모든 값이 ±3(3시그마 법칙) 이내의 값을 갖고 있습니다. 따라서 우리는 한 계조에 대한 상대적인 주파수 차이를 얻었습니다. 일반화 가능한 조치가 필요합니다. 모든 편차를 합산할 수는 없습니다. 0이 됩니다(이유를 추측해 보세요). Pearson은 이러한 편차의 제곱을 더할 것을 제안했습니다.

이것은 표시입니다 카이제곱 검정 피어슨. 빈도가 실제로 예상 빈도와 일치하는 경우 기준 값은 상대적으로 작습니다(대부분의 편차가 0에 가깝기 때문). 그러나 기준이 큰 것으로 판명되면 이는 주파수 간의 상당한 차이를 나타냅니다.

Pearson 기준은 해당 값 또는 그보다 더 큰 값이 발생할 가능성이 없을 때 "큰" 기준이 됩니다. 그리고 이러한 확률을 계산하기 위해서는 실험을 여러 번 반복했을 때, 즉 주파수 일치 가설이 맞는 기준의 분포를 알아야 한다.

쉽게 알 수 있듯이 카이제곱 값은 항의 개수에 따라 달라집니다. 각 항목이 전체 항목에 기여하므로 항목이 많을수록 기준의 가치가 커집니다. 따라서 각 수량에 대해 독립적인조건에 따라 자체 배포가 있을 것입니다. 그것은 밝혀졌다 χ 2배포판의 전체 제품군입니다.

그리고 여기서 우리는 민감한 순간에 이르렀습니다. 숫자란 무엇인가 독립적인자귀? 모든 항(즉, 편차)은 독립적인 것처럼 보입니다. K. 피어슨(K. Pearson)도 그렇게 생각했지만, 알고 보니 그의 생각은 틀렸다. 실제로 독립 항의 수는 명목 변수의 등급 수보다 1이 적습니다. N. 왜? 왜냐하면 빈도의 합이 이미 계산된 샘플이 있는 경우 빈도 중 하나는 항상 전체 수와 다른 모든 것의 합계 간의 차이로 결정될 수 있기 때문입니다. 따라서 변형이 다소 줄어들 것입니다. Ronald Fisher는 Pearson이 자신의 기준을 개발한 지 20년 후에 이 사실을 발견했습니다. 심지어 테이블도 다시 작성해야 했습니다.

이때 Fisher는 통계에 새로운 개념을 도입했습니다. 자유도(자유도)는 합계에서 독립 항의 수를 나타냅니다. 자유도 개념은 수학적 설명이 있으며 정규 분포(Student's, Fisher-Snedecor 및 카이제곱 자체)와 관련된 분포에만 나타납니다.

자유도의 의미를 더 잘 이해하기 위해 물리적 비유를 살펴보겠습니다. 공간에서 자유롭게 움직이는 점을 상상해 봅시다. 자유도가 3이기 때문에 3차원 공간에서는 어떤 방향으로도 움직일 수 있다. 점이 표면을 따라 이동하는 경우 3차원 공간에 계속 존재하더라도 이미 2개의 자유도(앞뒤, 왼쪽 및 오른쪽)를 갖게 됩니다. 용수철을 따라 움직이는 점은 다시 3차원 공간에 있지만 자유도는 1뿐입니다. 앞으로 또는 뒤로 이동할 수 있습니다. 보시다시피, 물체가 위치한 공간이 항상 실제 이동의 자유와 일치하는 것은 아닙니다.

거의 같은 방식으로, 통계적 기준의 분포는 이를 계산하는 데 필요한 항보다 더 적은 수의 요소에 따라 달라질 수 있습니다. 일반적으로 자유도 수는 기존 종속성 수만큼 관측치 수보다 적습니다.

따라서 카이 제곱 분포( χ 2)는 각각 자유도 매개변수에 따라 달라지는 분포 계열입니다. 그리고 카이제곱 검정의 정식 정의는 다음과 같다. 분포 χ 2(카이제곱) s 케이자유도는 제곱합의 분포입니다. 케이독립 표준 정규 확률 변수.

다음으로 카이 제곱 분포 함수를 계산하는 공식 자체로 넘어갈 수 있지만 다행히도 모든 것이 오랫동안 계산되었습니다. 관심 확률을 얻으려면 적절한 통계표나 Excel의 기성 함수를 사용할 수 있습니다.

자유도에 따라 카이제곱 분포의 모양이 어떻게 변하는지 보는 것도 흥미롭다.

자유도가 증가할수록 카이제곱 분포는 정규 분포를 따르는 경향이 있습니다. 이는 다수의 독립 확률 변수의 합이 정규 분포를 갖는 중심 극한 정리의 작용으로 설명됩니다. 사각형에 대해서는 아무 말도하지 않습니다)).

Pearson 카이제곱 검정을 사용하여 가설 검정

이제 카이제곱 방법을 사용하여 가설을 테스트해 보겠습니다. 일반적으로 기술은 남아 있습니다. 귀무가설은 관측된 빈도가 예상된 빈도와 일치한다는 것입니다(즉, 동일한 모집단에서 가져왔기 때문에 두 빈도 간에 차이가 없습니다). 그렇다면 산란은 무작위 변동의 한계 내에서 상대적으로 작을 것입니다. 분산 측정은 카이제곱 테스트를 사용하여 결정됩니다. 다음으로, 기준 자체를 임계값(해당 유의 수준 및 자유도에 대한)과 비교하거나, 더 정확하게는 관찰된 p-값을 계산합니다. 귀무 가설이 참인 경우 동일하거나 더 큰 기준 값을 얻을 확률입니다.

왜냐하면 우리는 빈도의 일치에 관심이 있으며 기준이 임계 수준보다 높을 때 가설이 기각됩니다. 저것들. 기준은 일방적이다. 그러나 때로는 (가끔) 왼손 가설을 검정하는 것이 필요합니다. 예를 들어, 경험적 데이터가 이론적 데이터와 매우 유사한 경우입니다. 그러면 기준은 예상치 못한 영역에 속할 수 있지만 왼쪽에 있습니다. 사실 자연 조건에서는 이론적 주파수와 실질적으로 일치하는 주파수를 얻을 가능성이 거의 없습니다. 항상 오류를 발생시키는 임의성이 있습니다. 그러나 그러한 오류가 없다면 데이터가 위조되었을 가능성이 있습니다. 그러나 여전히 우변 가설은 일반적으로 테스트됩니다.

주사위 문제로 돌아가 보겠습니다. 이용 가능한 데이터를 사용하여 카이제곱 검정의 값을 계산해 보겠습니다.

이제 5자유도에서 임계값을 구해보자( 케이) 및 유의수준 0.05( α ) 카이 제곱 분포의 임계값 표에 따라.

즉, 0.05 분위수는 자유도가 5인 카이 제곱 분포(오른쪽 꼬리)입니다. χ 2 0.05; 5 = 11,1.

실제 값과 표로 작성된 값을 비교해 보겠습니다. 3.4 ( χ 2) < 11,1 (χ 2 0.05; 5). 계산된 기준이 더 작은 것으로 나타났는데, 이는 주파수 동일(일치) 가설이 기각되지 않음을 의미합니다. 그림을 보면 상황은 이렇습니다.

계산된 값이 임계 영역 내에 속하면 귀무 가설이 기각됩니다.

p-값도 계산하는 것이 더 정확할 것입니다. 이를 위해서는 주어진 자유도에 대해 표에서 가장 가까운 값을 찾고 해당 유의 수준을 살펴봐야 합니다. 그러나 이것은 마지막 세기입니다. 우리는 컴퓨터, 특히 MS Excel을 사용할 것입니다. Excel에는 카이제곱과 관련된 여러 기능이 있습니다.

다음은 이에 대한 간략한 설명입니다.

CH2.OBR– 왼쪽의 주어진 확률에서 기준의 임계값(통계표에서와 같이)

CH2.OBR.PH– 오른쪽의 주어진 확률에 대한 기준의 임계값입니다. 이 기능은 본질적으로 이전 기능을 복제합니다. 하지만 여기서는 즉시 레벨을 표시할 수 있습니다. α , 1에서 빼는 것보다 이 방법이 더 편리합니다. 대부분의 경우 필요한 것은 분포의 오른쪽 꼬리입니다.

CH2.DIST– 왼쪽의 p-값(밀도 계산 가능)

CH2.DIST.PH– 오른쪽의 p-값.

CHI2.테스트– 두 주파수 범위에 대해 카이제곱 테스트를 즉시 수행합니다. 자유도는 열의 빈도 수보다 1 작은 것으로 간주되어(그렇게 되어야 함) p-값을 반환합니다.

실험을 위해 자유도 5와 알파 0.05에 대한 임계(표 형식) 값을 계산해 보겠습니다. Excel 수식은 다음과 같습니다.

CH2.OBR(0.95;5)

CH2.OBR.PH(0.05;5)

결과는 동일합니다 - 11.0705. 이는 표에 표시된 값입니다(소수점 1자리로 반올림됨).

마지막으로 5자유도 기준에 대한 p-값을 계산해 보겠습니다. χ 2= 3.4. 오른쪽의 확률이 필요하므로 HH(오른쪽 꼬리)를 추가하여 함수를 취합니다.

CH2.DIST.PH(3.4;5) = 0.63857

즉, 자유도가 5인 경우 기준 값을 얻을 확률은 다음과 같습니다. χ 2= 3.4 이상은 거의 64%에 해당합니다. 당연히 가설은 기각되지 않으며(p-값이 5%보다 큼), 빈도는 매우 잘 일치합니다.

이제 카이제곱 검정과 Excel 함수 CHI2.TEST를 사용하여 빈도 일치에 대한 가설을 확인해 보겠습니다.

표도 없고, 번거로운 계산도 없습니다. 관찰 빈도와 기대 빈도가 있는 열을 함수 인수로 지정하여 즉시 p-값을 얻습니다. 아름다움.

이제 당신이 수상한 남자와 주사위 게임을 하고 있다고 상상해 보세요. 1에서 5까지의 점수 분포는 동일하게 유지되지만 그는 26개의 6을 굴렸습니다(총 던진 횟수는 78개가 됩니다).

이 경우 p-값은 0.003으로 나타나며 이는 0.05보다 훨씬 작습니다. 주사위의 타당성을 의심할 만한 충분한 이유가 있습니다. 카이제곱 분포 차트에서 해당 확률은 다음과 같습니다.

여기서 카이제곱 기준 자체는 17.8로 밝혀졌으며 이는 당연히 표 1(11.1)보다 큽니다.

합의의 기준이 무엇인지 설명할 수 있었으면 좋겠습니다. χ 2(Pearson 카이제곱) 및 이를 사용하여 통계적 가설을 테스트하는 방법.

마지막으로 중요한 조건에 대해 다시 한 번! 카이제곱 검정은 모든 빈도의 수가 50을 초과하고, 각 그라데이션의 최소 기대값이 5 이상인 경우에만 제대로 작동합니다. 어떤 범주에서 기대 빈도가 5 미만이지만 모든 빈도의 합이 5를 초과하는 경우 50이면 해당 범주는 가장 가까운 범주와 결합되어 전체 빈도가 5를 초과합니다. 이것이 가능하지 않거나 빈도의 합이 50 미만인 경우 가설을 테스트하는 보다 정확한 방법을 사용해야 합니다. 그들에 대해서는 나중에 이야기하겠습니다.

아래는 카이제곱 검정을 사용하여 Excel에서 가설을 검정하는 방법에 대한 비디오입니다.

카이제곱 분포는 통계 가설을 테스트하기 위해 통계에서 가장 널리 사용되는 분포 중 하나입니다. 카이제곱 분포를 기반으로 가장 강력한 적합도 검정 중 하나인 피어슨 카이제곱 검정이 구성됩니다.

합치 기준은 미지 분포의 가정된 법칙에 대한 가설을 검정하기 위한 기준입니다.

χ2(카이제곱) 검정은 다양한 분포의 가설을 검정하는 데 사용됩니다. 이것이 그의 존엄성입니다.

기준의 계산식은 다음과 같습니다.

여기서 m과 m'은 각각 경험적 빈도와 이론적 빈도입니다.

문제의 분포;

n은 자유도 수입니다.

이를 확인하려면 경험적(관찰된) 빈도와 이론적(정규 분포를 가정하여 계산된) 빈도를 비교해야 합니다.

경험적 빈도가 계산되거나 예상되는 빈도와 완전히 일치하는 경우 S(E – T) = 0이고 χ2 기준도 0과 같습니다. S(E – T)가 0이 아닌 경우 이는 계산된 빈도와 계열의 경험적 빈도 사이에 불일치가 있음을 나타냅니다. 이러한 경우 이론적으로 0에서 무한대까지 변할 수 있는 χ2 기준의 유의성을 평가할 필요가 있습니다. 이는 실제로 얻은 χ2ф 값과 임계값(χ2st)을 비교하여 이루어지며, χ2ф가 χ2는 허용되는 유의 수준(a)과 자유도(n)입니다.

확률변수 χ2의 확률값 분포는 연속적이고 비대칭입니다. 자유도(n)에 따라 달라지며 관측 횟수가 증가할수록 정규 분포에 가까워집니다. 따라서 이산 분포 평가에 χ2 기준을 적용하는 것은 특히 작은 표본에서 그 값에 영향을 미치는 일부 오류와 관련이 있습니다. 보다 정확한 추정치를 얻으려면 변형 계열에 배포된 표본에 옵션이 50개 이상 있어야 합니다. χ2 기준을 올바르게 적용하려면 극단적인 클래스의 변이 빈도가 5보다 작아서는 안 됩니다. 5개 미만인 경우에는 이웃 클래스의 주파수와 결합하여 총량이 5 이상이 되도록 합니다. 주파수 조합에 따라 클래스 수(N)가 감소합니다. 자유도의 수는 변형의 자유에 대한 제한 수를 고려하여 2차 클래스 수에 따라 설정됩니다.



χ2 기준을 결정하는 정확도는 이론적 주파수(T) 계산의 정확도에 크게 좌우되므로, 경험적 주파수와 계산된 주파수 간의 차이를 얻기 위해서는 반올림되지 않은 이론적 주파수를 사용해야 합니다.

예를 들어, 인문학에 통계적 방법을 적용하는 데 전념하는 웹사이트에 게시된 연구를 살펴보겠습니다.

카이제곱 검정을 사용하면 정규 분포 여부에 관계없이 빈도 분포를 비교할 수 있습니다.

빈도는 사건이 발생하는 횟수를 의미합니다. 일반적으로 사건의 발생 빈도는 변수를 이름의 척도로 측정하고 빈도 외에 다른 특성을 선택하는 것이 불가능하거나 문제가 있는 경우에 처리됩니다. 즉, 변수가 질적 특성을 갖는 경우입니다. 또한 많은 연구자들은 시험 점수를 수준(높음, 평균, 낮음)으로 변환하고 점수 분포 테이블을 구축하여 이러한 수준에 있는 사람의 수를 알아내는 경향이 있습니다. 수준 중 하나(범주 중 하나)에서 사람 수가 실제로 더 많다(적다)는 것을 증명하기 위해 카이제곱 계수도 사용됩니다.

가장 간단한 예를 살펴보겠습니다.

자존감을 알아보기 위해 어린 청소년들을 대상으로 한 테스트가 실시되었습니다. 시험 점수는 높음, 중간, 낮음의 세 가지 수준으로 변환되었습니다. 빈도는 다음과 같이 분포되었습니다.

고(B) 27명.

평균 (C) 12명.

하(L) 11명

대다수의 아이들이 자존감이 높다는 것은 자명한 사실이지만 이는 통계적으로 입증될 필요가 있습니다. 이를 위해 카이제곱 테스트를 사용합니다.

우리의 임무는 얻은 경험적 데이터가 이론적으로 동일하게 가능한 데이터와 다른지 확인하는 것입니다. 이렇게 하려면 이론적인 주파수를 찾아야 합니다. 우리의 경우 이론적 빈도는 동일 확률 빈도이며 모든 빈도를 더한 후 범주 수로 나누어 구합니다.

우리의 경우:

(B + C + H)/3 = (27+12+11)/3 = 16.6

카이제곱 검정 계산 공식:

χ2 = ∑(E - T)I / T

우리는 테이블을 만듭니다.

마지막 열의 합계를 찾습니다.

이제 임계값 표(부록의 표 1)를 사용하여 기준의 임계값을 찾아야 합니다. 이를 위해서는 자유도(n)가 필요합니다.

n = (R - 1) * (C - 1)

여기서 R은 테이블의 행 수이고 C는 열 수입니다.

우리의 경우에는 열이 하나(원래 경험적 빈도를 의미)와 행(범주)이 세 개뿐이므로 공식이 변경됩니다. 열을 제외합니다.

n = (R - 1) = 3-1 = 2

오류 확률 p≤0.05이고 n = 2인 경우 임계값은 χ2 = 5.99입니다.

얻은 경험적 값은 임계값보다 큽니다. 즉, 주파수 차이가 중요합니다(χ2= 9.64; p≤0.05).

보시다시피 기준 계산은 매우 간단하고 시간이 많이 걸리지 않습니다. 카이제곱 검정의 실제 가치는 엄청납니다. 이 방법은 설문지에 대한 응답을 분석할 때 가장 유용합니다.


좀 더 복잡한 예를 살펴보겠습니다.

예를 들어, 한 심리학자는 교사가 여학생보다 남학생에게 더 편견이 있다는 것이 사실인지 알고 싶어합니다. 저것들. 여자를 칭찬할 가능성이 더 높습니다. 이를 위해 심리학자는 교사가 작성한 학생들의 특성을 "활동적", "부지런함", "훈련됨"이라는 세 단어의 발생 빈도로 분석했으며 해당 단어의 동의어도 계산했습니다. 단어 발생 빈도에 대한 데이터가 표에 입력되었습니다.

얻은 데이터를 처리하기 위해 카이제곱 테스트를 사용합니다.

이를 위해 경험적 빈도 분포 테이블을 작성합니다. 우리가 관찰하는 주파수는 다음과 같습니다.

이론적으로 우리는 주파수가 균등하게 분포될 것으로 예상합니다. 빈도는 남학생과 여학생 사이에 비례적으로 분배됩니다. 이론적인 빈도표를 만들어 봅시다. 이렇게 하려면 행 합계에 열 합계를 곱하고 결과 숫자를 총 합계로 나눕니다.

계산을 위한 최종 테이블은 다음과 같습니다.

χ2 = ∑(E - T)I / T

n = (R - 1), 여기서 R은 테이블의 행 수입니다.

우리의 경우 카이제곱 = 4.21입니다. n = 2.

기준의 임계값 표를 사용하여 n = 2이고 오류 수준이 0.05인 경우 임계값은 χ2 = 5.99입니다.

결과 값이 임계값보다 작습니다. 이는 귀무가설이 채택되었음을 의미합니다.

결론: 교사는 아이의 특성을 작성할 때 아이의 성별을 중요하게 생각하지 않습니다.


결론.

K. Pearson은 수학적 통계(많은 기본 개념) 개발에 크게 기여했습니다. Pearson의 주요 철학적 입장은 다음과 같이 공식화됩니다. 과학의 개념은 감각 경험을 설명하고 정리하는 수단인 인공적인 구성입니다. 그것들을 과학적 문장으로 연결하는 규칙은 과학철학인 과학문법에 의해 분리됩니다. 보편적인 학문인 응용 통계를 사용하면 서로 다른 개념과 현상을 연결할 수 있지만 Pearson에 따르면 주관적입니다.

K. Pearson의 건축물 중 다수는 인류학 자료를 사용하여 직접적으로 관련되거나 개발되었습니다. 그는 과학의 모든 분야에서 사용되는 수많은 수치 분류 방법과 통계 기준을 개발했습니다.


문학.

1. Bogolyubov A.N. 수학. 역학. 전기 참고서. - 키예프: 나우코바 둠카, 1983.

2. Kolmogorov A. N., Yushkevich A. P. (eds.). 19세기 수학. -M .: 과학. - 티.아이.

3. 3. Borovkov A.A. 수학 통계. M.: 나우카, 1994.

4. 8. Feller V. 확률 이론 및 그 적용 소개. - M.: 미르, T.2, 1984.

5. 9. Harman G., 현대 요인 분석. - M .: 통계, 1972.

Pearson(카이제곱), 학생 및 피셔 분포

정규분포를 사용하여 현재 통계 데이터 처리에 자주 사용되는 세 가지 분포를 정의합니다. 이러한 분포는 이 책의 뒷부분에서 여러 번 나타납니다.

피어슨 분포(카이-제곱) – 확률 변수 분포

무작위 변수는 어디에 있습니까? 엑스 1 , 엑스 2 ,…, Xn독립적이고 동일한 분포를 가짐 N(0,1). 이 경우 용어의 수, 즉 N, 카이제곱 분포의 "자유도"라고 합니다.

카이제곱 분포는 분산을 추정할 때(신뢰 구간 사용), 주로 유한한 수의 값을 사용하는 정성적(범주화된) 변수에 대한 일치, 동질성, 독립성에 대한 가설을 테스트할 때 및 통계 데이터의 기타 여러 작업에서 사용됩니다. 분석.

분포 스튜던트 t는 랜덤 변수의 분포입니다.

무작위 변수는 어디에 있습니까? 그리고 엑스독립적인, 표준정규분포를 가지고 있다 N(0.1) 및 엑스– 카이 분포 – 정사각형 c N자유도. 여기서 N학생 분포의 "자유도"라고 합니다.

학생 분포는 맥주 공장에서 일했던 영국 통계학자 W. Gosset에 의해 1908년에 도입되었습니다. 이 공장에서는 경제적, 기술적 결정을 내리기 위해 확률론적, 통계적 방법이 사용되었으므로 경영진은 V. Gosset이 자신의 이름으로 과학 기사를 출판하는 것을 금지했습니다. 이러한 방식으로 V. Gosset이 개발한 확률적, 통계적 방법의 형태로 영업 비밀과 "노하우"가 보호되었습니다. 그러나 그는 "학생"이라는 가명으로 출판할 기회를 가졌습니다. Gosset-Student의 역사를 보면 100년 전에도 영국의 관리자들은 확률-통계 방법의 경제적 효율성이 더 크다는 것을 알고 있었습니다.

현재 Student 분포는 실제 데이터 분석에 사용되는 가장 잘 알려진 분포 중 하나입니다. 신뢰 구간을 사용하여 수학적 기대값, 예측값 및 기타 특성을 추정할 때, 수학적 기대값에 대한 가설 테스트, 회귀 계수, 표본 동질성 가설 등에 사용됩니다. .

피셔(Fisher) 분포는 랜덤 ​​변수의 분포입니다.

무작위 변수는 어디에 있습니까? × 1그리고 X 2독립이며 자유도를 갖는 카이제곱 분포를 가집니다. 케이 1 그리고 케이 2 각기. 동시에 부부는 (케이 1 , 케이 2 ) – Fisher 분포의 "자유도" 쌍, 즉, 케이 1 는 분자의 자유도이며, 케이 2 - 분모의 자유도. 확률변수의 분포 에프이 이름은 영국의 위대한 통계학자 R. Fisher(1890-1962)의 이름을 따서 명명되었으며, 그의 작품에서 이를 적극적으로 사용했습니다.

Fisher 분포는 회귀 분석, 분산 균등 및 기타 응용 통계 문제에서 모델의 적절성에 대한 가설을 테스트할 때 사용됩니다.

카이제곱, 스튜던트 및 피셔 분포 함수, 그 밀도 및 특성에 대한 표현식과 실제 사용에 필요한 표는 전문 문헌에서 찾을 수 있습니다(예를 들어 참조).

생물학적 현상에 대한 정량적 연구에는 이러한 현상을 설명할 수 있는 가설의 생성이 반드시 필요합니다. 특정 가설을 테스트하기 위해 일련의 특수 실험을 수행하고 얻은 실제 데이터를 이 가설에 따라 이론적으로 예상되는 데이터와 비교합니다. 우연의 일치가 있다면 이는 가설을 받아들일 충분한 이유가 될 수 있습니다. 실험 데이터가 이론적으로 예상된 데이터와 잘 일치하지 않으면 제안된 가설의 정확성에 대해 큰 의심이 생깁니다.

실제 데이터가 예상(가설)과 일치하는 정도는 카이제곱 테스트를 통해 측정됩니다.

- 특성의 실제 관찰 값 나-즉, 주어진 그룹에 대해 이론적으로 예상되는 숫자 또는 부호(지표), 케이- 데이터 그룹의 수.

이 기준은 K. Pearson이 1900년에 제안했으며 때로는 Pearson 기준이라고도 합니다.

일.한 쪽 부모로부터 한 가지 인자를, 다른 쪽 부모로부터 한 가지 인자를 물려받은 164명의 어린이 중 해당 인자가 46명, 해당 인자가 50명, 두 가지 모두가 68명이었습니다. 그룹 간 1:2:1 비율에 대한 기대 빈도를 계산하고 Pearson 테스트를 사용하여 경험적 데이터의 일치 정도를 결정합니다.

해결책:관찰된 빈도의 비율은 46:68:50이며 이론적으로 예상되는 41:82:41입니다.

유의수준을 0.05로 설정하겠습니다. 자유도가 동일한 경우 이 유의성 수준에 대한 Pearson 기준의 테이블 값은 5.99로 나타났습니다. 따라서 실험데이터와 이론데이터의 일치성에 대한 가설은 다음과 같이 받아들여질 수 있다.

카이제곱 검정을 계산할 때 더 이상 분포의 필수 정규성에 대한 조건을 설정하지 않습니다. 카이제곱 검정은 가정에서 자유롭게 선택할 수 있는 모든 분포에 사용할 수 있습니다. 이 기준에는 어느 정도 보편성이 있습니다.

Pearson 테스트의 또 다른 적용은 경험적 분포를 가우스 정규 분포와 비교하는 것입니다. 또한 분포의 정규성을 확인하기 위한 기준군으로 분류할 수 있다. 유일한 제한은 이 기준을 사용할 때 값(옵션)의 총 개수가 충분히 커야 하고(최소 40개), 개별 클래스(간격)의 값 개수가 5개 이상이어야 한다는 점입니다. 그렇지 않으면 인접한 간격을 결합해야 합니다. 분포의 정규성을 확인할 때의 자유도는 다음과 같이 계산해야 합니다.

    1. 피셔 기준.

이 모수적 테스트는 정규 분포 모집단의 분산이 동일하다는 귀무가설을 테스트하는 데 사용됩니다.

또는.

표본 크기가 작을 경우 분산이 동일한 경우에만 스튜던트 검정을 올바르게 사용할 수 있습니다. 따라서 표본평균의 동일성을 검정하기 전에 스튜던트 t 검정을 사용한 타당성을 확인하는 것이 필요하다.

어디 N 1 , N 2 샘플 크기, 1 , 2 이 샘플의 자유도 수.

표를 사용할 때는 분산이 큰 표본의 자유도 수가 표 열 번호로 선택되고, 분산이 작은 표본의 경우 표 행 번호로 선택된다는 점에 주의해야 합니다.

유의수준 의 경우 수학적 통계표에서 표 값을 찾습니다. 그렇다면 선택한 유의 수준에 대해 분산 평등 가설이 기각됩니다.

예.토끼의 체중에 대한 코발트의 영향을 연구했습니다. 실험은 실험 동물과 대조 동물의 두 그룹에서 수행되었습니다. 실험 대상자들은 염화코발트 수용액 형태의 다이어트 보조제를 받았습니다. 실험 중 체중 증가량은 그램 단위였습니다.

제어

카이제곱 분포를 고려해보세요. MS EXCEL 기능 사용CH2.DIST() 분포함수와 확률밀도를 그려보고, 수학적 통계 목적으로 이 분포를 사용하는 방법을 설명하겠습니다.

카이제곱 분포 (엑스 2, XI2,영어- 제곱분포) 다양한 수학적 통계 방법에 사용됩니다.

  • 건설 중;
  • 에 ;
  • at (경험적 데이터가 이론적 분포 함수에 대한 우리의 가정과 일치합니까, 영어 적합도)
  • at(두 범주형 변수 사이의 관계를 결정하는 데 사용됨, 영어 카이제곱 연관성 검정).

정의: x 1 , x 2 , …, x n이 N(0;1)에 걸쳐 분포된 독립 확률 변수인 경우 확률 변수 Y=x 1 2 + x 2 2 +…+ x n 2의 분포는 다음과 같습니다. 분포 X 2 n 자유도를 가지고 있습니다.

분포 X 2 라는 하나의 매개변수에 따라 달라집니다. 자유도 (df, ~의자유). 예를 들어 건물을 지을 때 자유도 수 df=n-1과 같습니다. 여기서 n은 크기입니다. 견본.

분포 밀도 X 2 다음 공식으로 표현됩니다.

함수 그래프

분포 X 2 비대칭 모양을 가지며 n과 같고 2n과 같습니다.

안에 그래프 시트의 예제 파일주어진 분포 밀도 그래프확률과 누적 분포 함수.

유용한 속성 CH2 분포

x 1 , x 2 , …, x n을 분산된 독립 확률 변수로 설정합니다. 보통법동일한 매개변수 μ 및 σ를 사용하고, 평균 X~이다 산술 평균이 x 값.
그런 다음 무작위 변수 와이동일한

그것은 가지고있다 X 2 -분포 n-1 자유도를 가지고 있습니다. 정의를 사용하면 위의 표현식을 다음과 같이 다시 작성할 수 있습니다.

따라서, 샘플링 분포통계 y, at 견본~에서 정규 분포, 그것은 X 2 -분포 n-1 자유도를 가지고 있습니다.

이 속성은 다음과 같은 경우에 필요합니다. 왜냐하면 분산양수만 가능하며 X 2 -분포그것을 평가하는 데 사용됩니다. 와이 d.b. >0, 정의에 명시된 바와 같습니다.

MS EXCEL의 CH2 분포

MS EXCEL에서는 2010 버전부터 X 2 -배포다음을 계산할 수 있는 특수 함수 CHISQ.DIST()가 있습니다. 확률밀도(위 공식 참조) 및 (랜덤 변수 X가 CI2-분포, x, P(X보다 작거나 같은 값을 취합니다.<= x}).

메모: 왜냐하면 CH2 분포특별한 경우라면 공식은 다음과 같습니다. =GAMMA.DIST(x;n/2;2;TRUE)양의 정수 n에 대해 공식과 동일한 결과를 반환합니다. =CHI2.DIST(x;n; 참)또는 =1-CHI2.DIST.PH(x;n) . 그리고 공식 =GAMMA.DIST(x;n/2;2;FALSE)수식과 동일한 결과를 반환합니다. =CHI2.DIST(x;n; 거짓), 즉. 확률밀도 CH2 분포.

HI2.DIST.PH() 함수는 다음을 반환합니다. 분포 함수, 보다 정확하게는 오른쪽 확률, 즉 P(X > x). 평등이 사실임이 분명하다
=CHI2.DIST.PH(x;n)+CHI2.DIST(x;n;TRUE)=1
왜냐하면 첫 번째 항은 확률 P(X > x)를 계산하고, 두 번째 항은 P(X)를 계산합니다.<= x}.

MS EXCEL 2010 이전에는 EXCEL에는 오른쪽 확률을 계산할 수 있는 CHIDIST() 함수만 있었습니다. P(X > x). 새로운 MS EXCEL 2010 함수 XI2.DIST() 및 XI2.DIST.PH()의 기능은 이 함수의 기능을 포괄합니다. CH2DIST() 함수는 호환성을 위해 MS EXCEL 2010에 남아 있습니다.

CHI2.DIST()는 반환하는 유일한 함수입니다. chi2 분포의 확률 밀도(세 번째 인수는 FALSE여야 합니다). 나머지 함수는 반환됩니다. 누적 분포 함수, 즉. 확률 변수가 지정된 범위의 값을 취할 확률: P(X<= x}.

위의 MS EXCEL 함수는 에 나와 있습니다.

확률변수 X가 주어진 값보다 작거나 같은 값을 가질 확률을 찾아봅시다. 엑스:피(엑스<= x}. Это можно сделать несколькими функциями:

CHI2.DIST(x; n; 참)
=1-HI2.DIST.PH(x;n)
=1-CHI2DIST(x;n)

CH2.DIST.PH() 함수는 소위 오른쪽 확률인 확률 P(X > x)를 반환하므로 P(X)를 구합니다.<= x}, необходимо вычесть ее результат от 1.

확률변수 X가 주어진 값보다 큰 값을 가질 확률을 찾아봅시다. 엑스: P(X > x). 이는 여러 기능을 사용하여 수행할 수 있습니다.

1-CHI2.DIST(x; n; TRUE)
=HI2.DIST.PH(x;n)
=CHI2DIST(x;n)

역 chi2 분포 함수

역함수는 계산에 사용됩니다. 알파- , 즉. 값을 계산하기 위해 엑스주어진 확률에 대해 알파, 그리고 엑스다음 표현식을 만족해야 합니다. P(X<= x}=알파.

CH2.INV() 함수는 계산에 사용됩니다. 정규 분포 분산의 신뢰 구간.

CHI2.OBR.PH() 함수는 다음을 계산하는 데 사용됩니다. 유의 수준이 함수에 대한 인수로 지정되면(예: 0.05) 함수는 P(X>x)=0.05인 확률 변수 x의 값을 반환합니다. 비교하자면, XI2.INR() 함수는 P(X<=x}=0,05.

MS EXCEL 2007 및 이전 버전에서는 HI2.OBR.PH() 대신 HI2OBR() 함수가 사용되었습니다.

위의 기능은 서로 바뀔 수 있습니다. 다음 수식은 동일한 결과를 반환합니다.
=CHI.OBR(알파;n)
=HI2.OBR.PH(1-알파;n)
=CHI2INV(1- 알파;n)

계산의 몇 가지 예는 다음과 같습니다. 함수 시트의 예제 파일.

CH2 분포를 사용하는 MS EXCEL 기능

다음은 러시아어와 영어 함수 이름 간의 대응입니다.
CH2.DIST.PH() - 영어. 이름 CHISQ.DIST.RT, 즉 CHI-제곱 분포 오른쪽 꼬리, 오른쪽 꼬리가 있는 카이-제곱(d) 분포
CH2.OBR() - 영어. 이름 CHISQ.INV, 즉 CHI 제곱 분포 INVerse
CH2.PH.OBR() - 영어. 이름 CHISQ.INV.RT, 즉 CHI 제곱 분포 INVerse 오른쪽 꼬리
CH2DIST() - 영어. 이름 CHIDIST, CHISQ.DIST.RT와 동일한 기능
CH2OBR() - 영어. 이름 CHIINV, 즉 CHI 제곱 분포 INVerse

분포 모수 추정

왜냐하면 대개 CH2 분포수학적 통계 목적으로 사용됩니다(계산 신뢰 구간, 가설 테스트 등),실제 값의 모델을 구성하는 경우는 거의 없으므로 이 분포에 대한 분포 모수 추정에 대한 논의는 여기서 수행되지 않습니다.

정규분포에 의한 CI2 분포의 근사

자유도 n>30 분배 X 2잘 근사됨 정규 분포~와 함께 평균값μ=n이고 분산 σ=2*n(참조 예제 시트 파일 근사치).

공유하다: