통계학

정규분포

독기품기 2025. 3. 23. 14:20

균등분포

- 가장 단순한 형태의 연속형 확률 분포

- 연속형 확률변수가 길이가 같은 구간 내에 속할 가능성이 동일한 분포로 확률변수 X가 실수 구간 a와 b사이에서 균등하게 분포한다

- 균등확률변수 X의 pdf f(x)는 상수함수인 f(x) = c이다.

- 확률변수 X가 구간 [a, b]에서 균등하게 분포 -> X ~ U(a,b)

- f(x) = 1/b-a (a<=x<=b)

 

정규분포

- 통계학에서 가장 널리 사용되는 분포로서 이항분포의 근사과정에서 제시

- 표본 본포 이론의 근거를 제시한다는 측면에서도 이론적으로 가장 중요한 확률 분포

- 자연 현상에서 발생하는 데이터에 가장 폭넓게 적용 가능한 확률 분포 [오차의 분포]

- 평균 u를 중심으로 단봉, 좌우대칭의 종모양을 가지며 퍼진 정도는 분산의 크기가 결정

- E(X) = u, Var(X) = σ^2

- 모수 : 평균 u, 분산 : σ^2 이라면 X ~ N ( u, σ^2)

- 평균 u가 확률밀도함수의 최고치를 주는 최빈값과 일치하며 평균 u를 중심으로 좌우대칭을 이루어서 평균과 중앙값도 일치한다

- 확률밀도함수가 모든 실수에 대해 0보다 크지만 평균 u로부터 멀어지면서 그 함숫값이 급격히 작아져서 확률이 u를 중심으로 99.73%에 집중되어 있는 특성이 있다

표준화 과정

- 확률변수 X의 평균이 u 이고 분산이 σ^2이라 할 때 X-u / σ -> 표준화 확률변수

- 임의의 평균과 분산을 갖는 확률변수가 평균 0, 분산1과 같이 고정된 상숫값 0과 1을 평균과 분산으로 갖게 하는 강력한 변환 과정

- E(x-u/ σ ) = 1/ σ [E(x) -u] = 0

- Var(X-u/ σ) = 1/ σ^2 * Var(x) = 1

 

표준정규분포 

- 정규 분포를 따르는 확률변수에 표준화 과정을 적용하여 만든 분포로 표준 정규 확률 변수 z라고 하면 Z = x-u/ σ ~ N(0,1)

- 표준정규분포의 확률밀도함수는 아래 그림과 같다.

- 위의 그림과 같이 표준 정규 분포가 평균 0을 중심으로 좌우대칭인 것을 이용하면

1) P(Z>=0) = 0. 5

2) P(0<=Z<=1) = 0.3413

3) P(-1<=Z<=1) = 0.3413 x 2

4) P(Z>=1.96) 또는 P(Z<=-1.96) = 0.5 - P(0<=Z<=1.96) = 0.025이고 양쪽을 합치면 0.05

5) P(Z<=-1.645) 또는 P(Z>=1.645) = 0.05

6) P(-1.645<=Z<=1.645) = 0.90

7) P(-1.96<=Z<=1.96) = 0.95

 

표준정규분포의 사위 α분위수

- 표준정규분포를 따르는 확률변수 Z가 Zα 보다 클 확률이 α(우측꼬리확률)

- 그래프 그린 후 0.5 - α = B, B값이 속하는 왼쪽 정규 분포의 값이기도 하다

- Z_0.05 = 1.645, Z_0.025 = 1.96와같은 대표적 임계치가 자주 사용

- 표준정규분포는 평균 0을 좌우대칭이므로 Z_0.95 = -1.645, Z_0.975 = -1.96

 

정규본포의 확률계산

- 모든 정규분포는 표준화 과정을 통하여 N(0,1)로 변환하여 확률로 계산

- X ~ N(u, σ^2)일 때 확률변수 X가 특정 실수구간 (a,b)에 속할 확률 P(a<=X<=b)는 적분 과정이 들어가 있어 계산 과정이 복잡하기에 표준화 과정을 통해 표준정규분포로 변환하여 확률을 계산

-  X ~ N(u, σ^2) 일 때 aX+b ~ N(au+b, a^2 σ^2)

- X ~ N(Ux, σ^2_x),  Y ~ N (Uy, σ^2_y)이고 x와 y가 독립이라면 X+Y ~ N(Ux+Uy, σ^2_x + σ^2_y)

 

지수분포

- 어떤 사건의 발생이 포아송 분포를 따라 발생 할 때, 특정 시점으로부터 사건이 처음 발생될 때까지 걸리는 시간에 대한 확률분포

- 확률변수 T를 지정된 시점 (t=0)으로부터 사건이 처음 발생할 때까지 걸리는 시간이라 할 때, 확률변수 T는 지수분포를 따른다.

 

이항분포의 정규근사

- 이항분포 B(n,p)에서 n이 충분히 크고(n>=10), 확률 p가 1/2과 가까울 때 계산과정의 용이함을 위해 이를 정규분포에 근사 시키는 것

-  X ~ B(n,p) => N(np,np(1-p))

연속성 수정

- 이항분포는 이산형 분포이고 정규분포는 연속형 분포

- 연속형 확률변수는 한 점에서의 확률이 0이므로 이항분포를 정규분포에 근사 시킬 때 오차를 줄여 근사확률의 계산의 정밀도를 높이기 위하여 사용

- 분산의 값이 클수록 연속성 수정의 의미가 퇴색

- p(a<=x<=b) = p(a-0.5<=x<=b+0.5)

-p(x>=a) = p(x>=a-0.5)

-p(x<=b) = p(x<=b+0.5)

-p(x=a) = p(a-0.5<=x<a+0.5)

즉 등호가 있을 때 X가 a보다 크면 a-.05를 해주고 X가 b보다 작다면 b+0.5를 해주면 된다. 하지만 등호가 없다면

- p(a<=x<=b) = p(a+0.5<=x<=b-0.5)

 

정규분포가정의 조사

- 많은 경우에 통계적인 절차나 분석 등에서 모집단의 분포가 정규분포를 따른다는 가정을 하고 있는데 정규분포가정을 조사하는 가장 손쉬운 방법은 그래프를 이용하는 것이다.

- 정규점수라는 것은 표준정규분포(평균0, 표준편차1)에서의 이상적인 표본으로 표준정규분포의 확률밀도함수를 등확률 구간으로 나누어 주는 경계값(z값)을 의미

위 그림은 등확률 4개의 점을 표시한 거스로 즉 4개의 점이 확률밀도함수를 5개의 등확률 영역으로 나눈것이 된다. 이 4개의 점 m1~m4는 정규점수가 된다.

위 그림에서 이상적인 x값은 평균이 u이고 분산이 σ^2인 정규모집단에서 등확률 간격으로 나누는 값이라고 할 수 있는데 이는 x= u+ σ_z의 관계식을 이용하여 표준정규분포의 정규점수(mi)로부터 구할 수 있다.

자료의 변환

- 표본이 크기가 작은 경우에 여러 가지 유용한 통계분석을 하려면 모집단이 정규분포를 따른다는 가정이 필요하다. 만약에 추출된 표본이 정규확률그림 등에서 정규분포와 상당히 벗어난 것으로 판명되면 자료 변환을 통하여 정규분포의 형태를 갖도록 시도하는 것도 하나의 방법이 된다.

- 자료의 변환에는 정해진 규칙이 없고 경험적으로 그림 등을 보고 대칭에서 벗어났다면 여러 가지 변환을 시도하여 적절한 것을 찾아야 한다.

 

댓글수0