확률분포

확률변수란?

- random variable, 각각의 근원사건들에 실숫값을 대응시키는 함수이며 , X, Y, ....등으로 표시한다.

- 확률변수에 쓰인 확률의 의미는 실험에 하기에 앞서 어떤 값을 갖게 될지 알 수 없는 불확실성을 표현한것

- 확률에 따라 변하는 수로, 표본공간으로부터 실수값으로의 반환함수

- 확률변수의 관측값에 대응하는 것은 영문 소문자로 표현

- 유한하거나 무한이라도 셀 수 있는 경우에 이를 이산확률변수라 한다.

- 연속적인 구간에 속하는 모든 값을 다 가질 수 있는 연속확률변수도 있다.

확률분포란?

- 확률변수가 갖는 값들과 그에 대응하는 확률값을 나타내는 것으로 나열된 표나 수식으로 표현

- 확률변수가 특정한 값(이산형) 또는 특정 구간(연속형)에 속할 가능성에 대한 확률을 표 또는 수식 등으로 요약하여 표현한 것이라 할 수 있다.

- 보통은 확률변수 X의 분포라고 한다.

- 확률함수 : 확률분포를 수식으로 표현한 것

- 통계학에서는 확률분포를 수식으로 표현할 수 있는 경우에는 확률함수로 표현하는 것을 권장한다. 왜냐하면 수식으로 표현하였을 때 기댓값, 분산, 등 특성치 계산하는데 유용하기 때문이다.

이산형확률변수

- 확률변수가 가질 수 있는 값이 셀 수 있는 확률변수

- 무한하더라도 자연수와 매칭이라면 이산형확률변수로 취급

- 각 이산점에서 0이 아닌 확률을 갖는 함수

- 가질 수 있는 값의 수가 자연수와 일대일로 대응되는 확률변수

확률질량함수

- 이산형확률변수 x의 각 이산점에 대한 확률의 크기를 표현한 함수

- 이산형확률변수의 X의 확률질량함수는 P(X=x)로 표현

연속형확률변수

- 확률변수가 가질 수 있는 값이 특정한 실수 구간에서 주어지는 확률변수

- 실수의 조밀성때문에 P(x=a), 즉 한 점에서의 확률은 0이다.

- 특정 구간에 속할 가능성을 확률로 표현

확률밀도함수

- 이산형확률변수와 유사한 개념

- 연속형확률변수가 특정한 구간에 속할 확률을 구하는데 사용

- 연속형확률변수의 확률밀도함수는 f(x)로 표현

- 모든 x값에 대하여 f(x) >= 0

- x의 모든 가능한 값에 대한 확률은 ∫f(x)dx = 1이다. - ∞, ∞까지

- x가 구간 (a,b)에 속할 확률은 p(a<=x<=b) = ∫f(x)dx로 구간은 a,b

누적분포함수

- 확률변수가 특정값 이하를 가질 확률을 의미

- 확률변수 x의 누적분포함수는 F(x)로 표현, (F(x) = P(X<=x))

- 연속형확률변수에서는 한 점의 확률이 0이기때문에 특정한 점의 포험 여부가 누적확률의 계산에 영향을 미치진 않지만 이산형확률변수에서는 특정한 점의 포함 여부가 누적확률의 계산에 영향을 미치기에 주의

- 이산형확률변수의 누적분포함수는 계단함수 형태, 발생 가능한 이산점에서의 확률의 크기가 계단의 높이이다.

- 연속형확률변수의 누적분포함수는 구간별로 값을 구해야 하며, 누적분포함수를 미분하면 확률밀도함수가 된다.

누적분포함수의 특징

- (증가함수) 만약 x,y∈R이며 x≤y라면, F(x)≤F(y)

- (우연속함수) 임의의 x∈R에 대하여, F(x+)=F(x)

- F(−∞)=0

- F(∞)=1

결합분포함수

- 결합분포표 : 두개 이상의 확률변수에 대한 분포를 동시에 나타내는 것

- 두 확률변수가 이산형이라면 결합 확률 질량함수

- 두 확률변수가 연속형이라면 결합 확률 밀도함수

주변확률분포함수

- 결합확률분포에서 각 확률변수에 대한 분포를 나타내는것

- 두 개의 변수로 이루어진 결합확률분포를 하나의 변수로 표현하기 위한 것

- 두 확률변수 X와 Y가 독립이라면 아래의 특징을 가진다.

기댓값(평균)

- 분포의 무게중심

- 통계학에서는 확률변수 X의 기댓값을 X가 갖는 확률분포의 모평균이라 하고 u로 표기

- 확률변수 X의 평균 u는 E(X)로 표기

- E(ax+b) = aE(x) + b

- E(ax+by+c) = aE(x) + bE(y) + c

분산

- 확률변수가 평균을 중심으로 퍼진 정도를 나타내는 척도

- 분산이 크다는 것은 확률변수의 관찰 가능한 값들이 평균을 중심으로 넓게 분포되어있음을 의미하며, 분산이 작다는 것은 평균을 중심으로 조밀하게 분포되어있음을 의미

- 하나의 확률 변수의 분산을 근거로 분산이 크다, 작다 말할 수 없고 두개 이상의 확률변수가 있을 때 분산의 값이 큰 확률변수가 분산이 작은 확률변수에 비해 상대적으로 넓게 분포한다는 것을 의미한다.

- X의 표준편차는 분산의 양의 제곱근으로서 sd(X)로 나타낸다

- 자료가 이산형이라면 E(X)는 X * P(X=x), E(X^2)은 X^2 * P(X=x)

- 자료가 연속형이라면 적분할 때 E(X)는 x를 곱해주고 E(X^2)은 x^2를 곱해주고 적분한다.

- Var(ax+b) = a^2Var(x)

- Var(x+-y) = Var(x) + Var(y) +-2Cov(x,y), 독립이라면 Var(x) + Var(y)

공분산

- 두 개의 확률변수의 관계를 보여주는 값으로 확률변수 X와 Y에 대해 X가 변할 때 Y가 변하는 정도를 나타낸 값

- 두 확률변수 X, Y가 서로 독립이라면 E(XY) = E(X)E(Y)이므로 공분산은 0이된다. 즉 Cov(X,Y) = E(XY)-E(X)E(Y) = 0

- 하지만 공분산이 0이라고 하더라도 항상 독립이라 말할 수 없다.

- 공분산은 측정단위에 따라 그 값이 달라진다는 가장 큰 단점을 가지고 있어 두 변수가 얼마나 연관되어있는지 그 강도를 잘 보여주지 못한다.

상관계수

- 두 확률변수 사이의 선형관계정도를 나타냄

- 상관계수의 부호는 공분산의 부호와 같다

- 값의 범위는 -1보다 크거나 같고 1보다 작거나 같아야 한다.

- 직선이 일치하는 경우에 1 또는 -1이 된다.

- 측정단위에 영향을 받지 않음

- X와 Y의 상관계수는 항상 -1과 1사이의 값을 갖으며 정확한 선형관계 Y = aX+b가 성립할 때 상관계수의 값은 1또는 -1

- X와 Y의 상관계수는 각 확률변수에 상수가 더해지거나 감해지는 것에 영향을 받지 않으며, 상수가 곱해진 경우에는 그 부호에만 영향을 받는다.

- 두 개의 확률변수 X, Y가 독립이면 공분산은 0이되므로 상관계수도 0이 된다.

사진 출처:

https://product.kyobobook.co.kr/detail/S000060624898

통계학: 파이썬을 이용한 분석 | 인하대학교 통계학과 - 교보문고

통계학: 파이썬을 이용한 분석 | 오늘날 통계학을 이용한 데이터 분석에서 통계소프트웨어의 사용은 거의 필수적이다. 파이썬(Python)을 이용하여 실습과 분석을 할 수 있도록 설명한 책이다. 파

product.kyobobook.co.kr

저작자표시 (새창열림)

'통계학' 카테고리의 다른 글

정규분포 (0)	2025.03.23
이항분포와 그와 관련된 분포들 (1)	2025.03.20
두 변수 자료의 요약, 확률 (2)	2024.07.26
수치를 통한 연속형 자료의 요약 (0)	2024.07.21
통계학-1 (0)	2024.07.09

베이글 맛있다

확률분포

'통계학' 카테고리의 다른 글

티스토리툴바

확률분포

'통계학' 카테고리의 다른 글

관련글

티스토리툴바