확률변수란?
- random variable, 각각의 근원사건들에 실숫값을 대응시키는 함수이며 , X, Y, ....등으로 표시한다.
- 확률변수에 쓰인 확률의 의미는 실험에 하기에 앞서 어떤 값을 갖게 될지 알 수 없는 불확실성을 표현한것
- 확률에 따라 변하는 수로, 표본공간으로부터 실수값으로의 반환함수
- 확률변수의 관측값에 대응하는 것은 영문 소문자로 표현
- 유한하거나 무한이라도 셀 수 있는 경우에 이를 이산확률변수라 한다.
- 연속적인 구간에 속하는 모든 값을 다 가질 수 있는 연속확률변수도 있다.
확률분포란?
- 확률변수가 갖는 값들과 그에 대응하는 확률값을 나타내는 것으로 나열된 표나 수식으로 표현
- 확률변수가 특정한 값(이산형) 또는 특정 구간(연속형)에 속할 가능성에 대한 확률을 표 또는 수식 등으로 요약하여 표현한 것이라 할 수 있다.
- 보통은 확률변수 X의 분포라고 한다.
- 확률함수 : 확률분포를 수식으로 표현한 것
- 통계학에서는 확률분포를 수식으로 표현할 수 있는 경우에는 확률함수로 표현하는 것을 권장한다. 왜냐하면 수식으로 표현하였을 때 기댓값, 분산, 등 특성치 계산하는데 유용하기 때문이다.
이산형확률변수
- 확률변수가 가질 수 있는 값이 셀 수 있는 확률변수
- 무한하더라도 자연수와 매칭이라면 이산형확률변수로 취급
- 각 이산점에서 0이 아닌 확률을 갖는 함수
- 가질 수 있는 값의 수가 자연수와 일대일로 대응되는 확률변수
확률질량함수
- 이산형확률변수 x의 각 이산점에 대한 확률의 크기를 표현한 함수
- 이산형확률변수의 X의 확률질량함수는 P(X=x)로 표현
연속형확률변수
- 확률변수가 가질 수 있는 값이 특정한 실수 구간에서 주어지는 확률변수
- 실수의 조밀성때문에 P(x=a), 즉 한 점에서의 확률은 0이다.
- 특정 구간에 속할 가능성을 확률로 표현
확률밀도함수
- 이산형확률변수와 유사한 개념
- 연속형확률변수가 특정한 구간에 속할 확률을 구하는데 사용
- 연속형확률변수의 확률밀도함수는 f(x)로 표현
- 모든 x값에 대하여 f(x) >= 0
- x의 모든 가능한 값에 대한 확률은 ∫f(x)dx = 1이다. - ∞, ∞까지
- x가 구간 (a,b)에 속할 확률은 p(a<=x<=b) = ∫f(x)dx로 구간은 a,b
누적분포함수
- 확률변수가 특정값 이하를 가질 확률을 의미
- 확률변수 x의 누적분포함수는 F(x)로 표현, (F(x) = P(X<=x))
- 연속형확률변수에서는 한 점의 확률이 0이기때문에 특정한 점의 포험 여부가 누적확률의 계산에 영향을 미치진 않지만 이산형확률변수에서는 특정한 점의 포함 여부가 누적확률의 계산에 영향을 미치기에 주의
- 이산형확률변수의 누적분포함수는 계단함수 형태, 발생 가능한 이산점에서의 확률의 크기가 계단의 높이이다.
- 연속형확률변수의 누적분포함수는 구간별로 값을 구해야 하며, 누적분포함수를 미분하면 확률밀도함수가 된다.
누적분포함수의 특징
- (증가함수) 만약 x,y∈R이며 x≤y라면, F(x)≤F(y)
- (우연속함수) 임의의 x∈R에 대하여, F(x+)=F(x)
- F(−∞)=0
- F(∞)=1
결합분포함수
- 결합분포표 : 두개 이상의 확률변수에 대한 분포를 동시에 나타내는 것
- 두 확률변수가 이산형이라면 결합 확률 질량함수
- 두 확률변수가 연속형이라면 결합 확률 밀도함수
주변확률분포함수
- 결합확률분포에서 각 확률변수에 대한 분포를 나타내는것
- 두 개의 변수로 이루어진 결합확률분포를 하나의 변수로 표현하기 위한 것
- 두 확률변수 X와 Y가 독립이라면 아래의 특징을 가진다.
기댓값(평균)
- 분포의 무게중심
- 통계학에서는 확률변수 X의 기댓값을 X가 갖는 확률분포의 모평균이라 하고 u로 표기
- 확률변수 X의 평균 u는 E(X)로 표기
- E(ax+b) = aE(x) + b
- E(ax+by+c) = aE(x) + bE(y) + c
분산
- 확률변수가 평균을 중심으로 퍼진 정도를 나타내는 척도
- 분산이 크다는 것은 확률변수의 관찰 가능한 값들이 평균을 중심으로 넓게 분포되어있음을 의미하며, 분산이 작다는 것은 평균을 중심으로 조밀하게 분포되어있음을 의미
- 하나의 확률 변수의 분산을 근거로 분산이 크다, 작다 말할 수 없고 두개 이상의 확률변수가 있을 때 분산의 값이 큰 확률변수가 분산이 작은 확률변수에 비해 상대적으로 넓게 분포한다는 것을 의미한다.
- X의 표준편차는 분산의 양의 제곱근으로서 sd(X)로 나타낸다
- 자료가 이산형이라면 E(X)는 X * P(X=x), E(X^2)은 X^2 * P(X=x)
- 자료가 연속형이라면 적분할 때 E(X)는 x를 곱해주고 E(X^2)은 x^2를 곱해주고 적분한다.
- Var(ax+b) = a^2Var(x)
- Var(x+-y) = Var(x) + Var(y) +-2Cov(x,y), 독립이라면 Var(x) + Var(y)
공분산
- 두 개의 확률변수의 관계를 보여주는 값으로 확률변수 X와 Y에 대해 X가 변할 때 Y가 변하는 정도를 나타낸 값
- 두 확률변수 X, Y가 서로 독립이라면 E(XY) = E(X)E(Y)이므로 공분산은 0이된다. 즉 Cov(X,Y) = E(XY)-E(X)E(Y) = 0
- 하지만 공분산이 0이라고 하더라도 항상 독립이라 말할 수 없다.
- 공분산은 측정단위에 따라 그 값이 달라진다는 가장 큰 단점을 가지고 있어 두 변수가 얼마나 연관되어있는지 그 강도를 잘 보여주지 못한다.
상관계수
- 두 확률변수 사이의 선형관계정도를 나타냄
- 상관계수의 부호는 공분산의 부호와 같다
- 값의 범위는 -1보다 크거나 같고 1보다 작거나 같아야 한다.
- 직선이 일치하는 경우에 1 또는 -1이 된다.
- 측정단위에 영향을 받지 않음
- X와 Y의 상관계수는 항상 -1과 1사이의 값을 갖으며 정확한 선형관계 Y = aX+b가 성립할 때 상관계수의 값은 1또는 -1
- X와 Y의 상관계수는 각 확률변수에 상수가 더해지거나 감해지는 것에 영향을 받지 않으며, 상수가 곱해진 경우에는 그 부호에만 영향을 받는다.
- 두 개의 확률변수 X, Y가 독립이면 공분산은 0이되므로 상관계수도 0이 된다.
사진 출처:
https://product.kyobobook.co.kr/detail/S000060624898
통계학: 파이썬을 이용한 분석 | 인하대학교 통계학과 - 교보문고
통계학: 파이썬을 이용한 분석 | 오늘날 통계학을 이용한 데이터 분석에서 통계소프트웨어의 사용은 거의 필수적이다. 파이썬(Python)을 이용하여 실습과 분석을 할 수 있도록 설명한 책이다. 파
product.kyobobook.co.kr
'통계학' 카테고리의 다른 글
정규분포 (0) | 2025.03.23 |
---|---|
이항분포와 그와 관련된 분포들 (1) | 2025.03.20 |
두 변수 자료의 요약, 확률 (2) | 2024.07.26 |
수치를 통한 연속형 자료의 요약 (0) | 2024.07.21 |
통계학-1 (0) | 2024.07.09 |