수치를 통한 연속형 자료의 요약
중심위치의 측도
- 평균 : 중심위치의 측도 중에서 가장 많이 사용되는 방법으로서, 모든 관측괎의 합을 자료의 개수로 나눈 것이고 표본자료의 평균을 표본평균이라 하며 엑스바라 칭함
- 표본평균은 관측값의 산술평균으로서 통계적 추론과정에서 광범위하게 사용될뿐만 아니라 통계적 분석과정에서 기초적인 통계수치로 가장 많이 사용됨
- 모든 관측값이 반영되므로 표본평균은 극단적으로 아주 큰 값이나 아주 작은 값에 영향을 많이 받는다는 것에 주의
- 중앙값 : 전체 관측값을 크기 순서로 배열하였을 때 가운데 위치하는 값
- 중앙값은 표본평균과 달리 관측값들의 변화에 민감하지 않고 특히 아주 큰 관측값이나 아주 작은 관측값에 영향을 받지 않는다.
- 최빈값 : 관측값 중에서 가장 자주 나오는 값을 말함.
- 최빈값은 표본평균이나 중앙값과는 달리 이산형 자료나 범주형 자료에서 흔히 사용된다.
- 연속형 자료의 경우에는 도수분포표로 자료를 그룹화하여 최대의 도수를 갖는 계급 구간의 중간값을 최빈값으로 정함
- 관측값의 종류가 많지 않은 이산형 자료나 범주형 자료에서 대푯값의 의미로 쓰임
- 연속형 자료에서 잘 사용하지 않는 이유는 도수분포표를 사용할 때 계급구간의 폭에 따라 최빈값이 달라질 수 있고 이봉형 분포를 갖는 자료에서와 같은 여러 개의 최빈값이 존재할 수 있는데 이러한 경우 중심위치로서의 의미가 줄어드므로 중심위치의 측도로서 최빈값은 단봉형 분포를 갖는 자료에서만 유효하다.
- 극단적인 관측값의 영향을 배제하고 싶으면 중앙값이 바람직하고 전체 관측값을 모두 포함하고 싶으면 평균이 바람직.
- 봉우리가 하나인 단봉형 분포는 평균, 중앙값, 최빈값 모두 같은 값을 가진다.
- 봉우리가 2개인 이봉형 분포는 평균과 중앙값은 같으나 최빈값은 다르며 이봉형 분포에서는 최빈값은 봉우리가 높은 위치는 반영하게 되므로 중심위치에서 벗어나는 것을 알 수 있다.
- 분포가 왼쪽으로 치우친 경우에는 평균이 중앙값보다 크게 되는데 이것은 평균이 소수의 아주 큰 값들에 영향을 받기 때문이며 분포가 오른쪽으로 치우친 경우에는 평균이 중앙값보다 작게 된다.
분산과 표준편차
- 표본평균을 중심위치로 측도로 사용할 때 각 관측값과 평균의 차이를 편차라 한다
- 표본평균을 중심으로 양쪽, 즉 양수의 편차들의 합과 음수의 편차들의 합은 항상 상쇄되므로 편차들의 합은 항상0
- 퍼진 정도를 측정하는 것은 관측값이 중심위치에서 얼마나 멀리 떨어져 있는 가를 알기 위한 것이므로 퍼진 정도의 측도로 편차의 크기가 중요하고 양수인가 음수인가 하는 것은 중요 요소가 아니므로 편차에서 부호를 없앤 다음 퍼진 정도 측정
- 편차의 제곱합을 구한 후에 관측값의 개수에서 1를 뺀 값으로 나누면 표본분산이라 하고 s^2으로 표기
- 관측값의 개수에서 1을 뺀 값으로 나누는 이유는 편차의 제곱합을 구할 때 편차의 합이 0이라는 제약이 하나 있기 때문인데 이 때 관측값의 개수에서 1을 뺸 값을 편차제곱합의 자유도라고 한다.
- 표본분산의 양의 제곱근은 관측값의 단위와 일치하는데, 이 측도를 표본표준편차라고하고 s로 표기한다.
범위란?
- 퍼진 정도를 나타내는 또 다른 측도
- 관측값에서 가장 큰 값과 가장 작은 값의 차이를 칭함
- (관측값 중에서 최댓값) - (관측값 중에서 최솟값)
백분위수와 사분위수범위
- 전체 관측값을 크기 순서대로 배열하였을 때 전체의 관측값을 (100xp)%와 100 x (1-p)%로 나눌 수 있는 값을 백분위수
- 제3사분위수와 제1사분위수 사이의 거리를 퍼진 정도의 측도로 사용할 수 있는데 이 수치를 사분위수 범위 IQR이라 함
- 사분위수범위 : IQR = 제3사분위수 - 제1사분위수
- 표준편차는 표본평균과 같은 이론적 배경을 가지고 만들어졌고 사분위수 범위는 중앙값과 같은 이론적 배경을 가지고 만들어지므로 중심위치의 측도로 표본평균을 사용할 경우 표준편차를 퍼진 정도의 측도로 쓰는 것이 바람직하고, 중앙값을 중심위치의 측도로 사용할 경우 사분위수범위를 퍼진 정도의 측도로 사용하는 것이 바람직하다.
- 표준편차는 전체 관측값 퍼진 정도를 골고루 반영하고 있지만 극단적인 관측값에 영향을 받는다
- 사분위수범위는 제1사분위수와 제3사분위수의 밖의 관측값이 어떻게 퍼져 있는지는 반영하지 않고, 또 제1사분위수와 제3사분위수 사이의 관측값에 대한 분포도 반영하고 있지 않아 사분위수범위는 각 관측값의 퍼진 정도를 전체적으로 반영하지는 않지만 극단적인 관측값에 크게 영향을 받지 않는 장점이 있다.
- 범위는 전체 관측값의 퍼진 정도를 나타내고있지만 극단적인 관측값에 영향을 받는 표준편차의 단점과 관측값을 골고루 반영하지 않는 사분위수범위의 단점을 모두 가지고 있어 실제에서는 퍼진 정도의 측도로 많이 쓰이지는 않는다.
변동계수란?
- 상대적으로 퍼진 정도를 나타내는 수치로 CV로 표시
- 표본평균에 대한 상대적인 퍼진 정도를 백분율로 나타낸 것
상자그림이란?
- 자료로부터 얻은 다섯 가지의 요약수치인 최솟값, Q1, Q2, Q3, 최댓값을 가지고 그림을 그린 것으로 줄기-잎 그림이나 히스토그램등에서는 드러나지 않는 수치를 그림과 함께 제공한다.
- 상자그림은 주로 사분위수가 중심이 되어 작성
- 도수분포표에서 계급의 개수가 k, 각 계급의 도수가 f, 계급 구간의 중간값이 m, 자료의 개수가 n일 때 평균과 분산은 아래 사진과 같다.
사진 출처:
https://product.kyobobook.co.kr/detail/S000060624898
통계학: 파이썬을 이용한 분석 | 인하대학교 통계학과 - 교보문고
통계학: 파이썬을 이용한 분석 | 오늘날 통계학을 이용한 데이터 분석에서 통계소프트웨어의 사용은 거의 필수적이다. 파이썬(Python)을 이용하여 실습과 분석을 할 수 있도록 설명한 책이다. 파
product.kyobobook.co.kr