자료들이 얼마나 변동하거나 퍼져있는지의 정도를 나타내는 것을
변동성,(Variability) 도는 퍼짐(Spread)라고 부른다
변동석 척도를 나타내는 4가지 방법에 대해 차례대로 공부하겠다 잘 따라오도록
1. 범위(Range)
범위 = 최대값 - 최소값
1) 특이하게 크거나 작은값이 있을 경우 자료 범위에 왜곡이 일어남
2) 자료의 개수와 상관 없이 같게 나올 수 있음(자료의 개수가 반영 안 됨)
따라서 자료의 변동성을 대표하지 못하는 경우가 많음
2. 사분위간 범위(IQR)
IQR은 일사분위수(Q1)과 삼사분위수(Q3)의 거리이다
사분위수의 그래프는 Box Plot(상자그림)의 모양이다
왼쪽 25% 오른쪽 25%를 버려서 Q1 ~ Q3의 범위(Q3 - Q1)만 이용한다면
특이값의 영향을 거의 받지 않는다.
그러나 치명적인 단점이라고 한다면 바로
데이터를 너무 많이 줄인다는 것이다.
그래서 준비했다. IQR의 단점을 보완할 방법을!
일단. 상자그림을 그리는 방법을 배워보자
양쪽 각각 25퍼센트를 버리는 것은 너무 데이터가 아깝다
그러한 IQR의 단점을 보완하기 위하여 상자그림 그리는 방법을 알아보면서
1차 범위(inner fence) 2차 범위(outer fence)를 나누어서 그린다
상자그림 -> 1차범위 -> 2차범위 순서로 그려야한다
STEP 1) 상자그림 구하는 방법
STEP 2) 1차 구제범위(Inner fence) 구하는 식
STEP 3) 2차 구제범위(Outer fence) 구하는 식
STEP 4) Adjacent Value 찾기
adjacent value: inner fence 내에서 누구까지 구제가 되는지 찾는 방식이다
STEP 5) Mild Outlier와 Extreme Outlier 찾기
자 이론을 배웠으니 실습을 해보자
#1 데이터에서 Q1 Q2 Q3 구하고 최소값(5) 최대값(100)까지 찾는다
#2 그림 그리기
IQR(Q3-Q1)을 구하여 Inner fence와 outer fence를 구한다. 이 때
Inner Fence (7.5 ~ 51.5)
Outer Fence (-9 ~ 68)
5와 68은 mild outlier(inner~outter)이지만 100은 outter를 넘어갔기 때문에 extrem outlier이다
#3 Adjacent Value 구하기
여기서의 adjacent value는 inner fence 범위 내(7.5 ~ 51.5)에 있는 8과 40이 adjacent value이다.
사실상 순서는 상관없고 결과만 잘 나오면 된다
STEP을 너무 신경 쓰지 말자
'Statistics > 통계학 입문' 카테고리의 다른 글
연관성 척도 (0) | 2022.11.08 |
---|---|
특이값과 Z-Score (0) | 2022.09.30 |
중심위치 척도... (0) | 2022.09.15 |
basic - 표와 그래프(2) 줄기 잎 전시 ~ 특이값 (0) | 2022.09.05 |
basic - 표와 그래프(1) 도수분포표 ~ 히스토그램 (0) | 2022.09.05 |