본문 바로가기

Statistics/통계학 입문

변동성 척도(4분위수를 배운 이유)

자료들이 얼마나 변동하거나 퍼져있는지의 정도를 나타내는 것을

변동성,(Variability) 도는 퍼짐(Spread)라고 부른다

 

변동석 척도를 나타내는 4가지 방법에 대해 차례대로 공부하겠다 잘 따라오도록

자료는 개인주의야

 

1. 범위(Range)

 

범위 = 최대값 - 최소값

 

1) 특이하게 크거나 작은값이 있을 경우 자료 범위에 왜곡이 일어남

2) 자료의 개수와 상관 없이 같게 나올 수 있음(자료의 개수가 반영 안 됨)

따라서 자료의 변동성을 대표하지 못하는 경우가 많음

 

2. 사분위간 범위(IQR)

IQR은 일사분위수(Q1)과 삼사분위수(Q3)의 거리이다

사분위수의 그래프는 Box Plot(상자그림)의 모양이다

왼쪽 25% 오른쪽 25%를 버려서 Q1 ~ Q3의 범위(Q3 - Q1)만 이용한다면

특이값의 영향을 거의 받지 않는다.

그러나 치명적인 단점이라고 한다면 바로

데이터를 너무 많이 줄인다는 것이다.

 

그래서 준비했다. IQR의 단점을 보완할 방법을!

일단. 상자그림을 그리는 방법을 배워보자

 

양쪽 각각 25퍼센트를 버리는 것은 너무 데이터가 아깝다

그러한 IQR의 단점을 보완하기 위하여 상자그림 그리는 방법을 알아보면서

1차 범위(inner fence) 2차 범위(outer fence)를 나누어서 그린다

상자그림 -> 1차범위 -> 2차범위 순서로 그려야한다

 

 

STEP 1) 상자그림 구하는 방법

 

STEP 2) 1차 구제범위(Inner fence) 구하는 식

 

STEP 3) 2차 구제범위(Outer fence) 구하는 식

 

 

 

STEP 4) Adjacent Value 찾기

adjacent value: inner fence 내에서 누구까지 구제가 되는지 찾는 방식이다

 

STEP 5) Mild Outlier와 Extreme Outlier 찾기

말 안해도 사진으로 보고 이해하자

 

자 이론을 배웠으니 실습을 해보자

 

#1 데이터에서 Q1 Q2 Q3 구하고 최소값(5) 최대값(100)까지 찾는다

 

 

 

 

#2 그림 그리기

IQR(Q3-Q1)을 구하여 Inner fence와 outer fence를 구한다. 이 때

Inner Fence (7.5 ~ 51.5)

Outer Fence (-9 ~ 68)

5와 68은 mild outlier(inner~outter)이지만 100은 outter를 넘어갔기 때문에 extrem outlier이다

 

 

 

 

#3 Adjacent Value 구하기

여기서의 adjacent value는 inner fence 범위 내(7.5 ~ 51.5)에 있는 8과 40이 adjacent value이다.

 

 

 

사실상 순서는 상관없고 결과만 잘 나오면 된다
STEP을 너무 신경 쓰지 말자