박스 플롯 (Box Plot) | 1분 이해 - 제대로 알고 가자
박스 플롯 (Bot Plot) 이란?
박스 플롯을 사용하는 이유
데이터 집합의 범위와 중앙값을 빠르게 확인할 수 있는 목적으로 사용되며, 많은 데이터를 눈으로 확인하기 어려울 때 그림을 이용해 확인 할 수 있는 장점과 통계적인 이상치(outlier)가 있는지도 확인이 가능하다.
박스 플롯 코드 예제 (Python)
카테고리 R03와 R06에 속하는 제품들을 월별 판매량 분포도를 그린 것입니다. 박스 플롯을 사용하여 데이터를 명확하게 해석 할 수 있습니다. R03와 R06의 박스 플롯들을 보면 계절성에 따른 판매량의 차이가 명확하게 보입니다.
R03와 R06을 비교해 보았을때 R06제품들의 판매량은 3월 ~ 6월사이 최고치를 달성했고 7월이 지나 갈 수록 2.5의 평균세일즈 기록이 보입니다. 계정성 데이터인 만큼, 월별 날씨 온도에 따라 제품이 팔리는 이유도 도출 해 볼 수 있습니다.
R03는 R06보다 아웃라이어(Outliers)가 많아 예측 정확도가 떨어질 것으로 예상합니다.
- R03 - Drugs for obstructive airway diseases
- R06 - Antihistamines for systemic use
import seaborn as sns
dfatc_daily = pd.read_csv('../input/salesdaily.csv')
fig, axes = plt.subplots(8, 1, figsize=(10, 30), sharex=True)
for name, ax in zip(['M01AB','M01AE','N02BA','N02BE', 'N05B','N05C','R03','R06'], axes):
sns.boxplot(data=dfatc_daily, x='Month', y=name, ax=ax)
박스 플롯 구성
아래 그래프를 보면 6시그마로 늘린 것을 확인 할 수 있다. 이뜻은 불량률을 6시그라 이상의 확률로 두겠다는 의미가 된다 [3]. 즉 거의 0%로 불량을 없애겠다는 말이 된다.
- 최솟값 : 제 1사분위에서 1.5 IQR1을 뺀 위치
- 제 1사분위(Q1) : 25%의 위치를 의미
- 제 2사분위(Q2) : 50%의 위치로 중앙값(median)을 의미
- 제 3사분위(Q3) : 75%의 위치를 의미
- 최댓값 : 제 3사분위에서 1.5 IQR을 더한 위치
참고
Pharma sales data analysis and forecasting
Explore and run machine learning code with Kaggle Notebooks | Using data from Pharma sales data
www.kaggle.com
[2]
https://itwiki.kr/w/%EB%B0%95%EC%8A%A4_%ED%94%8C%EB%A1%AF
박스 플롯 - IT위키
itwiki.kr