Let's enjoy our life

박스 플롯 (Box Plot) | 1분 이해 - 제대로 알고 가자 본문

Study/기초 통계

박스 플롯 (Box Plot) | 1분 이해 - 제대로 알고 가자

IT파스칼 2021. 7. 12. 16:52

박스 플롯 (Bot Plot) 이란?

 

박스 플롯을 사용하는 이유

데이터 집합의 범위와 중앙값을 빠르게 확인할 수 있는 목적으로 사용되며, 많은 데이터를 눈으로 확인하기 어려울 때 그림을 이용해 확인 할 수 있는 장점과 통계적인 이상치(outlier)가 있는지도 확인이 가능하다.

 

박스 플롯 코드 예제 (Python)

카테고리 R03R06에 속하는 제품들을 월별 판매량 분포도를 그린 것입니다. 박스 플롯을 사용하여 데이터를 명확하게 해석 할 수 있습니다. R03R06의 박스 플롯들을 보면 계절성에 따른 판매량의 차이가 명확하게 보입니다.

R03R06을 비교해 보았을때 R06제품들의 판매량은 3월 ~ 6월사이 최고치를 달성했고 7월이 지나 갈 수록 2.5의 평균세일즈 기록이 보입니다. 계정성 데이터인 만큼, 월별 날씨 온도에 따라 제품이 팔리는 이유도 도출 해 볼 수 있습니다.

 

R03R06보다 아웃라이어(Outliers)가 많아 예측 정확도가 떨어질 것으로 예상합니다.

 

  • R03 - Drugs for obstructive airway diseases
  • R06 - Antihistamines for systemic use
import seaborn as sns
dfatc_daily = pd.read_csv('../input/salesdaily.csv')
fig, axes = plt.subplots(8, 1, figsize=(10, 30), sharex=True)
for name, ax in zip(['M01AB','M01AE','N02BA','N02BE', 'N05B','N05C','R03','R06'], axes):
    sns.boxplot(data=dfatc_daily, x='Month', y=name, ax=ax)

제품별 계절성 판매량 추이 [1]

 

 

 

박스 플롯 구성

 아래 그래프를 보면 6시그마로 늘린 것을 확인 할 수 있다. 이뜻은 불량률을 6시그라 이상의 확률로 두겠다는 의미가 된다 [3]. 즉 거의 0%로 불량을 없애겠다는 말이 된다.

  • 최솟값 : 제 1사분위에서 1.5 IQR1을 뺀 위치
  • 제 1사분위(Q1) : 25%의 위치를 의미
  • 제 2사분위(Q2) : 50%의 위치로 중앙값(median)을 의미
  • 제 3사분위(Q3) : 75%의 위치를 의미
  • 최댓값 : 제 3사분위에서 1.5 IQR을 더한 위치

참고

[1] https://www.kaggle.com/milanzdravkovic/pharma-sales-data-analysis-and-forecasting/notebook#4.-Solution/discussion

 

Pharma sales data analysis and forecasting

Explore and run machine learning code with Kaggle Notebooks | Using data from Pharma sales data

www.kaggle.com

[2]

https://itwiki.kr/w/%EB%B0%95%EC%8A%A4_%ED%94%8C%EB%A1%AF

 

박스 플롯 - IT위키

 

itwiki.kr

[3] https://techntalk.tistory.com/entry/%EB%B0%95%EC%8A%A4%ED%94%8C%EB%A1%AF-Box-Plot%EA%B3%BC-%EC%A0%95%EA%B7%9C%EB%B6%84%ED%8F%ACnormal-distribution%EC%9D%98-%EA%B4%80%EA%B3%84-%EB%B0%95%EC%8A%A4%ED%94%8C%EB%A1%AF-%EA%B7%B8%EB%A6%AC%EB%8A%94-%EB%B2%95

Comments