Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- 몰입 책 후기
- 책 추천
- 자기계발서 추천
- 내 장점 찾기
- 내 강점
- 받아쓰기 설정
- 자산 책 추천
- 목적 찾는 법
- 온라인 파트타임 MBA
- 장점 5가지
- 30살 추천 도서
- MBA 비용
- 청소년 추천 도서
- 몰입 줄거리
- mac 받아쓰기 설정
- 30대 필독
- 글로벌 MBA 비용
- 강점 5가지
- 자신에게 할 질문
- 몰입하는 방법
- 돈의 속성이란
- 오디오 텍스트 변환
- 30대 필독서
- 강자의 언어
- 글로벌 MBA
- 20살 추천 도서
- 자산늘리는법
- 블랙쉽
- 플로우 방법
- 맥 받아쓰기
Archives
- Today
- Total
Let's enjoy our life
박스 플롯 (Box Plot) | 1분 이해 - 제대로 알고 가자 본문
박스 플롯 (Bot Plot) 이란?
박스 플롯을 사용하는 이유
데이터 집합의 범위와 중앙값을 빠르게 확인할 수 있는 목적으로 사용되며, 많은 데이터를 눈으로 확인하기 어려울 때 그림을 이용해 확인 할 수 있는 장점과 통계적인 이상치(outlier)가 있는지도 확인이 가능하다.
박스 플롯 코드 예제 (Python)
카테고리 R03와 R06에 속하는 제품들을 월별 판매량 분포도를 그린 것입니다. 박스 플롯을 사용하여 데이터를 명확하게 해석 할 수 있습니다. R03와 R06의 박스 플롯들을 보면 계절성에 따른 판매량의 차이가 명확하게 보입니다.
R03와 R06을 비교해 보았을때 R06제품들의 판매량은 3월 ~ 6월사이 최고치를 달성했고 7월이 지나 갈 수록 2.5의 평균세일즈 기록이 보입니다. 계정성 데이터인 만큼, 월별 날씨 온도에 따라 제품이 팔리는 이유도 도출 해 볼 수 있습니다.
R03는 R06보다 아웃라이어(Outliers)가 많아 예측 정확도가 떨어질 것으로 예상합니다.
- R03 - Drugs for obstructive airway diseases
- R06 - Antihistamines for systemic use
import seaborn as sns
dfatc_daily = pd.read_csv('../input/salesdaily.csv')
fig, axes = plt.subplots(8, 1, figsize=(10, 30), sharex=True)
for name, ax in zip(['M01AB','M01AE','N02BA','N02BE', 'N05B','N05C','R03','R06'], axes):
sns.boxplot(data=dfatc_daily, x='Month', y=name, ax=ax)
박스 플롯 구성
아래 그래프를 보면 6시그마로 늘린 것을 확인 할 수 있다. 이뜻은 불량률을 6시그라 이상의 확률로 두겠다는 의미가 된다 [3]. 즉 거의 0%로 불량을 없애겠다는 말이 된다.
- 최솟값 : 제 1사분위에서 1.5 IQR1을 뺀 위치
- 제 1사분위(Q1) : 25%의 위치를 의미
- 제 2사분위(Q2) : 50%의 위치로 중앙값(median)을 의미
- 제 3사분위(Q3) : 75%의 위치를 의미
- 최댓값 : 제 3사분위에서 1.5 IQR을 더한 위치
참고
[2]
'Study > 기초 통계' 카테고리의 다른 글
변수의 종류와 척도의 종류 - 통계 개념 1분 정리 [빅데이터 분석 기초 다지기] (0) | 2021.01.12 |
---|---|
독립변수와 종족변수 [한번에 이해하기] 아주 쉬운 1분 통계 개념 정리 - 데이터 분석 기법 기초 다지기 (0) | 2021.01.08 |
Comments