Let's enjoy our life

[데이터 분석 기초] 분포의 종류 - 1분 개념 정리 본문

Study

[데이터 분석 기초] 분포의 종류 - 1분 개념 정리

IT파스칼 2021. 1. 13. 10:11

데이터 분석을 하면서 초반에 분포와 회귀방식이 헷갈렸었다 ^^; 통계 기초가 부족하다는 정체가 탄로난..

회귀 방식을 적용하는데 분포를 설정하는

1. 분포란?

그런데 대부분의 확률적 데이터값을 살펴보면 어떤 값은 자주 등장하고 어떤 값은 드물게 나오거나 나오지 않는 경우가 많다. 확률적 데이터에서 어떠한 값이 자주 나오고 어떠한 값이 드물게 나오는가를 나타내는 정보를 **분포(distribution)**라고 한다 [1].

 

확률변수 값/영역을 확률로 표현

분포는 범주형 데이터의 경우 카운트 플롯(count plot), 실수형 데이터의 경우 **히스토그램(histogram)**을 사용

  • 표본평균, 표본중앙값, 표본최빈값

  • 표본분산, 표본표준편차

  • 표본왜도, 표본첨도

 

 

 

2. 분포의 종류 (이산&연속)

 

분포의 종류

2.1. 이산확률분포

이산형 분포 ()

  • 베르누이: 시행의 결과가 오직 두가지인 분포
  • 이항분포: 베르누이 시행을 n번 할 때, 사건이 발행한 횟수를 확률변수 x로 하는 확률 분포
  • 다항분포: 시행의 결과가 k개의 사건이고, 각 사건이 발생확률이 p1...pk일 때, n회의 시행에서 각 사건이 x1...xk일어날 확률분포
  • 기하분포: 처음 성공이 나오기까지 시행한 횟수를 확률변수 x로 할 때의 확률분포 (각 시행은 베르누이)
  • 음이항: 성공확률을 p라고 했을 때, r번의 실패가 나오기까지 발생한 성공 횟수가 확률변수 x인 확률분포 (역시 각 시행은 베르누이 수행)
  • 초기하: 모
  • 포아송: 단위 시간 안에 발생한 사건 횟수를 확률변수 x로 하는 확률분포 (이항분포에서 시행횟수가 무수히 많아지고, 발생확률은 아주 작은 경우)

 

이산확률분포 정리

 

 

2.2 연속형 분포 (연속확률변수 및 확률 분포 종류)

  • 균등분포:
  • 정규분포
  • 지수 (포아송분포를 적분)
  • 감마: 형태모수(shape parameter) α와 크기모수 β를 이용해 0 이상의 구간에 대한 다양한 확률분포
    길냥이를 n번 마주칠 때 까지 걸린 시간이 t이하일 확률
  • 베타
  • 카이
  • Student t
  • F 분포

 

 

특정 구간 에서 어떤 값이 일어날 확률이 모두 같은 경우에 대한 분포특정 구간 에서 어떤 값이 일어날 확률이 모두 같은 경우에 대한 분포

 

 

 

 

참고

[1] datascienceschool.net/02%20mathematics/07.01%20%ED%99%95%EB%A5%A0%EC%A0%81%20%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%99%80%20%ED%99%95%EB%A5%A0%EB%B3%80%EC%88%98.html 

[2]

bigdata.dongguk.ac.kr/www/lectures/med_stat/_book/%ED%99%95%EB%A5%A0%EB%B3%80%EC%88%98%EB%B6%84%ED%8F%AC.html#%EC%9D%B4%EC%82%B0%ED%98%95%ED%99%95%EB%A5%A0%EB%B3%80%EC%88%98-%EB%B0%8F-%ED%99%95%EB%A5%A0-%EB%B6%84%ED%8F%AC%EC%9D%98-%EC%A2%85%EB%A5%98

 

2 장 확률변수와 확률분포 | 의학통계

결합확률밀도함수(joint PDF) 또는 결합확률질량함수(joint PMF) \[ f_{X,Y}(x,y) = \frac{F_{X,Y}(x,y)}{dxdy}, ~~~~~ p_{X,Y}(x,y) = P(X = x, Y = y) \] 각 확률변수의 확률밀도(질량함수): 주변확률밀도(질량)함수(marginal PD

bigdata.dongguk.ac.kr

 

7.1 확률적 데이터와 확률변수 — 데이터 사이언스 스쿨

여러분이 의사라고 가정하자. 여러분은 환자로부터 여러가지 숫자, 즉 데이터를 받게 된다. 한 명의 환자가 주는 데이터는 크게 두 가지로 나눌 수 있는데 하나는 생년월일처럼 한 번 물어보면

datascienceschool.net

 

Comments