변수의 종류와 척도의 종류 - 통계 개념 1분 정리 [빅데이터 분석 기초 다지기]
지난 포스팅에 데이터 분석에서 절대로 빠질 수 없는 두 가지 변수 독립변수와 종족 변수를 설명했는데요 ↓↓↓
2021/01/08 - [기초 통계] - 독립변수와 종족변수 [한번에 이해하기] 아주 쉬운 1분 통계 개념 정리 - 데이터 분석 기법 기초 다지기
오늘은 데이터의 성질을 정의하는 개념을 알아보도록 할께요.
데이터 분석을 할 때에 가장 중요한 점 중 하나는 데이터의 특성을 올바르게 이해하고 모델이나 분석기법을 적용하는 것입니다. 예를 들자면 선형 회귀에는 연속형의 변수만 적용할 수 있는데 범주형인 데이터 ( 데이터 종류가 예, 아니요 이렇게 둘로 나뉘어있는 경우)에 선형 회귀를 쓴다면 도출하고자 하는 값이 잘 안 나오겠죠?
우선 아래의 그래프를 토대로 부가설명을 이어갈게요.
변수에는 크게 양적 변수, 질적 변수로 나뉩니다.
더 쉽게 이해하자면 양적 변수는 범주형이고 질적 변수는 수치형입니다.
질적 변수(Qualitative variable)란 변수의 값이 자료를 특정 카테고리에 포함시키도록 하는 변수를 의미합니다. 아이들 장난감의 색상, 특정 집단 구성원의 성별, 종교 등이 그 예입니다.
이와 같은 질적 변수는 순서형과 명목형으로 구분할 수 있습니다.
▷ 순서형(서열)
· 수준의 순서가 자연적
· 값이 커짐에 따라 만족도가 좋아지고 있다고 할 수 있는 경우
· 평균이 수학적인 의미가 있는 것이 아님
예) 맛(순한 맛, 중간맛, 매운맛), 건강 상태 (위독함, 심각함, 안정됨, 양호함), 조사 결과 (반대, 중립, 찬성), 성적표,
상표 선호 순위, 상품 품질순위도, 사회계층, 시장지위
적용 가능 분석 방법: 서열상 관계, 비모수 통계
▷ 명목형(비 서열)
· 수준의 순서가 자연적이지 않음 (순서를 매길 수 x)
· 값이 달라짐에 따라 좋거나 나쁘다고 할 수 없는 경우
· 평균을 계산하는 것이 의미가 없고, 퍼센트로 표현 가능
예) 맛(쓴맛, 단맛, 신맛), 색상(빨강, 파랑, 검정), 학과목(수학, 과학, 미술), 취미, 주거지역, 혈액형,
상품유형별 분류, 시장 세분 구역 분류
적용 가능 분석 방법: 빈도 분석, 비모수 통계, 교차분석
※ 이항 변수 - 범주가 2가지 형태이며 응답(예/아니오), (높음/낮음)으로만 나뉘는 변수입니다.
양적 변수(Quantitative variable)란 변수의 값을 숫자로 나타 낼 수 있는 변수를 의미합니다. 예를 들어 사람의 키나 몸무게, 한 가정의 소득, 고속도로 통행량 등을 양적 변수라 할 수 있습니다.
이와 같은 양적 변수는 이산형 와 연속형로 구분할 수 있습니다.
▷ 이산형 (Discrete Data) : 이산적인 값을 갖는 데이터
· 수치적인 의미는 가지고 있으나 소수점으로 표현되지 않는 경우
· 3.5명 = 소수점의 의미가 없음 (하루 동안 은행에 방문하는 고객의 수) 출산 횟수
예) 불량품 수, 사고 건수, 차량대수
▷ 연속형 (continues) : 연속적인 값을 갖는 데이터
· 수치적인 의미가 있으며 소수점으로 표현되는 경우
· 평균, 표준편차, 분산, 퍼센트 표현 몸무게
예) 시간, 길이
이렇게 연속적인 값을 갖는 데이터는 간격 변수와 비율 변수로 구분할 수 있습니다.
▷간격 변수 : 간격 비교
· 등간변수, 구간 척도라고도 불림
· 측정된 변수 사이에 등산 성이 있음
· 단위가 부여되지만 비율은 의미가 없음
· 더하기는 가능하나 곱하지는 못함
예) 온도, 광고인지도, 주가지수, cm
적용 가능 분석 방법: 모수 통계
▷비율 변수 : 절대적 크기 비교
· 측정된 변수 사이에 등산 성이 있음
· 단위가 부여되면서 비율은 의미가 있다
· 곱하기 가능
예) 매출액, 구매 확률, 무게, 소득, 나이, 시장점유율
적용 가능 분석 방법: 모수 통계
모수 통계: 정규분포를 가지고 있는지 비교
참고
[1] 양적 변수, 질적 변수 정의 triki.net/study/3108