Let's enjoy our life

연관규칙의 측도 본문

카테고리 없음

연관규칙의 측도

IT파스칼 2021. 8. 30. 08:27

 

의사결정나무 알고리즘

CART(Classification and Regression Tree)

- 분순도의 측도로 츨력(목적) 변수가 범주형일 경우 지니지수를 이용, 연속형인 경우 분산을 이용한 이진분리(binary split)를 사용한다.

- 개별 입력변수 분만 아니라 입력변수들의 선형결합들 중에서 최적의 분리를 찾을 수 있다.

 

C4.5와 C5.0

- CART와는 다르게 각 마디에서 다지분리(multiple split)가 가능하며 범주형 입력변수에 대해서는 범주의 수만큼 분리가 일어난다.

- 불순도의 측도로는 엔트로피지수를 활용한다.

 

CHAID

- 가치지기를 하지 않고 적당한 크기에서 나무모형의 성장을 중지하며 입력변수가 반드시 범주형 변수이어야 한다.

- 불순도의 측도로는 카이제곱 통계량을 사용한다.

 

비식별 기술의 종류

데이터 마스킹 : 데이터의 길이, 유형, 형식과 같은 속성을 유지한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술

가명처리 : 개인정보 주체의 이름을 다른 이름으로 변경하는 기술, 다른 값으로 대체할 시 일정한 규칙이 노출되지 않도록 주의해야 함

 

총계처리 : 데이터의 총합 값을 보임으로서 개별 데이터의 값을 보이지 않도록 함. 단, 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은 개인 정보를 공개하는 것과 마찬가지의 결과임으로 주의해 함

데이터값 삭제 : 데이터 공유, 개방 목적에 따라 데이터 셋에 구성된 값 중에 필요 없는 값 또는 개인식별에 중요한 값을 삭제, 개인과 관련된 날짜 정보(자격취득일자, 합격일 등)은 연단위로 처리

데이터 범주화 : 데이터의 값을 범주의 값으로 변환하여 값을 숨김

 

데이터 레이크(Data Lake) : 수 많은 정보 속에서 의미있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템으로, 대용량의 정형 및 비정형 데이터를 저장할 뿐만 아니라 접근도 쉽게 할 수 있는 대규모의 저장소를 의미한다. Apache Hadoop, Teradata Integrated Big Data Platform 1700 등과 같은 플랫폼으로 구성된 솔루션을 제공하고 있다.

 

연관규칙의 측도

1) 지지도(support) : 전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율로 정의한다.

지지도 = P(A ∩  B) = A와 B가 동시에 포함된 거래수 / 전체 거래수 = A ∩  B / 전체

2) 신뢰도(confidence) : 항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률이다. 연관성의 정도를 파악할 수 있다.

신뢰도 = P(A ∩  B) / P(A) = A와 B가 동시에 포함된 거래수 / A를 포함하는 거래수 = 지지도 / P(A)

3) 향상도(Lift) : A가 구매되지 않았을 때 품목 B의 구매확률에 비해 A가 구매됐을 때 품목 B의 구매확률의 증가 비이다. 연관규칙 A->B는 품목 A와 품목 B의 구매가 서로 관련이 없는 경우에 향상도가 항상 1이다.

향상도 = P(B | A) / P(B) = P(A ∩  B) / P(A)P(B) = A와 B가 동시에 포함된 거래수 / A를 포함하는 거래수 * B를 포함하는 거래수 = 신뢰도 / P(B)

 

 

https://tychejin.tistory.com/294

Comments