일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 내 강점
- 강자의 언어
- 몰입 책 후기
- 글로벌 MBA 비용
- 30대 필독
- 내 장점 찾기
- 돈의 속성이란
- 30살 추천 도서
- 자산 책 추천
- 자기계발서 추천
- 30대 필독서
- 블랙쉽
- 받아쓰기 설정
- 강점 5가지
- 온라인 파트타임 MBA
- 몰입 줄거리
- 플로우 방법
- 자산늘리는법
- 목적 찾는 법
- 20살 추천 도서
- 글로벌 MBA
- 맥 받아쓰기
- 책 추천
- mac 받아쓰기 설정
- 청소년 추천 도서
- MBA 비용
- 몰입하는 방법
- 자신에게 할 질문
- 오디오 텍스트 변환
- 장점 5가지
- Today
- Total
Let's enjoy our life
연관규칙의 측도 본문
의사결정나무 알고리즘
CART(Classification and Regression Tree)
- 분순도의 측도로 츨력(목적) 변수가 범주형일 경우 지니지수를 이용, 연속형인 경우 분산을 이용한 이진분리(binary split)를 사용한다.
- 개별 입력변수 분만 아니라 입력변수들의 선형결합들 중에서 최적의 분리를 찾을 수 있다.
C4.5와 C5.0
- CART와는 다르게 각 마디에서 다지분리(multiple split)가 가능하며 범주형 입력변수에 대해서는 범주의 수만큼 분리가 일어난다.
- 불순도의 측도로는 엔트로피지수를 활용한다.
CHAID
- 가치지기를 하지 않고 적당한 크기에서 나무모형의 성장을 중지하며 입력변수가 반드시 범주형 변수이어야 한다.
- 불순도의 측도로는 카이제곱 통계량을 사용한다.
비식별 기술의 종류
데이터 마스킹 : 데이터의 길이, 유형, 형식과 같은 속성을 유지한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술
가명처리 : 개인정보 주체의 이름을 다른 이름으로 변경하는 기술, 다른 값으로 대체할 시 일정한 규칙이 노출되지 않도록 주의해야 함
총계처리 : 데이터의 총합 값을 보임으로서 개별 데이터의 값을 보이지 않도록 함. 단, 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은 개인 정보를 공개하는 것과 마찬가지의 결과임으로 주의해 함
데이터값 삭제 : 데이터 공유, 개방 목적에 따라 데이터 셋에 구성된 값 중에 필요 없는 값 또는 개인식별에 중요한 값을 삭제, 개인과 관련된 날짜 정보(자격취득일자, 합격일 등)은 연단위로 처리
데이터 범주화 : 데이터의 값을 범주의 값으로 변환하여 값을 숨김
데이터 레이크(Data Lake) : 수 많은 정보 속에서 의미있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템으로, 대용량의 정형 및 비정형 데이터를 저장할 뿐만 아니라 접근도 쉽게 할 수 있는 대규모의 저장소를 의미한다. Apache Hadoop, Teradata Integrated Big Data Platform 1700 등과 같은 플랫폼으로 구성된 솔루션을 제공하고 있다.
연관규칙의 측도
1) 지지도(support) : 전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율로 정의한다.
지지도 = P(A ∩ B) = A와 B가 동시에 포함된 거래수 / 전체 거래수 = A ∩ B / 전체
2) 신뢰도(confidence) : 항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률이다. 연관성의 정도를 파악할 수 있다.
신뢰도 = P(A ∩ B) / P(A) = A와 B가 동시에 포함된 거래수 / A를 포함하는 거래수 = 지지도 / P(A)
3) 향상도(Lift) : A가 구매되지 않았을 때 품목 B의 구매확률에 비해 A가 구매됐을 때 품목 B의 구매확률의 증가 비이다. 연관규칙 A->B는 품목 A와 품목 B의 구매가 서로 관련이 없는 경우에 향상도가 항상 1이다.
향상도 = P(B | A) / P(B) = P(A ∩ B) / P(A)P(B) = A와 B가 동시에 포함된 거래수 / A를 포함하는 거래수 * B를 포함하는 거래수 = 신뢰도 / P(B)