Let's enjoy our life

계층적 군집 분석 방법 본문

카테고리 없음

계층적 군집 분석 방법

IT파스칼 2021. 8. 24. 16:55

계층적 군집 분석 방법

군집 구성법

  • 최단 거리법 (single): 생성된 군집들 사이 중심과 거리가 가까운 데이터 끼리 비교 가장 가까운 데이터 끼리 군집
  • 최장 거리법 (complete): 생성된 군집들 사이 중심과 거리가 먼 데이터 끼리 비교하여 가장 가까운 데이터 끼리 군집
  • 평균 기준법 (average): 군집들의 평균 거리를 계산해 가까운 데이터 끼리 군집
  • 중앙 중심법 (median):

1. 유클리드 거리 계산식

  • 가장 짧은 직선 거리
  • 간단하지만 물리적 거리가 아닌 정보간의 거리를 나타내는데에 한계가 있음
  • 사이즈 단위에 따라 결과값이 매우 민감

 

2. 맨하탄 거리

유클리드와 유사 - 절대값 사용

 

 

3. 마할라노비스 거리

  • 데이터 간의 상관관계가 있는 두 변수간의 거리를 측정하기 위한 방법 (데이터 특징별 상호관계에 대한 개념을 추가시킨 거리 개념)
  • 서로 다른 의미를 지닌 특징간의 상관관계에 따라 거리를 조정
  • 공분산 행렬 (Covariance Matrix)개념 사용
    • 공분산: 두 특징간에서 나타나는 데이터의 방향과 상관도를 나타냄-> X가 증가 할 때 Y도 증가한다. (같은 방향), X가 증가 할 때 Y는 감소한다. (다른 방향)
    • 공분산이 0이라면 두 변수간에는 (선형적인) 상관관계가 없으며 두 변수는 서로 독립적인 관계에 있음을 알 수 있습니다.
  • 변수의 분산 & 변수간 상관성 고려

4. 표준화 거리

  • 해당 변수의 표준편차로 척도로 변환한 후에 유클리드 거리 계산법 적용
  • 표준화를 하면 척도의 차이, 분산의 차이로 인한 왜곡을 피할 수 있다.
  • aka 통계적 거리
Comments