Let's enjoy our life

군집(Clustering)과 분류(Classification)의 차이 | 1초 개념 정리 - 빅 데이터 본문

Study

군집(Clustering)과 분류(Classification)의 차이 | 1초 개념 정리 - 빅 데이터

IT파스칼 2020. 12. 24. 15:46

빅 데이터 분석에 가장 중요한 점과 기본은 분석 기법의 특성을 이해하는 것입니다.

그래야 데이터 특성에 맞는 분석을 적용해 결과를 도출할 수 있기 때문이죠.

 

데이터 분석의 목적은 크게 네 가지로 나뉩니다. 군집 (Clustering), 분류 (Classification), 규칙 (Pattern) 그리고 예측 (Prediction)입니다.

 

오늘은 이 네 가지 중 말 만들어도 유사한 것 같은데 다른 점은 무엇인지 알아보겠습니다.

 

우선 쉽게 표현하자면

 

군집은 데이터들의 속성을 모르는 채 그룹화하는

 

분류는 데이터들의 속성을 알고 있는 채 그룹화하는

 

입니다.

 

 

예를 들면 동물원에 있는 동물들을 분석해본다고 할 때,


상황 1) 날개가 있는 동물들을 그룹화하세요
어떤 속성을 비교해 유사한 속성으로 묶어주는 것을 말합니다. 이 상황에서 속성은 날개죠. 그러니 날개가 달린 모든 동물들을 군집화 하는 겁니다.

 

상황 2) 원숭이는 그룹 A, 새들은 그룹 B로 나누세요.

이런 경우에 우리는

 

빨간 원숭이, 털보 원숭이...

앵무새, 독수리, 참새....

 

이렇게 이름과 종류가 다르지만 그들의 이름은 달라도 원숭이과, 조류가 임을 알기 때문에 분류를 할 수 있습니다.

 

 

핵심 포인트들을 아래의 표에 정리해 보았습니다.

  군집 분류
Class를 미리 아는가? (사전 정보) NO YES
사용 데이터 패턴을 찾은 뒤 Class에 그룹화를 제안 새로운 샘플/데이터를 (이미 알고있는) Class로 분류
알고리즘 K-mean, Fuzzy, EM, GMM, Hierarchical Clustering (계층 분석) 의사결정트리, 베이지안(Bayesian), KNN, Random Forest, Naive Bayes
데이터 조건
예) 사진, 게시글, 비디오
데이터가 라벨링이 되어있어야함 (Data Tagged)
학습 Unsupervised Supervised
분석 방법 학습 (Train) 모델로 데이터 학습 자체 데이터 학습

 

 

빅 데이터 분석에 있어 지도 학습(Supervised), 비지도 학습(Unsupervised)의 정의를 아는 것은 매우 중요합니다.

 

요즘에는 비지도 학습이 많은 관심을 받고 있죠, 데이터 라벨링 할 때에 필요한 비용도 절감하기 때문이죠.

 

다음에는 이 두 학습의 개념과, 어디에 어떻게 쓰이는지 다뤄볼게요.

 

머신러닝의 활용도가 의료, 연구를 넘어 기업들까지도 인공지능, 머신러닝 분석을 하기 시작했는데요,

왜 기업들이 AI, 머신러닝을 활용하려 하는지도 알아보겠습니다.

 

 

Comments