차원축소를 통한 데이터 분석

 
 

PCA는 여러 데이터들이 모여 하나의 분포를 이룰 때 이 분포의 주성분을 분석해 주는 방법이다. 여기서 주성분이라 함은 해당 데이터들의 분산이 가장 큰 방향벡터를 의미한다. 주성분 분석의 목적은 여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소하여 분석의 결과와 연산속도를 개선하는 것이다. '국수'를 예시로 들어 알아보자.

대략적인 국수의 종류는 비빔국수, 김치말이국수, 막국수, 콩국수, 잔치국수가 있다. 앞서 나열한 국수들에 대한 만족도를 조사할 수 있다. 또한 국수의 맛에 영향을 끼치는 요소로 면, 국물, 그릇, 온도를 따져볼 수 있다.

주성분 분석을 통해 면, 그릇, 국물, 온도가 국수에 대한 만족도에 얼만큼의 영향을 끼치는지 알 수 있다. 면, 그릇, 국물, 온도가 만족도에 끼치는 영향을 수치화하여 맛에 대한 식을 만들 수 있다고 생각했다. 국수 별로 각 변수에 대해 표준점수를 구하고 상관행렬을 구하면 주성분의 누적 기여율을 알 수 있다. 누적 기여율이 일정 수치 이상 확보되어야 데이터가 신뢰성을 가지게 되므로 누적기여율을 따졌을 때 약 85% 이상이 되는 주성분까지 선택한다. 선택한 주성분들에 대한 식을 세우고 식을 기준으로 국수 종류에 대해 주성분 점수를 구할 수 있다.

분석한 데이터들을 바탕으로 비빔국수, 김치말이국수, 막국수, 콩국수, 잔치국수에 대한 전반적인 만족도 평가 순위를 매길 수 있으며 각각의 국수들에 대한 만족도에 면, 그릇, 국물, 온도 중 어떤 요소가 큰 영향을 끼치는지 확인할 수 있을 것이다. 분산이 가장 큰 축을 찾아내고 이러한 축들을 통해 데이터를 수집한다는 것을 알고 있었는데 기사 작성 중 직접 학습하면서 각각의 과정이 가지는 의미를 알게 되어 PCA에 대한 대략적인 개념이 아니라 구체적인 실행 과정까지 배울 수 있었다.

저작권자 © 복지TV부울경방송 무단전재 및 재배포 금지