각 학습에 대해 설명하기 앞서 간단하게 가장 큰 차이점을 언급하면
모형 구축 시 사용하는 데이터의 결과 값이 있는지(지도학습) 없는지(비지도학습)에 의해 분류한다.
1. 지도학습(supervised learning)
: 결과 값이 알려진 다변량 자료로 모형 구축 후, 새로운 자료에 대한 결과값을 예측 또는 분류 수행.
이때 결과 값의 자료 형에 따라 새로운 자료에 대한 주목적이 다르다.
결과 값의 자료형 | 새로운 데이터에 대한 목적 |
범주형 | 분류(classification) |
연속형 | 예측(prediction) |
하지만 유사한 의미로 사용되어 지도학습을 예측모형이라고도 함.
- 범주형 자료: 성별, 등급 등 집단으로 구분 가능한 자료
- 연속형 자료: 키, 온도, 주와 같이 해당 범위 안에 연속된 수치로 구성된 자료.
대표 방법으로 로지스틱 회귀, 의사결정나무, 인접이웃분류, 베이즈 분류, ANN, SVM 등이 있다
가장 흔하게 접하는 성과 예측, 목표 마케팅, 의학 진단등에 사용되는 방법 대부분은 지도학습인 경우가 많음.
2. 비지도학습(unsupervised learning)
: 결과 값이 없는 자료로 모형 구축 후, 새로운 자료에 대한 결과값을 예측 또는 분류 수행.
결과 값이 없어 '오차'라는 개념을 사용하지 않는다.
→ 비지도학습은 결과 값이 없어 분석 결과를 설명하는 것이 어렵다.
대표적인 방법으로 군집분석, 주성분분석, 독립성분 분석 등
각 지도학습과 비지도 학습에 해당하는 모형은 다음 글에서 하나씩 다룰 예정.
'데이터분석' 카테고리의 다른 글
[data mining] 지도학습 #1_로지스틱 회귀(logistic regression)_R (0) | 2023.01.21 |
---|---|
빅데이터(BigData) 의미와 특징 (0) | 2022.11.14 |
[data mining] #1_데이터 마이닝이란_의미, 목적, 적용분야, 주요 알고리즘 종류 (0) | 2022.11.03 |
댓글