머신러닝 (Machin Learning)에서의 지도 학습 (Supervised Learning) vs 비지도 학습 (Unsupervised Learning)

오늘은 기계학습 머신러닝 (Machin Learning)에서의 지도 학습 (Supervised Learning) vs

비지도 학습 (Unsupervised Learning)에 대해서 학습해 보자.

1. 지도 학습 (Supervised Learning)
1) 개요

지도학습은 가장 흔히 사용되는 머신 러닝 방법 중 하나로 라벨(정답)이 있는 데이터를 사용하여 모델을 학습시키는 방법으로, 입력 데이터(Feature)와 출력 데이터(Label) 간의 관계를 학습한 뒤, 새로운 입력 데이터에 대해 출력을 예측합니다.

각 입력 벡터를 유한한 개수의 이산적 범주 중 하나에 할당하는 문제는 분류 문제라고 한다.
원하는 출력이 하나 이상의 연속적인 변수로 구성될 경우, 이 작업을 회귀라고 한다.
목표는 X와 y 쌍으로 이루어진 훈련 세트를 기반으로 X에서 y로의 매핑을 학습하는 것이다.
여기서 y는 예제의 라벨 또는 타깃이라고 불린다.

예를 들어, 고양이와 개의 사진이 있는 데이터셋을 가정하고, 각각의 사진에 고양이인지,

개인지 라벨(정답)이 붙여 놓은 후 컴퓨터는 이러한 정답이 있는 데이터 셋을 통해 고양이와

개를 구분하는 방법을 배웁니다. 이렇게 배운 지식을 바탕으로 새로운 사진을 받았을 때, 이

사진이 고양이인지 개인지 예측할 수 있게 됩니다.

지도학습은 이렇게 정답이 있는 데이터를 통해 학습하는 것이 특징입니다.

2) 주요 특징

데이터에 정답(라벨)이 포함되어 있음
목표: 입력과 출력 사이의 관계를 찾아내는 것.

3) 알고리즘 예시

분류(Classification): 데이터가 특정 카테고리/ 이산적인 클래스(범주)에 속하는지를 예측.
ex) 이메일이 스팸인지 아닌지 분류.
회귀(Regression): 입력 데이터를 기반으로 연속적인 출력 값을 예측하는 데 중점
ex) 집값이나 주식 가격 예측.

4) 예시 : 학생의 공부 시간에 따라 시험 점수를 예측.

. 입력 데이터(Feature): 공부 시간
. 출력 데이터(Label): 시험 점수

Regression의 종류에는 Linear Regression, Logistic Regression, Ridge Regression, Lasso Regression, Support Vector Regression (SVR), Decision Tree Regression 가 있으며, Classification 에는 Logistic Regression, Support Vector Machine (SVM), k-Nearest Neighbors (KNN), Decision Trees Random Forests 가 있습니다.

5) 구현

지도 학습은 모델이 레이블이 있는 데이터로 훈련되어 입력 데이터를 해당 출력 레이블에 매핑하는 함수(f)를 학습하는 기계 학습의 한 유형입니다 (Bishop, 2006).
각 입력 벡터를 유한 개수의 이산적인 범주 중 하나에 할당하는 문제를 분류 문제라고 합니다.
원하는 출력이 하나 이상의 연속적인 변수로 구성된 경우, 이 작업은 회귀라고 합니다.
목표는 X에서 y로의 매핑을 학습하는 것입니다. 여기서 y는 예제의 레이블 또는 목표(target)라고 불립니다 (Chapelle et al., 2006). 회귀는 입력 데이터를 기반으로 연속적인 출력 값을 예측하는 데 집중하는 반면, 분류는 데이터 포인트를 이산적인 클래스에 분류하는 문제입니다.

2. 비지도 학습 (Unsupervised Learning)

1) 정의
비지도 학습은 라벨(정답)이 없이 데이터를 기반으로 모델을 학습시키며, 내재된 구조나 패턴을 식별하는 것을 목표로 하는 머신러닝 기법이며, 데이터를 그룹으로 나누거나 데이터의 구조를 파악하는 데 주로 사용됩니다.

비록 오늘날 머신러닝의 대부분의 응용은 지도 학습에 기반을 두고 있으며(결과적으로 대부분의 투자가 여기에 집중됨) 있지만, 사용할 수 있는 데이터의 대다수는 라벨이 없는 상태이다. 즉, 입력 특성 X는 있지만, 라벨 y는 없습니다.

2) 비지도 학습 문제에서 목표
데이터 내에서 유사한 예제들의 그룹을 발견하는 것(이를 클러스터링), 입력 공간 내에서 데이터의 분포를 결정하는 것(밀도 추정), 또는 시각화를 목적으로 고차원 공간의 데이터를 2차원 또는 3차원으로 투영하는 것일 수 있으며, 데이터에서 흥미로운 구조를 찾는 것입니다.

3) 주요 특징 : 데이터에 정답(라벨)이 없음.

목표: 데이터의 숨겨진 구조나 관계를 찾는 것.
비지도 학습은 모델이 명시적인 레이블 없이 데이터에서 학습하는 기계 학습 기법을 의미하며, 내재된 구조나 패턴을 식별하는 것을 목표로 합니다 (Hastie et al., 2009).

"오늘날 기계 학습의 대부분의 응용은 지도 학습에 기반을 두고 있으며(이로 인해 대부분의 투자가 이쪽으로 가고 있음), 사용 가능한 데이터의 대부분은 레이블이 없습니다: 우리는 입력 특성 X는 있지만 레이블 y는 없습니다" (Geron, 2023).
모델은 데이터 자체의 구조에서 학습하여 미리 정의된 레이블 없이 그룹이나 패턴을 식별합니다.

4) 알고리즘 예시 : 클러스터링(Clustering): 데이터들을 유사한 그룹으로 묶음.

. 고객을 행동 패턴에 따라 그룹화. 데이터 시각화를 위한 PCA(주성분 분석)

5) 비지도 학습 응용 분야

고객 세분화: 공통된 특성을 기반으로 고객을 구분된 그룹으로 나누어, 맞춤형 마케팅 및 개인화된 경험을 제공할 수 있도록 지원.
데이터 분석: 대규모 데이터셋에서 패턴과 구조를 식별하여 통찰력을 얻고, 정보에 기반한 결정을 내리는 데 기여.
차원 축소: 데이터셋의 특징 수를 줄이면서도 필수 정보를 유지하여 계산 효율성과 시각화를 개선.
Feature Engineering: 머신러닝 모델의 성능을 향상시키기 위해 원시 데이터로부터 새로운 특징을 추출하거나 생성.
이상 탐지(이상값 탐지): 데이터에서 표준에서 크게 벗어난 비정상적인 패턴이나 관찰값을 식별하여 잠재적인 문제를 나타냄
Semi-Supervised Learning (예: 라벨 전파): 적은 양의 라벨이 있는 데이터와 많은 양의 라벨이 없는 데이터를 함께 사용하여 모델의 정확도를 향상하며, 종종 라벨을 전파하는 방식으로 수행.
검색 엔진(유사 이미지 검색): 시각적 특징을 기반으로 클러스터링 하여, 주어진 쿼리 이미지와 시각적으로 유사한 이미지를 데이터셋에서 검색.
이미지 분할: 분석을 단순화하거나 특정 응용 프로그램(예: 객체 감지 또는 의료 영상)에 사용하기 위해 이미지를 의미 있는 영역이나 세그먼트로 나눔

3. 지도 학습 vs 비지도 학습

특징	지도 학습	비지도 학습
입력 데이터	입력과 출력(라벨)이 있음	입력만 있음
목표	입력 → 출력 관계 학습	데이터의 숨겨진 패턴이나 구조 파악
주요 알고리즘	분류(Classification), 회귀(Regression)	클러스터링(Clustering), 차원 축소(PCA)
예시	손글씨 숫자 이미지 → 숫자(0~9) 예측	고객 데이터 → 그룹화

저작자표시 비영리 변경금지 (새창열림)

늦깎이 학생과 함께하는 AI 인공지능 첫걸음

머신러닝 (Machin Learning)에서의 지도 학습 (Supervised Learning) vs 비지도 학습 (Unsupervised Learning)

티스토리툴바