머신러닝: K-평균(K-Means) 알고리즘

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

move84

머신러닝: K-평균(K-Means) 알고리즘 본문

머신러닝

머신러닝: K-평균(K-Means) 알고리즘

move84 2025. 4. 12. 15:17

K-평균(K-Means) 알고리즘은 비지도 학습의 대표적인 클러스터링 알고리즘 중 하나다. 이 알고리즘은 데이터 포인트를 k개의 클러스터로 묶는 것을 목표로 하며, 각 클러스터는 중심(centroid)이라는 대표점을 가진다. K-평균은 데이터 분석, 이미지 처리, 고객 세분화 등 다양한 분야에서 활용되며, 사용이 간편하고 효율적이라는 장점을 가진다. 이 글에서는 K-평균 알고리즘의 기본 원리, 작동 방식, 장단점, 그리고 실제 활용 예시를 살펴본다.

🧩 K-평균 알고리즘이란? (What is K-Means Algorithm?)
K-평균 알고리즘은 주어진 데이터를 k개의 클러스터로 나누는 비지도 학습 알고리즘이다. 여기서 k는 사용자가 미리 지정해야 하는 파라미터다. 알고리즘의 목표는 각 데이터 포인트를 가장 가까운 클러스터 중심에 할당하여 클러스터 내의 데이터 포인트 간의 거리를 최소화하는 것이다. 클러스터 중심은 해당 클러스터에 속한 데이터 포인트들의 평균 위치로 계산된다. K-평균은 데이터에 레이블이 없는 경우, 데이터의 숨겨진 구조를 발견하고 싶을 때 유용하게 사용된다.

핵심 용어:

클러스터(Cluster): 비슷한 속성을 가진 데이터 포인트들의 집합
중심(Centroid): 각 클러스터의 중심점, 클러스터에 속한 데이터 포인트들의 평균 위치
비지도 학습(Unsupervised Learning): 레이블이 없는 데이터를 사용하여 학습하는 방법

⚙️ K-평균 알고리즘의 작동 방식 (How K-Means Algorithm Works)
K-평균 알고리즘은 다음과 같은 단계를 거쳐 작동한다.

초기 중심 설정: 먼저, k개의 클러스터 중심을 무작위로 선택한다. 이 초기 중심은 데이터 포인트 중에서 선택하거나 임의의 위치로 설정할 수 있다.
클러스터 할당: 각 데이터 포인트를 가장 가까운 클러스터 중심에 할당한다. 이때 거리는 일반적으로 유클리드 거리(Euclidean distance)를 사용한다. 유클리드 거리는 두 점 사이의 직선 거리를 의미하며, 다음과 같이 계산된다.
distance = sqrt((x2 - x1)^2 + (y2 - y1)^2)
중심 업데이트: 각 클러스터의 중심을 다시 계산한다. 새로운 중심은 해당 클러스터에 속한 모든 데이터 포인트의 평균 위치로 설정된다.
반복: 클러스터 할당과 중심 업데이트 단계를 반복한다. 클러스터 중심이 더 이상 변하지 않거나, 미리 정해진 반복 횟수에 도달할 때까지 이 과정을 반복한다.

예를 들어, 2차원 평면에 5개의 데이터 포인트가 있고, k=2로 설정했다고 가정해 보자.

초기 중심을 (1, 1)과 (5, 5)로 무작위로 설정한다.
각 데이터 포인트를 더 가까운 중심에 할당한다.
새로운 중심을 계산한다. 예를 들어, 첫 번째 클러스터에 속한 데이터 포인트가 (1, 2), (2, 1), (2, 2)라면, 새로운 중심은 ((1+2+2)/3, (2+1+2)/3) = (1.67, 1.67)이 된다.
클러스터가 안정될 때까지 할당과 업데이트를 반복한다.

➕ K-평균 알고리즘의 장점과 단점 (Pros and Cons of K-Means Algorithm)
K-평균 알고리즘은 다양한 장점과 단점을 가진다.

장점:

구현이 간단하고 이해하기 쉽다.
계산 복잡도가 낮아 대규모 데이터셋에도 적용 가능하다.
다양한 분야에서 활용될 수 있다.

단점:

k값을 미리 지정해야 한다. 최적의 k값을 찾는 것이 어려울 수 있다.
초기 중심 위치에 따라 결과가 달라질 수 있다.
클러스터의 모양이 원형에 가까울 때 잘 작동한다. 복잡한 모양의 클러스터에는 적합하지 않다.
이상치(outlier)에 민감하다. 이상치가 클러스터 중심을 왜곡할 수 있다.

초기 중심 위치에 따른 문제점을 해결하기 위해 K-평균++ 알고리즘이 사용되기도 한다. K-평균++는 초기 중심을 무작위가 아닌, 데이터 포인트 간의 거리를 고려하여 선택하는 방법이다.

✔️ K-평균 알고리즘의 활용 예시 (Examples of K-Means Algorithm)
K-평균 알고리즘은 다양한 분야에서 활용될 수 있다. 몇 가지 예시는 다음과 같다.

고객 세분화(Customer Segmentation): 고객 데이터를 클러스터링하여 비슷한 특성을 가진 고객 그룹을 찾는다. 이를 통해 마케팅 전략을 최적화할 수 있다.
이미지 처리(Image Processing): 이미지를 클러스터링하여 비슷한 색상이나 질감을 가진 영역을 분리한다. 이를 통해 이미지 압축, 객체 인식 등에 활용할 수 있다.
이상 감지(Anomaly Detection): 데이터에서 정상 범위를 벗어나는 이상치를 탐지한다. 예를 들어, 신용카드 거래 데이터에서 사기 거래를 탐지할 수 있다.
문서 분류(Document Clustering): 문서들을 클러스터링하여 비슷한 주제의 문서를 그룹화한다. 이를 통해 정보 검색, 문서 요약 등에 활용할 수 있다.

다음은 Python을 사용하여 K-평균 알고리즘을 구현하는 간단한 예제이다. scikit-learn 라이브러리를 사용하여 K-평균 모델을 학습하고, 데이터를 클러스터링하는 방법을 보여준다.

from sklearn.cluster import KMeans
import numpy as np

# 샘플 데이터 생성
X = np.array([[1, 2], [1.5, 1.8], [5, 8], [8, 8], [1, 0.6], [9, 11]])

# K-평균 모델 생성 및 학습
kmeans = KMeans(n_clusters=2, random_state=0, 
                n_init = 'auto').fit(X)

# 예측 결과 확인
labels = kmeans.labels_
print(labels)  # [1 1 0 0 1 0]

# 새로운 데이터 포인트 예측
new_point = np.array([[0, 0]])
new_label = kmeans.predict(new_point)
print(new_label) # [1]

이 코드는 6개의 데이터 포인트를 2개의 클러스터로 묶는 예제다. KMeans 함수를 사용하여 모델을 생성하고, fit 함수를 사용하여 데이터를 학습한다. labels_ 속성을 통해 각 데이터 포인트가 어떤 클러스터에 속하는지 확인할 수 있다. predict 함수를 사용하여 새로운 데이터 포인트가 어떤 클러스터에 속할지 예측할 수도 있다.

정리 (Summary)

K-평균 알고리즘은 이해하기 쉽고 구현이 간단하며, 다양한 분야에서 활용될 수 있는 강력한 클러스터링 도구다. 그러나 최적의 k값을 찾는 것이 어렵고, 초기 중심 위치에 따라 결과가 달라질 수 있다는 단점도 가지고 있다. 이러한 단점을 보완하기 위해 K-평균++와 같은 알고리즘이 사용되기도 한다. K-평균 알고리즘을 효과적으로 활용하기 위해서는 데이터의 특성을 잘 이해하고, 적절한 파라미터를 선택하는 것이 중요하다.

주요 용어 정리:

클러스터 (Cluster): Cluster
중심 (Centroid): Centroid
비지도 학습 (Unsupervised Learning): Unsupervised Learning
유클리드 거리 (Euclidean Distance): Euclidean Distance
이상치 (Outlier): Outlier
초기 중심 (Initial Centroid): Initial Centroid

'머신러닝' 카테고리의 다른 글

머신러닝 클러스터링 기본 개념 (0)	2025.04.12
머신러닝: 주성분 분석(PCA)의 직관적 개념 (0)	2025.04.12
머신러닝: SVM(서포트 벡터 머신) 기초 (0)	2025.04.12
머신러닝: 파라미터(Parameter)와 하이퍼파라미터(Hyperparameter) 구분 (0)	2025.04.12
머신러닝::편향-분산 트레이드오프(Bias-Variance Tradeoff) (0)	2025.04.12

'머신러닝' Related Articles

move84

머신러닝: K-평균(K-Means) 알고리즘 본문

머신러닝: K-평균(K-Means) 알고리즘

'머신러닝' 카테고리의 다른 글

티스토리툴바