불균형 데이터 학습: 머신러닝 모델의 편향 극복하기

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

move84

불균형 데이터 학습: 머신러닝 모델의 편향 극복하기 본문

머신러닝

불균형 데이터 학습: 머신러닝 모델의 편향 극복하기

move84 2025. 3. 9. 07:10

불균형 데이터 학습: 머신러닝 모델의 편향 극복하기

데이터 과학과 머신러닝 분야에서 흔히 직면하는 문제 중 하나는 불균형 데이터 (Imbalanced Data) 문제입니다. 이는 각 클래스 (Class, 클래스) 간의 샘플 수에 심각한 차이가 있는 데이터셋을 의미합니다. 예를 들어, 사기 거래 탐지 시스템에서 대부분의 거래는 정상 거래 (Normal Transactions)이며, 사기 거래 (Fraudulent Transactions)는 매우 적은 비율을 차지합니다. 이처럼 소수 클래스 (Minority Class)의 샘플 수가 과반수 클래스 (Majority Class)에 비해 현저히 적은 경우, 모델은 과반수 클래스를 잘 예측하도록 학습될 가능성이 높습니다. 이러한 편향은 모델의 성능 저하로 이어질 수 있으며, 특히 소수 클래스에 속하는 중요한 사례를 놓치는 결과를 초래할 수 있습니다.

⚖️ 불균형 데이터의 문제점

불균형 데이터 환경에서 발생하는 주요 문제점은 다음과 같습니다.

모델 편향 (Model Bias): 모델은 과반수 클래스에 치우쳐 학습되어 소수 클래스의 데이터를 정확하게 예측하는 데 어려움을 겪습니다. 이는 모델이 과반수 클래스의 패턴을 더 쉽게 학습하기 때문입니다.
낮은 소수 클래스 정확도 (Low Minority Class Accuracy): 모델은 소수 클래스에 속하는 샘플을 오분류하는 경향이 높아집니다. 이는 소수 클래스의 샘플 수가 적어 모델이 학습할 충분한 정보가 부족하기 때문입니다.
잘못된 성능 지표 (Inaccurate Performance Metrics): 일반적인 정확도 (Accuracy) 지표는 불균형 데이터셋에서 오해의 소지가 있을 수 있습니다. 예를 들어, 99%의 정상 거래와 1%의 사기 거래를 포함하는 데이터셋에서, 모델이 모든 거래를 정상으로 예측하더라도 99%의 정확도를 얻을 수 있습니다. 하지만 이는 사기 거래를 전혀 탐지하지 못하는 모델이므로 실제적인 의미가 없습니다.

💡 불균형 데이터 처리 방법

불균형 데이터 문제를 해결하기 위한 다양한 방법들이 존재합니다. 주요 방법들을 소개합니다.

데이터 재샘플링 (Resampling)
- 오버샘플링 (Oversampling): 소수 클래스의 샘플 수를 늘리는 방법입니다.
  - Random Oversampling (무작위 오버샘플링): 소수 클래스 샘플을 무작위로 복제하여 샘플 수를 늘립니다. 간단하지만, 과적합 (Overfitting, 과적합)의 위험이 있습니다.
  - SMOTE (Synthetic Minority Oversampling Technique, SMOTE): 소수 클래스 샘플을 기반으로 새로운 합성 샘플 (Synthetic Samples)을 생성합니다. 이는 소수 클래스 샘플 간의 선형 보간을 통해 이루어집니다. SMOTE는 과적합 문제를 완화하는 데 도움이 될 수 있습니다.
```
from imblearn.over_sampling import SMOTE
from sklearn.datasets import make_classification
```
  예시 데이터 생성
  
  X, y = make_classification(n_classes=2, class_sep=2, weights=[0.1, 0.9],
```
                       n_informative=3, n_redundant=1, flip_y=0,
                       n_features=20, n_clusters_per_class=1,
                       n_samples=1000, random_state=10)
```
  SMOTE 적용
  
  smote = SMOTE(random_state=42)
  X_resampled, y_resampled = smote.fit_resample(X, y)
  
  print('원래 샘플 수:', X.shape, y.shape)
  print('SMOTE 적용 후 샘플 수:', X_resampled.shape, y_resampled.shape)
```
- 언더샘플링 (Undersampling): 과반수 클래스의 샘플 수를 줄이는 방법입니다.
  - Random Undersampling (무작위 언더샘플링): 과반수 클래스 샘플을 무작위로 제거합니다. 계산 효율성이 높지만, 중요한 정보를 잃을 수 있습니다.
  - Tomek Links: 서로 다른 클래스에 속하는 가장 가까운 쌍의 샘플을 제거합니다. 이 방법은 결정 경계 (Decision Boundary)를 개선하는 데 도움이 될 수 있습니다.
```
from imblearn.under_sampling import RandomUnderSampler
from sklearn.datasets import make_classification
```
  예시 데이터 생성
  
  X, y = make_classification(n_classes=2, class_sep=2, weights=[0.1, 0.9],
```
                       n_informative=3, n_redundant=1, flip_y=0,
                       n_features=20, n_clusters_per_class=1,
                       n_samples=1000, random_state=10)
```
  Random Undersampling 적용
  
  rus = RandomUnderSampler(random_state=42)
  X_resampled, y_resampled = rus.fit_resample(X, y)
  
  print('원래 샘플 수:', X.shape, y.shape)
  print('Random Undersampling 적용 후 샘플 수:', X_resampled.shape, y_resampled.shape)
알고리즘 기반 방법 (Algorithm-Level Methods)
- 가중치 부여 (Cost-Sensitive Learning): 소수 클래스에 더 높은 가중치를 부여하여 모델이 소수 클래스 샘플을 더 중요하게 여기도록 합니다. 예를 들어, Logistic Regression (로지스틱 회귀)에서 class_weight 매개변수를 사용하여 클래스별 가중치를 설정할 수 있습니다.
```
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification

# 예시 데이터 생성
X, y = make_classification(n_classes=2, class_sep=2, weights=[0.1, 0.9],
                           n_informative=3, n_redundant=1, flip_y=0,
                           n_features=20, n_clusters_per_class=1,
                           n_samples=1000, random_state=10)

# 클래스 가중치 설정
# 소수 클래스 (클래스 0)에 더 높은 가중치 부여
model = LogisticRegression(class_weight={0: 10, 1: 1}, random_state=42)
model.fit(X, y)
```
- 앙상블 방법 (Ensemble Methods): 불균형 데이터를 처리하는 데 효과적인 앙상블 알고리즘을 사용합니다.
  - SMOTEBoost: SMOTE와 Boosting (부스팅)을 결합한 방법으로, 소수 클래스 샘플에 대한 가중치를 조정하여 모델의 성능을 향상시킵니다.
  - Balanced Random Forest: 각 트리를 훈련할 때 샘플을 재샘플링하여 균형 잡힌 데이터셋을 사용합니다.
성능 평가 지표 (Evaluation Metrics)
- 정확도 (Accuracy): 전체 샘플 중 올바르게 예측된 샘플의 비율. 불균형 데이터에서는 오해의 소지가 있을 수 있습니다.
- 정밀도 (Precision): 모델이 '양성'이라고 예측한 것 중 실제로 양성인 샘플의 비율. 사기 거래 탐지에서, 정밀도는 모델이 사기라고 판단한 거래 중 실제로 사기인 거래의 비율을 나타냅니다.
- 재현율 (Recall): 실제 '양성'인 샘플 중 모델이 '양성'으로 정확하게 예측한 샘플의 비율. 사기 거래 탐지에서, 재현율은 실제 사기 거래 중 모델이 얼마나 잘 탐지하는지를 나타냅니다.
- F1 점수 (F1-score): 정밀도와 재현율의 조화 평균. 불균형 데이터셋에서 모델의 성능을 평가하는 데 유용합니다.
- ROC 곡선 (Receiver Operating Characteristic Curve, ROC Curve) 및 AUC (Area Under the ROC Curve, AUC): 모델의 분류 성능을 시각적으로 평가하는 방법. ROC 곡선은 다양한 임계값 (Threshold)에서 모델의 TPR (True Positive Rate, 진양성률, 재현율과 동일)과 FPR (False Positive Rate, 위양성률)을 나타냅니다. AUC는 ROC 곡선 아래의 면적으로, 1에 가까울수록 모델의 성능이 우수함을 의미합니다.
- 정밀도-재현율 곡선 (Precision-Recall Curve): 정밀도와 재현율 사이의 관계를 나타내는 곡선. 불균형 데이터에서 ROC 곡선보다 유용한 정보를 제공할 수 있습니다.

✅ 데이터 과학 실무에서의 고려 사항

불균형 데이터 문제를 해결하기 위한 방법은 데이터셋의 특성, 사용되는 모델, 그리고 문제의 중요도에 따라 달라집니다. 다음은 실무에서 고려해야 할 몇 가지 사항입니다.

데이터 이해 (Data Understanding): 데이터의 분포, 특징, 그리고 문제의 도메인 지식을 충분히 이해하는 것이 중요합니다.
다양한 방법 시도 (Try Different Methods): 단일 솔루션에 의존하기보다는, 다양한 재샘플링 기법, 알고리즘, 성능 평가 지표를 시도하여 최적의 조합을 찾아야 합니다.
모델 평가 (Model Evaluation): 불균형 데이터에 적합한 성능 평가 지표를 사용하여 모델의 성능을 객관적으로 평가해야 합니다. 특히, 소수 클래스의 성능을 주의 깊게 살펴보아야 합니다.
도메인 지식 활용 (Utilize Domain Knowledge): 문제의 도메인 지식을 활용하여 데이터를 전처리하고, 특징을 엔지니어링하며, 모델을 튜닝할 수 있습니다. 예를 들어, 사기 거래 탐지 시스템에서 사기 유형에 대한 정보를 활용할 수 있습니다.

마지막으로, 불균형 데이터 학습은 머신러닝 프로젝트에서 중요한 고려 사항입니다. 데이터의 불균형을 이해하고, 적절한 처리 방법을 적용하여 모델의 성능을 극대화하는 것이 중요합니다. 다양한 기법들을 실험하고, 문제에 가장 적합한 솔루션을 찾는 노력이 필요합니다.

핵심 용어 정리

불균형 데이터 (Imbalanced Data): 클래스 간 샘플 수의 차이가 큰 데이터셋.
과반수 클래스 (Majority Class): 샘플 수가 가장 많은 클래스.
소수 클래스 (Minority Class): 샘플 수가 가장 적은 클래스. 일반적으로 관심 대상이 되는 클래스.
오버샘플링 (Oversampling): 소수 클래스의 샘플 수를 늘리는 방법.
언더샘플링 (Undersampling): 과반수 클래스의 샘플 수를 줄이는 방법.
SMOTE (Synthetic Minority Oversampling Technique): 합성 샘플을 생성하여 오버샘플링하는 기법.
가중치 부여 (Cost-Sensitive Learning): 클래스별로 다른 가중치를 부여하여 모델 학습에 반영하는 방법.
정밀도 (Precision): 모델이 '양성'으로 예측한 것 중 실제 '양성'의 비율.
재현율 (Recall): 실제 '양성'인 것 중 모델이 '양성'으로 예측한 비율.
F1 점수 (F1-score): 정밀도와 재현율의 조화 평균.
ROC 곡선 (Receiver Operating Characteristic Curve): 다양한 임계값에서 모델의 성능을 시각화하는 그래프.
AUC (Area Under the ROC Curve): ROC 곡선 아래의 면적. 모델의 성능을 나타내는 지표.

'머신러닝' 카테고리의 다른 글

머신러닝: 위험 민감 학습 (Risk-Sensitive Learning) (0)	2025.03.09
머신러닝 모델 보정 기법: 신뢰도를 높이는 방법 (0)	2025.03.09
머신러닝: 준지도 클러스터링 기법 이해하기 (0)	2025.03.09
머신러닝: 자기 지도 학습 (Self-Supervised Learning) 완전 정복 (0)	2025.03.08
머신러닝: 다중 레이블 분류 기법 탐구 (0)	2025.03.08

'머신러닝' Related Articles

move84

불균형 데이터 학습: 머신러닝 모델의 편향 극복하기 본문

불균형 데이터 학습: 머신러닝 모델의 편향 극복하기

불균형 데이터 학습: 머신러닝 모델의 편향 극복하기

예시 데이터 생성

SMOTE 적용

예시 데이터 생성

Random Undersampling 적용

'머신러닝' 카테고리의 다른 글

티스토리툴바