머신러닝: 파라미터(Parameter)와 하이퍼파라미터(Hyperparameter) 구분

머신러닝

머신러닝: 파라미터(Parameter)와 하이퍼파라미터(Hyperparameter) 구분

move84 2025. 4. 12. 15:16

머신러닝 모델을 훈련할 때, 모델의 성능을 결정하는 중요한 요소는 파라미터와 하이퍼파라미터이다. 이 두 가지는 모델 훈련 과정에서 서로 다른 역할을 수행하며, 적절한 이해와 설정이 필요하다. 이 글에서는 파라미터와 하이퍼파라미터의 차이점을 명확히 설명하고, 머신러닝 모델을 효과적으로 훈련하는 데 필요한 지식을 제공한다.

🤖 파라미터 (Parameters)
파라미터는 머신러닝 모델 내부에서 결정되는 변수이다. 모델이 훈련 데이터로부터 학습하여 최적의 값을 찾아낸다. 파라미터는 모델의 예측 능력을 직접적으로 결정하며, 학습 과정에서 지속적으로 업데이트된다. 예를 들어, 선형 회귀 모델에서는 가중치(weights)와 편향(bias)이 파라미터에 해당된다.

🤔 파라미터의 예시
선형 회귀 모델을 예로 들어보자. 선형 회귀 모델은 다음과 같은 식으로 표현된다.

y = wx + b

여기서 y는 예측값, x는 입력값, w는 가중치(weight), b는 편향(bias)이다. w와 b는 모델이 학습을 통해 결정해야 하는 파라미터이다. 모델은 훈련 데이터를 이용하여 w와 b의 최적값을 찾아 예측 정확도를 높인다.

import numpy as np

# 가상의 훈련 데이터
X = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 5, 4, 5])

# 초기 가중치와 편향 설정
w = 0.0
b = 0.0

# 학습률 설정
learning_rate = 0.01

# 경사 하강법을 이용한 파라미터 업데이트
epochs = 1000
for i in range(epochs):
    # 예측값 계산
    y_pred = w * X + b

    # 비용 함수 (평균 제곱 오차) 계산
    cost = np.mean((y_pred - y) ** 2)

    # 가중치와 편향에 대한 기울기 계산
    dw = np.mean(2 * X * (y_pred - y))
    db = np.mean(2 * (y_pred - y))

    # 파라미터 업데이트
    w = w - learning_rate * dw
    b = b - learning_rate * db

    # 100번의 반복마다 비용 출력
    if i % 100 == 0:
        print(f'Epoch {i}: Cost = {cost}, w = {w}, b = {b}')

print(f'최종 가중치: {w}, 최종 편향: {b}')

위 코드에서 w와 b는 경사 하강법(gradient descent)을 통해 업데이트되며, 모델의 예측 성능을 높이는 방향으로 조정된다.

⚙️ 하이퍼파라미터 (Hyperparameters)
하이퍼파라미터는 머신러닝 모델 훈련 전에 사용자가 직접 설정하는 값이다. 모델의 학습 방식과 성능에 영향을 미치며, 파라미터와 달리 훈련 과정에서 자동으로 변경되지 않는다. 하이퍼파라미터 튜닝은 모델의 성능을 최적화하는 중요한 과정이다.

🤔 하이퍼파라미터의 예시
다양한 머신러닝 모델에서 하이퍼파라미터의 예시를 살펴보자.

학습률 (Learning Rate): 경사 하강법에서 파라미터를 업데이트하는 정도를 결정한다. 너무 크면 최적값을 지나칠 수 있고, 너무 작으면 학습이 느려질 수 있다.
배치 크기 (Batch Size): 한 번의 업데이트에 사용할 데이터 샘플의 수를 결정한다.
에폭 수 (Number of Epochs): 전체 훈련 데이터를 몇 번 반복하여 학습할지 결정한다.
규제 강도 (Regularization Strength): 모델의 복잡도를 제어하여 과적합을 방지한다. L1, L2 규제에서 사용되는 lambda 값이다.
결정 트리 깊이 (Maximum Depth of Decision Tree): 결정 트리의 최대 깊이를 제한하여 과적합을 방지한다.
K-최근접 이웃 (K-Nearest Neighbors)의 K 값: 분류에 사용할 이웃의 수를 결정한다.

🛠️ 하이퍼파라미터 튜닝 방법

하이퍼파라미터 튜닝은 모델의 성능을 극대화하는 데 필수적이다. 주요 튜닝 방법은 다음과 같다.

그리드 서치 (Grid Search): 미리 정의된 하이퍼파라미터 값들의 조합을 모두 시도하여 최적의 조합을 찾는다.
랜덤 서치 (Random Search): 하이퍼파라미터 공간에서 무작위로 샘플링하여 최적의 조합을 찾는다. 그리드 서치보다 효율적일 수 있다.
베이지안 최적화 (Bayesian Optimization): 이전 하이퍼파라미터 설정의 결과를 바탕으로 다음 탐색할 하이퍼파라미터를 결정한다. 효율적인 탐색이 가능하다.
수동 튜닝 (Manual Tuning): 경험과 직관을 바탕으로 하이퍼파라미터를 수동으로 조정한다.

from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_classification

# 가상 데이터 생성
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)

# 훈련 데이터와 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# RandomForestClassifier 모델 생성
model = RandomForestClassifier(random_state=42)

# 탐색할 하이퍼파라미터 그리드 정의
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [5, 10, 15],
    'min_samples_split': [2, 5, 10]
}

# GridSearchCV를 이용한 하이퍼파라미터 튜닝
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=3, scoring='accuracy')
grid_search.fit(X_train, y_train)

# 최적의 하이퍼파라미터와 성능 출력
print('최적 하이퍼파라미터:', grid_search.best_params_)
print('최고 정확도:', grid_search.best_score_)

# 최적 모델로 테스트 데이터 평가
best_model = grid_search.best_estimator_
accuracy = best_model.score(X_test, y_test)
print('테스트 정확도:', accuracy)

🎯 주요 용어 정리

파라미터 (Parameter): 모델 내부에서 학습되는 변수 (Variables learned by the model)
하이퍼파라미터 (Hyperparameter): 사용자가 직접 설정하는 모델의 설정값 (Settings configured by the user)
학습률 (Learning Rate): 파라미터 업데이트 정도 (Parameter update magnitude)
배치 크기 (Batch Size): 한 번에 처리하는 데이터 샘플 수 (Number of data samples processed at once)
에폭 수 (Number of Epochs): 전체 데이터 반복 학습 횟수 (Number of complete data iterations)
규제 강도 (Regularization Strength): 모델 복잡도 제어 강도 (Strength of complexity control)