강화학습: Trust Region Policy Optimization (TRPO) 완전 정복

강화학습

강화학습: Trust Region Policy Optimization (TRPO) 완전 정복

move84 2025. 4. 6. 09:45

강화학습(Reinforcement Learning, RL)은 에이전트가 환경과 상호작용하며 보상을 최대화하도록 학습하는 분야입니다. 이 글에서는 강화학습 알고리즘 중 하나인 Trust Region Policy Optimization (TRPO, 신뢰 영역 정책 최적화)에 대해 자세히 알아보겠습니다. TRPO는 정책 최적화(Policy Optimization) 기법의 한 종류로, 정책 업데이트 시 안정성을 확보하여 학습 효율을 높이는 데 기여합니다.

🧐 TRPO란 무엇인가요? (What is TRPO?)

TRPO는 정책 기울기(Policy Gradient) 방법을 사용하여 정책을 학습합니다. 정책 기울기 방법은 정책 파라미터를 업데이트하여 더 높은 보상을 얻도록 에이전트를 유도합니다. 그러나, 정책을 대폭 변경하면 학습 과정에서 불안정성이 발생할 수 있습니다. TRPO는 이러한 문제를 해결하기 위해 정책 업데이트의 크기를 제한하는 '신뢰 영역(Trust Region)' 개념을 도입합니다. 즉, 새로운 정책이 이전 정책과 너무 크게 달라지지 않도록 제한하여 학습의 안정성을 확보합니다. 이는 학습 과정에서 정책이 급격하게 변하는 것을 막아 수렴 속도를 향상시키고, 더 나은 성능을 보장하는 데 도움을 줍니다.

🔑 핵심 개념: 신뢰 영역 (Key Concepts: Trust Region)

TRPO의 핵심은 신뢰 영역입니다. 신뢰 영역은 정책 업데이트가 허용되는 '안전한' 영역을 정의합니다. 이 영역 내에서 정책을 업데이트하면 학습의 안정성이 보장됩니다. TRPO는 각 업데이트 단계에서 현재 정책과 새로운 정책 간의 차이를 측정하고, 이 차이가 미리 정의된 임계값을 초과하지 않도록 합니다. 이러한 신뢰 영역은 KL 발산(Kullback-Leibler divergence, KL-divergence)을 사용하여 계산됩니다. KL 발산은 두 확률 분포 간의 차이를 측정하는 척도입니다. TRPO에서는 이전 정책과 새로운 정책 간의 KL 발산을 계산하여 정책 업데이트의 크기를 제어합니다.

💡 KL 발산 (KL Divergence) 이해하기

KL 발산은 두 확률 분포 P와 Q의 차이를 측정합니다. 수식은 다음과 같습니다:

KL(P || Q) = sum(P(x) * log(P(x) / Q(x)))

여기서 P는 이전 정책, Q는 새로운 정책입니다. KL 발산 값이 작을수록 두 정책은 유사하며, KL 발산 값이 클수록 두 정책은 서로 다릅니다. TRPO는 KL 발산 값을 제한하여 새로운 정책이 이전 정책과 너무 크게 달라지지 않도록 합니다. KL 발산은 정보 이론에서 중요한 개념이며, 머신러닝, 특히 강화학습에서 정책 변화를 제어하는 데 널리 사용됩니다.

🛠️ TRPO 알고리즘 동작 방식 (How TRPO Works)

TRPO 알고리즘은 다음과 같은 단계를 거쳐 작동합니다:

정책 평가 (Policy Evaluation): 현재 정책을 사용하여 환경과 상호 작용하고, 각 상태에서 얻는 보상과 가치를 추정합니다.
정책 개선 (Policy Improvement): 정책 기울기 방법을 사용하여 정책을 개선합니다. 이때, KL 발산 값을 제한하여 신뢰 영역 내에서 정책을 업데이트합니다.
KL 발산 계산 (KL Divergence Calculation): 이전 정책과 새로운 정책 간의 KL 발산을 계산합니다.
업데이트 제한 (Update Restriction): KL 발산 값이 미리 정의된 임계값을 초과하지 않도록 정책 업데이트를 제한합니다.
반복 (Iteration): 1-4단계를 반복하여 정책을 지속적으로 개선합니다.

간단한 Python 예시를 통해 TRPO 알고리즘의 핵심 아이디어를 살펴보겠습니다.

import numpy as np

def kl_divergence(p, q):
    """KL 발산 계산 함수"""
    return np.sum(p * np.log(p / q))

def trpo_update(policy, old_policy, kl_constraint, advantage):
    """TRPO 정책 업데이트"""
    # (실제 구현에서는 정책 기울기 계산, Hessian 행렬 계산 등 복잡한 과정이 포함됩니다)
    # 단순화를 위해, 여기서는 advantage를 사용하여 정책을 업데이트하는 가상의 예시를 보입니다.
    # 실제 구현에서는 optimization solver를 사용하여 정책을 최적화합니다.
    # policy는 현재 정책의 확률, old_policy는 이전 정책의 확률, advantage는 각 상태에서 얻는 이점
    # kl_constraint는 KL 발산의 최대 허용 값

    # 1. 정책 기울기 계산 (이 부분은 생략, 실제로는 계산 필요)
    # policy_gradient = ...  (정책 기울기 계산)

    # 2. 정책 업데이트 (간단화된 예시)
    new_policy = policy + 0.01 * advantage # 예시로, advantage를 사용하여 업데이트

    # 3. KL 발산 계산
    kl_div = kl_divergence(old_policy, new_policy)

    # 4. KL 발산 제한 (신뢰 영역 제약)
    if kl_div > kl_constraint:
        # KL 발산이 제한을 초과하면, 업데이트 크기를 줄이거나, 다른 방법을 사용합니다.
        # 여기서는 간단하게 이전 정책으로 돌아가는 예시를 보입니다.
        new_policy = policy # 신뢰 영역을 벗어나면, 업데이트를 하지 않음

    return new_policy

# 예시 사용
old_policy = np.array([0.1, 0.2, 0.3, 0.4]) # 이전 정책
policy = np.array([0.1, 0.2, 0.3, 0.4]) # 현재 정책 (초기화)
kl_constraint = 0.01 # KL 발산 제한
advantage = np.array([0.1, 0.2, 0.1, -0.1]) # 각 상태의 이점

new_policy = trpo_update(policy, old_policy, kl_constraint, advantage)

print("새로운 정책:", new_policy)

이 예시는 TRPO의 단순화된 버전을 보여주며, 실제 구현과는 차이가 있을 수 있습니다. 실제 TRPO 구현에서는 정책 기울기 계산, Hessian 행렬 계산, 그리고 optimization solver를 활용하여 더 복잡한 과정을 거칩니다.

✅ TRPO의 장점 (Advantages of TRPO)

TRPO는 다음과 같은 장점을 가지고 있습니다:

학습 안정성 (Training Stability): 신뢰 영역을 통해 정책 업데이트의 크기를 제한하여 학습의 안정성을 높입니다.
수렴 속도 향상 (Improved Convergence): 안정적인 학습을 통해 수렴 속도를 향상시킬 수 있습니다.
성능 개선 (Performance Enhancement): 학습의 안정성을 바탕으로, 더 나은 성능을 달성할 수 있습니다.

⚠️ TRPO의 단점 (Disadvantages of TRPO)

TRPO는 다음과 같은 단점도 가지고 있습니다:

계산 복잡성 (Computational Complexity): KL 발산 계산 및 Hessian 행렬 계산 등의 과정으로 인해 계산 복잡성이 높습니다.
구현의 어려움 (Implementation Difficulty): 알고리즘의 복잡성으로 인해 구현이 어렵습니다.
제한적인 사용 (Limited Use): 계산 복잡성 때문에, 대규모 문제에 적용하기 어려울 수 있습니다.

💡 TRPO와 다른 정책 최적화 알고리즘 비교 (TRPO vs Other Policy Optimization Algorithms)

TRPO는 다른 정책 최적화 알고리즘과 비교하여 다음과 같은 특징을 갖습니다:

PPO (Proximal Policy Optimization): PPO는 TRPO의 개선된 버전으로, KL 발산 대신 클리핑(Clipping) 기법을 사용하여 정책 업데이트를 제한합니다. PPO는 TRPO보다 구현이 쉽고, 일반적으로 더 빠른 학습 속도를 보입니다.
REINFORCE: REINFORCE는 정책 기울기 방법을 사용하는 기본적인 알고리즘입니다. TRPO와 비교하여 학습 안정성이 낮고, 수렴 속도가 느릴 수 있습니다.

📚 결론 (Conclusion)

TRPO는 강화학습에서 안정적인 정책 학습을 위한 중요한 알고리즘입니다. 신뢰 영역 개념을 통해 정책 업데이트를 제어하고, 학습 과정의 안정성을 확보합니다. 계산 복잡성이라는 단점에도 불구하고, TRPO는 강화학습 연구 및 개발에 중요한 기여를 했습니다. PPO와 같은 다른 정책 최적화 알고리즘과 함께, 강화학습 분야의 발전에 기여하고 있습니다. TRPO에 대한 이해는 강화학습의 핵심 개념을 이해하고, 더 발전된 알고리즘을 학습하는 데 도움이 될 것입니다.

요약 (Summary)

TRPO는 강화학습의 정책 최적화 알고리즘 중 하나입니다.
신뢰 영역(Trust Region)을 사용하여 정책 업데이트의 크기를 제한합니다.
KL 발산(KL Divergence)을 사용하여 신뢰 영역을 정의합니다.
학습 안정성을 높이고 수렴 속도를 향상시킵니다.
계산 복잡성과 구현의 어려움이라는 단점을 가지고 있습니다.