강화 학습: 정책 최적화에서 KL-발산 활용

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

move84

강화 학습: 정책 최적화에서 KL-발산 활용 본문

강화학습

강화 학습: 정책 최적화에서 KL-발산 활용

move84 2025. 4. 8. 08:23

강화 학습(Reinforcement Learning, RL)은 에이전트가 환경과 상호 작용하며 보상을 최대화하는 정책을 학습하는 분야입니다. 정책 최적화(Policy Optimization)는 이러한 정책을 개선하는 중요한 방법론 중 하나입니다. 이 글에서는 정책 최적화에서 KL-발산(KL-Divergence)을 활용하는 방법에 대해 알아보고, 그 중요성과 실용적인 예시를 살펴보겠습니다.

🧐 정책 최적화란 무엇인가요? (What is Policy Optimization?)

정책 최적화는 강화 학습에서 정책(Policy)을 직접적으로 개선하는 방법입니다. 정책은 주어진 상태에서 에이전트가 어떤 행동을 할지 결정하는 함수입니다. 정책 최적화의 목표는 에이전트가 환경과의 상호 작용을 통해 얻는 누적 보상(Cumulative Reward)을 최대화하도록 정책을 업데이트하는 것입니다. 기존 정책을 조금씩 변경하면서 새로운 정책의 성능을 평가하고, 성능이 향상되면 새로운 정책을 채택하는 방식으로 진행됩니다. 이는 정책 기울기 방법(Policy Gradient Method)과 같은 알고리즘을 통해 구현될 수 있습니다.

💡 KL-발산의 기본 개념 (Basic Concept of KL-Divergence)

KL-발산(Kullback-Leibler Divergence)은 두 확률 분포 간의 차이를 측정하는 방법입니다. 두 확률 분포 P와 Q가 있을 때, KL-발산 D_KL(P || Q)는 분포 Q를 사용하여 분포 P를 얼마나 잘 근사할 수 있는지를 나타냅니다. 수식으로 표현하면 다음과 같습니다:

D_KL(P || Q) = sum(P(x) * log(P(x) / Q(x)))

KL-발산의 값은 항상 0 이상이며, 두 분포가 동일할 때 0이 됩니다. KL-발산은 비대칭적(asymmetric)이므로, D_KL(P || Q)는 D_KL(Q || P)와 같지 않습니다. 정책 최적화에서 KL-발산은 기존 정책과 새로운 정책 간의 변화 정도를 제어하는 데 사용됩니다. KL-발산이 크면 정책 변화가 크고, KL-발산이 작으면 정책 변화가 작습니다.

🚀 정책 최적화에서의 KL-발산 활용 (Using KL-Divergence in Policy Optimization)

정책 최적화에서 KL-발산을 사용하는 주된 이유는 정책 업데이트의 안정성을 확보하기 위해서입니다. 정책을 급격하게 변경하면 학습이 불안정해지거나 성능이 저하될 수 있습니다. KL-발산을 통해 정책 변화의 크기를 제한함으로써, 학습 과정의 안정성을 높이고, 정책이 지역 최적(local optima)에 빠지는 것을 방지할 수 있습니다. 특히, TRPO(Trust Region Policy Optimization)와 PPO(Proximal Policy Optimization)와 같은 알고리즘에서 KL-발산은 핵심적인 역할을 합니다.

💻 TRPO 알고리즘 (TRPO Algorithm)

TRPO는 신뢰 영역(Trust Region)을 기반으로 하는 정책 최적화 알고리즘입니다. TRPO의 핵심 아이디어는 KL-발산을 사용하여 정책 업데이트의 범위를 제한하는 것입니다. TRPO는 각 업데이트 단계에서 KL-발산이 특정 임계값(threshold) 이하가 되도록 정책을 업데이트합니다. 이를 통해 정책이 과도하게 변경되는 것을 방지하고, 학습의 안정성을 유지합니다.

TRPO의 주요 단계는 다음과 같습니다:

현재 정책에서 데이터를 수집합니다.
정책 변화에 대한 KL-발산을 계산합니다.
KL-발산 제약 조건을 만족하면서 성능을 최대화하는 방향으로 정책을 업데이트합니다.

TRPO는 다음과 같은 최적화 문제를 해결합니다:

maximize: Expected Reward (기대 보상)
subject to: D_KL(pi_old || pi_new) <= delta (KL-발산 <= 델타)

여기서, pi_old는 이전 정책, pi_new는 새로운 정책, delta는 KL-발산의 임계값입니다.

🏢 PPO 알고리즘 (PPO Algorithm)

PPO는 TRPO를 개선한 알고리즘으로, KL-발산 제약 조건을 직접적으로 사용하는 대신, 클리핑(Clipping) 기법을 사용하여 정책 업데이트를 제한합니다. PPO는 TRPO보다 계산 효율성이 높고, 구현이 더 쉽습니다. PPO는 다음과 같은 목표 함수를 사용합니다:

L(θ) = E[min(r_t(θ) * A_t, clip(r_t(θ), 1 - ε, 1 + ε) * A_t)]

여기서, r_t(θ)는 새로운 정책과 이전 정책의 행동 확률 비율, A_t는 Advantage function, ε는 클리핑 범위입니다. PPO는 클리핑 기법을 통해 정책 업데이트의 범위를 제한하여, 학습의 안정성을 확보합니다.

🤔 KL-발산의 장점 (Advantages of KL-Divergence)

안정적인 학습 (Stable Learning): KL-발산을 사용하여 정책 변화를 제한함으로써 학습의 안정성을 높입니다.
정책 최적화 향상 (Improved Policy Optimization): KL-발산을 통해 정책이 지역 최적에 빠지는 것을 방지하고, 전반적인 성능을 향상시킵니다.
다양한 알고리즘 적용 (Application in Various Algorithms): TRPO, PPO 등 다양한 정책 최적화 알고리즘에 적용 가능합니다.

🔬 KL-발산 관련 Python 코드 예시 (Python Code Example Related to KL-Divergence)

다음은 PyTorch를 사용하여 KL-발산을 계산하는 간단한 예시입니다.

import torch
import torch.nn.functional as F

# 두 개의 확률 분포 (가우시안 분포)
mean1 = torch.tensor([0.0, 0.0])
log_std1 = torch.tensor([0.5, 0.5])
mean2 = torch.tensor([0.1, 0.1])
log_std2 = torch.tensor([0.6, 0.6])

# KL-발산 계산
def gaussian_kl(mean1, log_std1, mean2, log_std2):
    std1 = torch.exp(log_std1)
    std2 = torch.exp(log_std2)
    kl = log_std2 - log_std1 + 0.5 * (std1**2 + (mean1 - mean2)**2) / (std2**2) - 0.5
    return kl.sum()

kl_divergence = gaussian_kl(mean1, log_std1, mean2, log_std2)
print(f"KL Divergence: {kl_divergence.item():.4f}")

이 코드는 두 개의 가우시안 분포에 대한 KL-발산을 계산합니다. gaussian_kl 함수는 두 분포의 평균(mean)과 표준 편차(standard deviation)를 입력으로 받아 KL-발산을 계산합니다. 이 예시를 통해 KL-발산이 어떻게 실제 코드에서 활용될 수 있는지 확인할 수 있습니다.

📚 요약 (Summary)

KL-발산은 정책 최적화에서 정책 업데이트의 안정성을 확보하고, 학습의 효율성을 높이는 데 중요한 역할을 합니다. TRPO와 PPO와 같은 알고리즘에서 핵심적인 요소로 사용되며, 강화 학습 모델의 성능을 향상시키는 데 기여합니다. KL-발산을 이해하고 활용하는 것은 강화 학습 분야에서 고급 알고리즘을 이해하고, 더 나은 성능을 달성하는 데 필수적입니다. 주요 용어들을 다시 한번 정리해 보면 다음과 같습니다:

강화 학습 (Reinforcement Learning): 에이전트가 환경과 상호 작용하여 보상을 최대화하는 학습 방법
정책 (Policy): 주어진 상태에서 에이전트가 어떤 행동을 할지 결정하는 함수
정책 최적화 (Policy Optimization): 정책을 직접적으로 개선하는 방법론
KL-발산 (KL-Divergence): 두 확률 분포 간의 차이를 측정하는 방법
TRPO (Trust Region Policy Optimization): 신뢰 영역을 기반으로 하는 정책 최적화 알고리즘
PPO (Proximal Policy Optimization): PPO는 TRPO를 개선한 알고리즘

'강화학습' 카테고리의 다른 글

강화 학습: 탐험을 위한 Parameter Noise (0)	2025.04.09
강화 학습: 신뢰 영역 기법 (Trust Region Methods) 심층 분석 (0)	2025.04.08
강화 학습: 정책 규제 기법 (Policy Regularization Techniques) 심층 분석 (0)	2025.04.08
강화 학습: Off-Policy Evaluation (OPE) 이해하기 (0)	2025.04.08
강화 학습: 현실 세계 적용 (Reinforcement Learning: RL in Real-World Applications) (0)	2025.04.08

'강화학습' Related Articles

move84

강화 학습: 정책 최적화에서 KL-발산 활용 본문

강화 학습: 정책 최적화에서 KL-발산 활용

'강화학습' 카테고리의 다른 글

티스토리툴바