고차원 강화 학습에서의 탐험 기법

강화학습

고차원 강화 학습에서의 탐험 기법

move84 2025. 4. 8. 07:55

강화 학습(Reinforcement Learning, RL)은 에이전트가 환경과 상호 작용하며 보상을 최대화하도록 학습하는 머신 러닝의 한 분야이다. 복잡한 환경에서 에이전트가 효과적으로 학습하려면 탐험(Exploration)과 활용(Exploitation) 사이의 균형을 맞추는 것이 중요하다. 특히, 고차원 상태 공간(High-dimensional State Space)을 가진 환경에서는 탐험이 더욱 어려워진다. 본 글에서는 고차원 강화 학습 환경에서 효율적인 탐험을 위한 몇 가지 기법을 소개한다.

🤖 탐험과 활용 (Exploration vs. Exploitation)
강화 학습에서 탐험은 에이전트가 아직 알지 못하는 상태나 행동을 시도하는 것을 의미한다. 반면, 활용은 에이전트가 이미 학습한 정보를 바탕으로 보상이 높은 행동을 선택하는 것이다. 효과적인 학습을 위해서는 탐험과 활용 사이의 적절한 균형이 필요하다. 탐험이 부족하면 에이전트는 최적의 정책을 찾지 못하고, 과도한 탐험은 학습 속도를 늦출 수 있다. 특히 고차원 환경에서는 상태 공간의 크기가 커지므로, 모든 상태를 탐험하는 것이 불가능에 가까워 탐험 기법의 중요성이 커진다.

🚀 ε-탐욕 정책 (Epsilon-Greedy Policy)
ε-탐욕 정책은 가장 기본적인 탐험 기법 중 하나이다. 이 정책은 주어진 확률 ε(epsilon)로 무작위 행동을 선택하고, 확률 1-ε로 현재까지의 최적 행동을 선택한다. ε 값은 탐험의 정도를 조절하는 하이퍼파라미터(Hyperparameter)이며, 일반적으로 학습 초반에는 탐험을 위해 큰 값을, 학습이 진행됨에 따라 활용을 위해 작은 값을 사용한다.

import random

def epsilon_greedy(state, q_values, epsilon):
    if random.uniform(0, 1) < epsilon:
        # 탐험: 무작위 행동 선택
        return random.choice(list(q_values[state].keys()))
    else:
        # 활용: 최적 행동 선택
        return max(q_values[state], key=q_values[state].get)

이 코드에서 q_values는 각 상태-행동 쌍의 가치를 나타내는 딕셔너리이고, epsilon은 탐험의 정도를 조절하는 값이다. ε-탐욕 정책은 구현이 간단하지만, 탐험 과정에서 무작위 행동을 선택하기 때문에 효율성이 떨어질 수 있다. 즉, 좋은 행동을 우연히 발견해도, 그 정보를 활용하기보다는 다른 무작위 행동을 계속 시도할 수 있다.

🧭 볼츠만 탐험 (Boltzmann Exploration)
볼츠만 탐험은 행동 선택에 확률적 요소를 도입하는 또 다른 방법이다. 이 기법은 각 행동에 대한 Q-값(Q-value)을 기반으로 확률 분포를 생성하고, 그 분포에 따라 행동을 선택한다. 높은 Q-값을 가진 행동은 선택될 확률이 높지만, 낮은 Q-값을 가진 행동도 선택될 가능성이 열려 있어 탐험을 유도한다. 선택 확률은 다음과 같이 계산된다.

P(a|s) = exp(Q(s, a) / τ) / sum(exp(Q(s, a') / τ))

여기서, P(a|s)는 상태 s에서 행동 a를 선택할 확률, Q(s, a)는 상태 s에서 행동 a의 Q-값, τ (tau)는 온도(temperature)라는 하이퍼파라미터이다. τ 값이 높을수록 모든 행동의 선택 확률이 비슷해지고, τ 값이 낮을수록 Q-값이 높은 행동을 선택할 확률이 높아진다. 볼츠만 탐험은 ε-탐욕 정책보다 부드러운(softer) 탐험을 제공하며, 환경의 특성에 맞춰 τ 값을 조정하여 탐험과 활용의 균형을 조절할 수 있다.

import numpy as np

def boltzmann_exploration(state, q_values, temperature):
    q_values_state = q_values[state]
    exp_values = np.exp(np.array(list(q_values_state.values())) / temperature)
    probabilities = exp_values / np.sum(exp_values)
    actions = list(q_values_state.keys())
    return np.random.choice(actions, p=probabilities)

이 코드에서 temperature는 볼츠만 탐험의 온도 파라미터이고, q_values는 상태-행동 쌍의 Q-값을 담고 있는 딕셔너리이다. 볼츠만 탐험은 ε-탐욕 정책보다 더 유연한 탐험을 가능하게 하지만, 온도 파라미터 튜닝에 신경 써야 한다.

💡 노이즈 주입 (Adding Noise)
노이즈 주입은 행동 선택에 직접적으로 노이즈를 추가하는 기법이다. 예를 들어, 각 행동의 Q-값에 가우시안 노이즈(Gaussian noise)를 더한 후, 가장 높은 Q-값을 가진 행동을 선택할 수 있다. 이 기법은 Q-값 추정의 불확실성을 고려하여 탐험을 유도한다. 특히, 연속적인 행동 공간(Continuous Action Space)을 가진 환경에서 유용하게 사용될 수 있다. 노이즈의 크기는 하이퍼파라미터로 조절하며, 학습 초기에는 크게, 학습이 진행됨에 따라 작게 설정하는 것이 일반적이다.

import numpy as np

def noise_injection(state, q_values, noise_scale):
    q_values_state = q_values[state]
    noisy_q_values = {action: value + np.random.normal(0, noise_scale) for action, value in q_values_state.items()}
    return max(noisy_q_values, key=noisy_q_values.get)

이 코드에서 noise_scale은 노이즈의 크기를 조절하는 하이퍼파라미터이다. 노이즈 주입은 구현이 간단하고, 탐험을 효율적으로 할 수 있지만, 노이즈의 크기를 적절하게 설정해야 한다.

🔍 UCB (Upper Confidence Bound)
UCB는 탐험과 활용 사이의 균형을 잡기 위해 개발된 방법으로, 각 행동의 가치에 대한 불확실성을 고려한다. UCB는 각 행동에 대해 다음과 같은 값을 계산한다.

UCB(a) = Q(s, a) + c * sqrt(ln(t) / N(s, a))

여기서, Q(s, a)는 상태 s에서 행동 a의 평균 보상(average reward), t는 에피소드(episode)의 총 시간 스텝(time step) 수, N(s, a)는 상태 s에서 행동 a가 선택된 횟수, c는 탐험의 정도를 조절하는 하이퍼파라미터이다. UCB 값은 Q-값과 행동의 불확실성에 대한 정보를 결합하여, 탐험과 활용을 동시에 수행한다. 선택되지 않은 행동을 탐험하고, 자주 선택된 행동의 가치를 더 정확하게 추정하는 데 도움을 준다. UCB는 특히, 보상이 변동적인 환경에서 유용하게 사용될 수 있다.

🌱 고차원 상태 공간에서의 탐험 전략
고차원 상태 공간에서는 모든 상태를 방문하는 것이 어렵기 때문에, 효율적인 탐험 전략이 필요하다. 몇 가지 접근 방식이 있다.

상태 표현 학습 (State Representation Learning): 상태 공간을 저차원 공간으로 임베딩(Embedding)하는 방법을 사용한다. 오토인코더(Autoencoder)나 VAE(Variational Autoencoder)와 같은 모델을 사용하여 상태를 압축하고, 압축된 상태 공간에서 탐험을 수행한다. 이 방법은 고차원 상태 공간의 특징을 효과적으로 추출하여 탐험의 효율성을 높일 수 있다.
모델 기반 강화 학습 (Model-Based Reinforcement Learning): 환경의 모델을 학습하여, 모델을 통해 탐험을 진행한다. 예측 가능한 환경에서는 모델을 통해 더 많은 상태를 탐험하고, 탐험의 효율성을 높일 수 있다.
보상 설계 (Reward Design): 탐험을 장려하는 보상을 설계한다. 예를 들어, 새로운 상태를 방문했을 때 보상을 주는 방식으로, 탐험을 유도할 수 있다. 이 방법은 탐험을 직접적으로 제어할 수 있지만, 보상 설계를 신중하게 해야 한다.

📚 요약 (Summary)
고차원 강화 학습 환경에서 효율적인 탐험은 성공적인 학습의 핵심이다. ε-탐욕 정책, 볼츠만 탐험, 노이즈 주입, UCB와 같은 다양한 탐험 기법들이 존재하며, 환경의 특성에 맞게 적절한 기법을 선택하고, 하이퍼파라미터들을 튜닝해야 한다. 또한, 상태 표현 학습, 모델 기반 강화 학습, 보상 설계와 같은 고급 기법들을 통해 고차원 상태 공간에서의 탐험을 더욱 효과적으로 수행할 수 있다.

핵심 용어 (Key Terms)

강화 학습 (Reinforcement Learning): 에이전트가 환경과 상호작용하며 보상을 최대화하도록 학습하는 머신 러닝 분야 (Machine learning field where an agent learns to maximize rewards by interacting with an environment).
탐험 (Exploration): 에이전트가 아직 알지 못하는 상태나 행동을 시도하는 것 (Trying states or actions that the agent doesn't know yet).
활용 (Exploitation): 에이전트가 이미 학습한 정보를 바탕으로 보상이 높은 행동을 선택하는 것 (Selecting actions that have high rewards based on the information the agent has already learned).
ε-탐욕 정책 (Epsilon-Greedy Policy): 주어진 확률 ε로 무작위 행동을 선택하고, 확률 1-ε로 최적 행동을 선택하는 정책 (Policy that selects a random action with probability ε and the optimal action with probability 1-ε).
볼츠만 탐험 (Boltzmann Exploration): 각 행동의 Q-값을 기반으로 확률 분포를 생성하고, 그 분포에 따라 행동을 선택하는 기법 (Technique that generates a probability distribution based on the Q-values of each action and selects actions according to that distribution).
노이즈 주입 (Adding Noise): 행동 선택에 노이즈를 추가하는 기법 (Technique that adds noise to action selection).
UCB (Upper Confidence Bound): 각 행동의 가치에 대한 불확실성을 고려하여 탐험과 활용 사이의 균형을 잡는 기법 (Technique that balances exploration and exploitation by considering the uncertainty about the value of each action).
고차원 상태 공간 (High-dimensional State Space): 상태를 표현하는 데 많은 변수가 필요한 공간 (Space where many variables are needed to represent a state).