딥러닝: Soft Actor-Critic (SAC) 알고리즘 이해하기

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

move84

딥러닝: Soft Actor-Critic (SAC) 알고리즘 이해하기 본문

딥러닝

딥러닝: Soft Actor-Critic (SAC) 알고리즘 이해하기

move84 2025. 3. 26. 01:14

🌟 강화 학습 (Reinforcement Learning, RL) 분야에서 Soft Actor-Critic (SAC) 알고리즘은 최근 몇 년 동안 큰 주목을 받고 있다. SAC는 효율적인 탐색 (exploration)과 안정적인 학습을 가능하게 하여 복잡한 환경에서의 문제 해결 능력을 향상시킨다.

🤔 SAC의 기본 개념

SAC는 actor-critic (행위자-평가자) 기반의 off-policy (오프-폴리시) 강화 학습 알고리즘이다. 기존의 actor-critic 알고리즘과 달리, SAC는 entropy (엔트로피)를 보상 함수에 추가하여 정책의 무작위성을 장려한다. 엔트로피는 정책의 불확실성을 측정하는 지표로, 높은 엔트로피는 정책이 다양한 행동을 시도하도록 유도하여 탐색을 촉진한다.

핵심 개념:

Actor (행위자): 환경과 상호 작용하며 행동을 결정하는 정책 (policy)을 학습한다. SAC에서는 확률적 정책을 사용하며, 주어진 상태에서 가능한 행동들의 확률 분포를 출력한다.
Critic (평가자): actor가 선택한 행동의 가치를 평가한다. SAC에서는 두 개의 Q-function (Q-함수)를 학습하여 가치의 과대 추정 (overestimation) 문제를 해결한다.
Entropy (엔트로피): 정책의 무작위성을 나타내는 지표로, SAC의 핵심 요소이다. 엔트로피를 보상 함수에 추가함으로써, SAC는 정책이 탐색을 장려하고 안정적인 학습을 돕는다.
Off-policy (오프-폴리시): 현재 정책과 다른 정책을 사용하여 데이터를 수집하고 학습한다. SAC는 replay buffer (리플레이 버퍼)를 사용하여 수집된 데이터를 저장하고, 이를 통해 효율적인 학습을 수행한다.

💡 SAC 알고리즘의 작동 원리

SAC 알고리즘은 다음과 같은 단계를 거쳐 작동한다.

환경과의 상호 작용: actor는 환경의 상태 (state)를 입력으로 받아 행동 (action)을 선택하고, 환경과 상호 작용한다. 환경은 행동에 대한 보상 (reward)과 다음 상태를 반환한다.
데이터 저장: (상태, 행동, 보상, 다음 상태)의 튜플 (tuple)을 replay buffer에 저장한다.
Q-function 업데이트: replay buffer에서 샘플링된 데이터를 사용하여 Q-function을 업데이트한다. Q-function은 주어진 상태와 행동의 가치를 추정한다.
Policy (정책) 업데이트: Q-function과 엔트로피를 사용하여 actor의 정책을 업데이트한다. 이 과정에서 정책은 더 높은 보상과 엔트로피를 얻도록 학습된다.
Target network (타겟 네트워크) 업데이트: Q-function의 안정적인 학습을 위해 타겟 네트워크를 사용하며, 정기적으로 업데이트한다.

이러한 단계를 반복하면서, SAC 알고리즘은 actor와 critic을 함께 학습하여 최적의 정책을 찾아낸다.

💻 간단한 Python 코드 예제

다음은 SAC 알고리즘의 간단한 Python 코드 예제이다. 이 코드는 SAC 알고리즘의 핵심 부분을 보여주며, 실제 구현과는 차이가 있을 수 있다.

import numpy as np
import tensorflow as tf

# 간단한 Actor 네트워크
def build_actor_network(state_dim, action_dim, hidden_size=64):
    inputs = tf.keras.layers.Input(shape=(state_dim,))
    x = tf.keras.layers.Dense(hidden_size, activation='relu')(inputs)
    x = tf.keras.layers.Dense(hidden_size, activation='relu')(x)
    mean = tf.keras.layers.Dense(action_dim, activation=None)(x)
    log_std = tf.keras.layers.Dense(action_dim, activation=None)(x)
    # std의 범위 제한
    log_std = tf.clip_by_value(log_std, -20, 2)
    return tf.keras.Model(inputs=inputs, outputs=[mean, log_std])

# 간단한 Critic 네트워크 (Q-function)
def build_critic_network(state_dim, action_dim, hidden_size=64):
    state_inputs = tf.keras.layers.Input(shape=(state_dim,))
    action_inputs = tf.keras.layers.Input(shape=(action_dim,))
    concat = tf.keras.layers.concatenate([state_inputs, action_inputs])
    x = tf.keras.layers.Dense(hidden_size, activation='relu')(concat)
    x = tf.keras.layers.Dense(hidden_size, activation='relu')(x)
    q_value = tf.keras.layers.Dense(1, activation=None)(x)
    return tf.keras.Model(inputs=[state_inputs, action_inputs], outputs=q_value)

# SAC 알고리즘의 핵심 부분
def sac_loss(q_values, log_pi, rewards, dones, gamma=0.99, alpha=0.2):
    # Bellman equation
    q_target = rewards + gamma * (1 - dones) * (q_values - alpha * log_pi)
    # MSE loss
    loss = tf.keras.losses.MeanSquaredError()(q_values, q_target)
    return loss

# 예시 데이터
state_dim = 4
action_dim = 2

# 네트워크 생성
actor = build_actor_network(state_dim, action_dim)
critic_1 = build_critic_network(state_dim, action_dim)
critic_2 = build_critic_network(state_dim, action_dim)

# 옵티마이저
actor_optimizer = tf.keras.optimizers.Adam(learning_rate=0.001)
critic_optimizer = tf.keras.optimizers.Adam(learning_rate=0.001)

# 훈련 예시
def train_step(states, actions, rewards, next_states, dones):
    with tf.GradientTape(persistent=True) as tape:
        # Actor를 통해 행동 선택
        means, log_stds = actor(states)
        stds = tf.exp(log_stds)
        # 정규분포에서 행동 샘플링
        actions_sampled = means + stds * tf.random.normal(shape=means.shape)
        # 로그 확률 계산
        log_pi = -0.5 * tf.reduce_sum(tf.square((actions_sampled - means) / (stds + 1e-8)), axis=-1) - 
                 tf.reduce_sum(tf.math.log(stds + 1e-8), axis=-1) - 
                 0.5 * action_dim * np.log(2 * np.pi)
        # Critic 네트워크를 통해 Q-value 계산
        q_values_1 = critic_1([states, actions_sampled])
        q_values_2 = critic_2([states, actions_sampled])
        q_values = tf.minimum(q_values_1, q_values_2) # Q-value의 최솟값 선택

        # Loss 계산
        critic_loss = sac_loss(q_values, log_pi, rewards, dones)

        actor_loss = tf.reduce_mean(alpha * log_pi - q_values)

    # Gradient 계산 및 적용
    actor_grads = tape.gradient(actor_loss, actor.trainable_variables)
    actor_optimizer.apply_gradients(zip(actor_grads, actor.trainable_variables))

    critic_1_grads = tape.gradient(critic_loss, critic_1.trainable_variables)
    critic_optimizer.apply_gradients(zip(critic_1_grads, critic_1.trainable_variables))

    critic_2_grads = tape.gradient(critic_loss, critic_2.trainable_variables)
    critic_optimizer.apply_gradients(zip(critic_2_grads, critic_2.trainable_variables))

# 간단한 예시 데이터 생성
num_samples = 32
states = np.random.rand(num_samples, state_dim).astype(np.float32)
actions = np.random.rand(num_samples, action_dim).astype(np.float32)
rewards = np.random.rand(num_samples, 1).astype(np.float32)
next_states = np.random.rand(num_samples, state_dim).astype(np.float32)
dones = np.random.randint(0, 2, size=(num_samples, 1)).astype(np.float32)

# 훈련 단계 실행
train_step(states, actions, rewards, next_states, dones)

💡 SAC의 장점

SAC는 다음과 같은 장점을 가지고 있다.

효율적인 탐색: 엔트로피를 통해 정책의 무작위성을 장려하여 탐색 효율을 높인다.
안정적인 학습: Q-function의 과대 추정 문제를 해결하여 학습의 안정성을 확보한다.
다양한 환경에서의 성능: 복잡한 환경에서도 좋은 성능을 보여준다.

⚠️ SAC의 단점

SAC는 다음과 같은 단점도 가지고 있다.

하이퍼파라미터 (hyperparameter) 튜닝의 어려움: 다양한 하이퍼파라미터의 설정이 필요하며, 최적의 설정을 찾는 것이 어려울 수 있다.
계산 비용: 복잡한 모델 구조와 여러 개의 네트워크를 사용하므로, 계산 비용이 높을 수 있다.

📚 추가 정보

SAC 알고리즘에 대한 더 자세한 내용은 논문을 참고할 수 있다.
다양한 SAC 구현체를 GitHub에서 찾아볼 수 있다.
강화 학습 관련 서적이나 온라인 강의를 통해 기본적인 개념을 학습할 수 있다.

📢 핵심 용어 정리

강화 학습 (Reinforcement Learning): 에이전트가 환경과 상호 작용하며 보상을 최대화하도록 학습하는 머신러닝의 한 분야.
- Reinforcement Learning (강화 학습): A field of machine learning where an agent learns to maximize rewards by interacting with an environment.
Actor-Critic (행위자-평가자): actor와 critic 두 개의 네트워크를 사용하여 학습하는 강화 학습 알고리즘의 한 종류.
- Actor-Critic (행위자-평가자): A type of reinforcement learning algorithm that uses two networks, an actor and a critic, for learning.
Entropy (엔트로피): 정책의 무작위성을 나타내는 지표.
- Entropy (엔트로피): A measure of the randomness of a policy.
Off-policy (오프-폴리시): 현재 정책과 다른 정책을 사용하여 학습하는 강화 학습 방식.
- Off-policy (오프-폴리시): A reinforcement learning approach where learning is done using a policy different from the current policy.
Q-function (Q-함수): 주어진 상태와 행동의 가치를 추정하는 함수.
- Q-function (Q-함수): A function that estimates the value of a given state and action.
Replay Buffer (리플레이 버퍼): 학습 데이터를 저장하는 메모리.
- Replay Buffer (리플레이 버퍼): A memory that stores training data.
Policy (정책): 에이전트가 행동을 결정하는 방법.
- Policy (정책): The method by which an agent decides on actions.

🎉 마무리

Soft Actor-Critic은 강화 학습 분야에서 강력하고 널리 사용되는 알고리즘이다. SAC는 효율적인 탐색과 안정적인 학습을 통해 다양한 환경에서 좋은 성능을 보여준다. SAC의 기본 개념과 작동 원리를 이해하고, 간단한 코드 예제를 통해 직접 구현해 보면서, 딥러닝 기반의 강화 학습 알고리즘에 대한 이해를 더욱 깊게 할 수 있기를 바란다. 꾸준한 학습과 실습을 통해, SAC 알고리즘을 활용하여 실제 문제 해결에 기여할 수 있기를 기대한다.

'딥러닝' 카테고리의 다른 글

딥러닝: BERT, 양방향 변환기를 이용한 사전 훈련 (0)	2025.03.26
딥러닝: 자연어 처리를 위한 Transformer 아키텍처 (0)	2025.03.26
딥러닝: 딥 디터미니스틱 정책 경사 (DDPG) 가이드 (0)	2025.03.26
딥러닝: 학습 안정성을 위한 Double DQN (0)	2025.03.26
딥러닝: Deep Q-Networks (DQN)과 변형 (0)	2025.03.26

'딥러닝' Related Articles

move84

딥러닝: Soft Actor-Critic (SAC) 알고리즘 이해하기 본문

딥러닝: Soft Actor-Critic (SAC) 알고리즘 이해하기

'딥러닝' 카테고리의 다른 글

티스토리툴바