'KL-divergence' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록KL-divergence (1)

move84

강화 학습: 정책 최적화에서 KL-발산 활용

강화 학습(Reinforcement Learning, RL)은 에이전트가 환경과 상호 작용하며 보상을 최대화하는 정책을 학습하는 분야입니다. 정책 최적화(Policy Optimization)는 이러한 정책을 개선하는 중요한 방법론 중 하나입니다. 이 글에서는 정책 최적화에서 KL-발산(KL-Divergence)을 활용하는 방법에 대해 알아보고, 그 중요성과 실용적인 예시를 살펴보겠습니다. 🧐 정책 최적화란 무엇인가요? (What is Policy Optimization?)정책 최적화는 강화 학습에서 정책(Policy)을 직접적으로 개선하는 방법입니다. 정책은 주어진 상태에서 에이전트가 어떤 행동을 할지 결정하는 함수입니다. 정책 최적화의 목표는 에이전트가 환경과의 상호 작용을 통해 얻는 누적 보상(Cu..

강화학습 2025. 4. 8. 08:23

이전 Prev 1 Next 다음

목록KL-divergence (1)

move84

티스토리툴바