'KL divergence' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록KL divergence (1)

move84

강화학습: Trust Region Policy Optimization (TRPO) 완전 정복

강화학습(Reinforcement Learning, RL)은 에이전트가 환경과 상호작용하며 보상을 최대화하도록 학습하는 분야입니다. 이 글에서는 강화학습 알고리즘 중 하나인 Trust Region Policy Optimization (TRPO, 신뢰 영역 정책 최적화)에 대해 자세히 알아보겠습니다. TRPO는 정책 최적화(Policy Optimization) 기법의 한 종류로, 정책 업데이트 시 안정성을 확보하여 학습 효율을 높이는 데 기여합니다. 🧐 TRPO란 무엇인가요? (What is TRPO?)TRPO는 정책 기울기(Policy Gradient) 방법을 사용하여 정책을 학습합니다. 정책 기울기 방법은 정책 파라미터를 업데이트하여 더 높은 보상을 얻도록 에이전트를 유도합니다. 그러나, 정책을 대폭..

강화학습 2025. 4. 6. 09:45

이전 Prev 1 Next 다음

목록KL divergence (1)

move84

티스토리툴바