Notice
Recent Posts
Recent Comments
Link
반응형
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- python
- 데이터 전처리
- LSTM
- 과적합
- reinforcement learning
- 자연어 처리
- GRU
- 교차 검증
- 최적화
- 딥러닝
- 강화학습
- 인공 신경망
- 지도 학습
- 활성화 함수
- 정규화
- CNN
- 손실 함수
- q-러닝
- rnn
- 강화 학습
- Q-Learning
- 신경망
- 인공지능
- 분류
- 회귀
- 머신 러닝
- 머신러닝
- AI
- Deep learning
- Machine Learning
Archives
- Today
- Total
목록KL-divergence (1)
move84
강화 학습: 정책 최적화에서 KL-발산 활용
강화 학습(Reinforcement Learning, RL)은 에이전트가 환경과 상호 작용하며 보상을 최대화하는 정책을 학습하는 분야입니다. 정책 최적화(Policy Optimization)는 이러한 정책을 개선하는 중요한 방법론 중 하나입니다. 이 글에서는 정책 최적화에서 KL-발산(KL-Divergence)을 활용하는 방법에 대해 알아보고, 그 중요성과 실용적인 예시를 살펴보겠습니다. 🧐 정책 최적화란 무엇인가요? (What is Policy Optimization?)정책 최적화는 강화 학습에서 정책(Policy)을 직접적으로 개선하는 방법입니다. 정책은 주어진 상태에서 에이전트가 어떤 행동을 할지 결정하는 함수입니다. 정책 최적화의 목표는 에이전트가 환경과의 상호 작용을 통해 얻는 누적 보상(Cu..
강화학습
2025. 4. 8. 08:23