본문 바로가기

MDP

(1)

[RL] MDP Markov Decision Process action -> action -> action -> ... $S_{0}$ $\rightarrow$ $S_{1}$ $\rightarrow$ $S_{2}$ $\downarrow$ $ \downarrow$ $ \downarrow$ $a_{0}$ $a_{1}$ $a_{2}$ MDP란 무엇인가요? MDP는 강화학습의 기본적인 프레임워크입니다. 강화학습은 특정 환경에서 에이전트가 최대의 보상을 얻기 위해 행동을 취하는 것을 학습하는 것입니다. MDP는 이러한 강화학습의 프레임워크 중 하나로, 강화학습에서 에이전트가 어떤 환경에서 행동을 취해야 할지 결정하는 데 사용됩니다. MDP가 어떻게 작동하나요? MDP는 상태(state), 행동(action), 보상(reward),..

이전 1 다음

티스토리툴바