강화학습과 마르코프 결정 과정( MDP, Markov Decision process) 관계 요약
마르코프 결정 과정 (MDP, Markov Decision Process)는 주어진 어떤 환경에서의
의사 결정을 모델링할 수 있는 수학적 프레임워크를 제공한다고 한다.
마르코프 결정 과정(이하 MDP)는 다음과 같은 4가지 요소가 있다.
1. 상태 (State) : S 가능한 상태들의 유한 집함.
2. 행동 (Action) : A 행동들의 유한 집합.
3. 상태 전이(State transition) : P(r,s'|s,a) 상태 전이 함수.
4. 보상(Reward) : R 보상 함수.
위 네가지 요소르 보면,
openai gym으로 강화학습 환경을 만들었을때의 그것과 유사한점이 있어 보인다.
Agent -------- action ---------v
^-- observation, reward -- Enviroment
--------------------------------------------------------------
강화학습
MDP
--------------------------------------------------------------
action
행동(Action)
reward
보상(Reward)
obseravation 상태(State), 상태 전이(State
transition)
MDP 프레임워크에서 Agent는 행동(Action)을 취함으로써 하나의 에피소드(episode)
를 생성하고, 이 에피소드 들이 모여 튜플로 구성된다.
에피소드 : 상태, 행동, 보상으로 이루어짐, (s, a, r)
튜플 : 일련의 에피소드, (s0, a0,
r0),(s1, a1,
r1),...,(sn, an, rn)
MDP, 딥러닝 강화학습의 목표
딥러닝 강화학습에서는 Agent가 주어진 환경에서의 최적을 정책을 찾는 것이라고
한다.
여기에서 말하는 정책은, '어떤 상태 S에서 Agent가 최적의 행동A를 선택하는
것'이라고 할 수 있다. 이 최적의 행동은 앞로의 보상 Reward가 최대가 되는
방향으로 선택한다.
미래 보상(Feature Reward)을 R이라고 할때, R = r0+r1+...+rn이고,
어떤 시점 t에서는 Rt = rt + rt+1 +
... + rn 으로 표현할 수 있다.
위식은 다시 Rt = rt + R(t+1)로 표현할 수 있다.
시간 t인 어떤 상태 S에서 Agent가 선택하는 것은 R(t+1)이 최대가 되는 다음
행동을 선택한다.
하지만, Agent가 너무 먼 미래의 보상만을 바라본다면, 처리 시간에 의존하는 문제
대해서는 문제가 발생한다. 그래서 감쇠 계수 𝜸를 두어 너무 먼 미래의 보상
가치는 감쇠 시켜 가까운 미래 보상에 더 가치를 두게 할수 있다.
[관련 포스트]
댓글
댓글 쓰기