Search

5강_Value Function Approximation

Value Function

즉각적인 보상과 지연된 보상 중 어느 것에 더 비중을 둘 것인가를 나타내는 함수
policy를 정하는 기준이 됨

Value Function Approximation (VFA)

Value Function을 state와 action을 parameter로 갖는 funtion으로 만드는 것
실제 상황에서는 모든 state를 알 수 없기 때문에, 모든 state를 전체적으로 아우르는 일반항을 만들기 위함 (→ Lecture1에서 언급했던 강화학습의 key aspect 중 일반화)
+ 일반화를 하면 메모리 사용과 연산 시간, 좋은 policy를 찾기까지 필요한 데이터를 줄일 수 있음
- 데이터를 비교적 적게 사용하여 학습하기 때문에, 일반화한 모델을 실제로 적응했을 때 적응력이 낮을 수 있음

Model Free VFA Policy Evaluation

실제 Value값을 알 수 없음 → model에 의존하지 않는 VFA를 만들어야 함 (모델로부터 VFA를 유추할 수 없다)

Monte Carlo Value Function Approximation

Monte Carlo는 어떤 state를 경험하고 실제 Value 값을 출력함
Monte Carlo 방식을 VFA에 적용

Batch Monte Carlo Value Function Approximation

policy에 대해 일련의 state들을 경험한 데이터가 있다면, 한 데이터 당 한 번의 update를 거치지 않고 일련의 데이터를 모두 사용하여 한 번에 update 할 수 있음
이 또한 Markov assumption을 만족하지 않음

Temporal Difference Learning with Value Function Approximation

TD(0) Learning with Value Function Approximation : J(w)의 값을 최소화시키는 w값을 찾아가는 방법
TD(0) Learning with Value Function Approximation 또한 w가 특정 값에 수렴
Monte Carlo보다 성능이 조금 더 좋음