Value Function
•
즉각적인 보상과 지연된 보상 중 어느 것에 더 비중을 둘 것인가를 나타내는 함수
•
policy를 정하는 기준이 됨
Value Function Approximation (VFA)
•
Value Function을 state와 action을 parameter로 갖는 funtion으로 만드는 것
•
실제 상황에서는 모든 state를 알 수 없기 때문에, 모든 state를 전체적으로 아우르는 일반항을 만들기 위함 (→ Lecture1에서 언급했던 강화학습의 key aspect 중 일반화)
•
+ 일반화를 하면 메모리 사용과 연산 시간, 좋은 policy를 찾기까지 필요한 데이터를 줄일 수 있음
•
- 데이터를 비교적 적게 사용하여 학습하기 때문에, 일반화한 모델을 실제로 적응했을 때 적응력이 낮을 수 있음
Model Free VFA Policy Evaluation
•
실제 Value값을 알 수 없음 → model에 의존하지 않는 VFA를 만들어야 함 (모델로부터 VFA를 유추할 수 없다)
Monte Carlo Value Function Approximation
•
Monte Carlo는 어떤 state를 경험하고 실제 Value 값을 출력함
•
Monte Carlo 방식을 VFA에 적용
Batch Monte Carlo Value Function Approximation
•
policy에 대해 일련의 state들을 경험한 데이터가 있다면, 한 데이터 당 한 번의 update를 거치지 않고 일련의 데이터를 모두 사용하여 한 번에 update 할 수 있음
•
이 또한 Markov assumption을 만족하지 않음
Temporal Difference Learning with Value Function Approximation
•
TD(0) Learning with Value Function Approximation : J(w)의 값을 최소화시키는 w값을 찾아가는 방법
•
TD(0) Learning with Value Function Approximation 또한 w가 특정 값에 수렴
•
Monte Carlo보다 성능이 조금 더 좋음