Lecture 1 _ Introduction
Reinforcement Learning
: how can an intelligent agent learn to make a good sequence of decisions under uncertainty? \
불확실성 하에서, 인공지능이 어떻게 일련의 결정들에 대하여 좋은 결정을 내리도록 학습시킬 것인가?
key issues of reinforcement learning
•
Sequence of Decisions : 하나만 나오고 끝나는 결정이 아닌 계속 이어지는 일련의 결정들
•
Good Decisions : 정확도, 최대한의 보상을 받을 수 있는 최적의 결정
•
the learning : 좋은 결정을 내리기 위해 agent를 학습시킴
key aspects of reinforcement learning
다른 인공지능들과 비교했을 때 강화 학습만의 차이점
•
최적화
◦
최적화는 모든 모델에서 필수
•
지연된 결과
◦
현재의 결정이 미래에도 영향을 미칠 수 있음 (ex> 게임에서 지금 한 선택이 나중의 승패를 결정함)
◦
challenges : 지금 한 결정에 대해 즉각적인 피드백이 보장되지 않음 → 과거에 내린 결정과 미래에 받을 보상에 대한 관계를 일반화하기 힘들다 ( 특히 머신러닝과 다른 점)
•
탐색
◦
이미 입력-결과가 나온 데이터로 학습하는 것이 아니라, agent가 탐색한 데이터로만 학습
◦
agent가 하는 결정들에 따라 학습하는 내용이 달라짐
•
일반화
◦
이전에 학습하지 않은 상황에 대해서도 지금까지 학습한 것을 바탕으로 문제를 풀어갈 수 있는 능력
◦
모든 action을 프로그래밍 하기엔 양이 너무 방대함 → 일반화하면 처음 보는 상황에서도 agent는 문제를 풀어갈 수 있다
differences from RL
RL : 모델이 직접 경험하며 학습
•
AI planning : 규칙이 이미 적용된 모델
◦
최적화, 지연된 결과, 일반화는 해당하지만 탐색은 해당하지 않음
◦
일련의 결정들을 결정하는 모델이지만, 규칙이 이미 적용되어 있어 현재의 결정이 미래에 어떤 영향을 미치는지 알고 있다
•
Supervised Machine Learning : 주어진 경험을 통해 학습하는데 result O인 data 이용
◦
최적화, 일반화는 해당하지만 지연된 결과, 탐색은 해당하지 않음
◦
입력-결과가 이미 나온 경험 데이터를 통해 학습
◦
agent가 스스로 경험하며 학습하는 것이 아닌, 이미 경험한 데이터를 통해 학습
•
Unsupervised Machine Learning : 주어진 경험을 통해 학습하는데 result X인 data 이용
◦
최적화, 일반화는 해당하지만 지연된 결과, 탐색은 해당하지 않음
◦
agent가 스스로 경험하며 학습하는 것이 아닌, 이미 경험한 데이터를 통해 학습하나 행동에 대한 결과가 없는 데이터를 사용
•
Imitation Learning
◦
최적화, 지연된 결과, 일반화는 해당하지만 탐색은 해당하지 않음
◦
agent가 스스로 경험하며 학습하는 것이 아닌, 이미 경험한 데이터를 통해 학습
◦
다른 객체에 대한 행동을 따라 학습하기 때문에, 모방해보지 않은 새로운 상황을 마주치면 해결이 불가능하다
Sequential Decision Making (under uncertainty)
•
world와 agent가 서로 영향을 주며 연속적인 결정을 만든다
•
이 상호작용하는 폐쇄 루프의 목표는 미래의 보상이 최대가 될 수 있는 결정을 하는 것
•
key challenges
◦
즉각적인 보상과 미래의 보상 사이의 균형을 적절하게 맞춰야 한다
▪
미래의 보상을 위해 즉각적인 보상을 포기해야 할 때도 있다
(e.g. 공부할 때 쉬운 문제만 푼다면 지금 맞는 문제(즉각적인 보상)는 많겠지만, 시험에서는 맞은 문제의 개수(미래의 보상)가 적을 것이다. 시험에서 맞는 문제(미래의 보상)을 최대화하기 위해 공부하며 맞는 문제의 개수(즉각적인 보상)을 포기해야 하는 사례)
•
즉각적인 보상과 미래의 보상의 비율을 설정하는 함수를 reward function이라 하는데, 이 reward function을 어떻게 지정하느냐에 따라 agent가 학습하는 것이 달라진다
용어 정리
1) agent & world
매 설정된 타임 스탭(time step, t)마다 agent는 행동(action, a)을, world는 행동에 대한 반응(observation, o)와 보상(reward,r)을 반환한다
(여기서 action을 취했을 때 바로 받는 reward는 즉각적인 보상이고, 현재와 떨어진 time step에서의 reward가 미래의 보상이다.)
2) history
과거 agent의 action과 world가 그에 대해 반환한 observation과 reward 의 집합
3) state
agent가 결정을 내릴 떄 사용하는 상황 전체
The Markov assumption
•
미래과 과거로부터 독립적이고 현재의 state가 과거의 모든 history를 충분히 반영한다면, 그 state만으로 미래를 예측하고 결정을 내릴 수 있다.
•
state 설정에 따라 Markov assumption은 항상 성립이 가능하므로 state를 잘 설정하는 것이 중요하다.
Full Observability
•
MDP(Markov Decision Process)
◦
agent의 state(agent가 확인 및 사용할 수 있는 state)와 real world의 state(실제 모든 world의 state)가 일치한다면, state는 agent가 관찰할 수 있는 모든 부분이다.
•
POMDP(Partially Observable Markov Decision Process)
◦
agent의 state와 real world의 state가 일치하지 않을 때 사용
◦
agent가 관찰할 수 없는 부분이 존재하므로, state를 agent가 관찰할 수 있는 부분으로만 설정하면 state의 정보가 부족하다.
◦
MDP보다 많은 정보를 포함
Type of Sequential Decision Processes
•
Bandits
◦
현재 agent가 관찰 가능한 모든 부분 만으로도 충분한 state가 구성될 수 있다
◦
과거의 결정은 현재의 state와 관련이 없다
•
MDPs and POMDPs
◦
actions이 미래의 state에 영향을 미친다는 것을 감안한다
◦
보장된 부분과 아닌 부분을 설정하는 것이 중요
•
How the World Changes
◦
Deterministic
▪
어떤 action을 취했을 때 반환될 결과가 정해져있음
◦
Stochastic
▪
어떤 action을 취했을 때 반환될 결과가 확률적
RL Algorithm Components
RL Algorithm Components often include one or more of
Model : representation of how the world changes in response to agent’s action
Policy : function mapping agent’s states to action
Value Function : future rewards from being in a state and/or action when following a particular policy
Model
•
agent가 어떤 action을 취하느냐에 따라 world가 어떻게 바뀔지에 대한 예측 결과를 출력하는 함수
•
Transaction / Dynamics model : agent의 다음 state를 예측
Reward model : 즉각적인 보상을 예측
Policy
•
state를 입력받았을 때 agent가 action을 어떻게 선택할 지 결정하는 함수
•
Deterministic Policy : 입력된 state에 따른 action 출력값이 하나
Stochastic Policy : 입력된 state에 따른 가능한 action 별 확률을 출력
Value Function
•
특정 policy에 따른 미래의 보상의 총합을 예상하는 함수
•
즉각적인 보상과 미래의 보상 각각에 얼마나 비중을 둘 것인지 결정하는 함수
•
value가 높을수록 더 큰 보상을 얻을 수 있으며, 이를 좋은 policy라 한다
Types of RL Agents
•
Model Based Agent
◦
model이 존재
◦
이 model이 policy function이나 value function을 갖고 있을 수도, 아닐 수도 있음
◦
즉 명시된 policy function이나 value function이 없음
•
Model - free Agent
◦
model이 없음
◦
명시된 policy function이나 value function이 존재
Key Challenged in learning to Make Sequences of Good Decisions
Planning (Agent’s internal computation)
•
world의 동작에 대한 model 존재
◦
Dynamic/Reward model
•
학습 과정에서 world에 대한 탐색은 불필요하기 때문에, world와의 상호작용 불필요
•
여러 선택지 중 high reward를 보장하는 action으로 결정
Reinforcement Learning
•
world의 동작에 대한 model이 존재하지 않음
•
학습 과정에서 world에 대한 탐색이 필요하기 때문에, 초반에 많은 시행착오 필요
•
학습 시 high reward를 받을 수 있는 방법과 world에 대한 정보를 얻을 수 있는 방법 모두를 고려해야 함
Exploration vs Exploitation
•
agent가 시도하는 action만 수행됨
•
RL agent 가 action을 조정하는 방법
◦
Exploration : trying new things that might enable the agent to make better decisions in the future 새로운 시도!
◦
Exploitation : choosing actions that are expected to yield good reward given past experience 여태까지 한 것 중에 좋은것 다시
•
Exploration-Exploitation 사이 tradeoff가 이뤄지기도 함
◦
sacrifice reward in order to explore & learn about potentially better policy
Evaluation & Control
Evaluation
•
평가와 예측을 통한 보상 예측
Control
•
Optimization : 가장 좋은 policy를 찾아 최적화