Search

1강_Introduction

Lecture 1 _ Introduction

Reinforcement Learning

: how can an intelligent agent learn to make a good sequence of decisions under uncertainty? \
불확실성 하에서, 인공지능이 어떻게 일련의 결정들에 대하여 좋은 결정을 내리도록 학습시킬 것인가?

key issues of reinforcement learning

Sequence of Decisions : 하나만 나오고 끝나는 결정이 아닌 계속 이어지는 일련의 결정들
Good Decisions : 정확도, 최대한의 보상을 받을 수 있는 최적의 결정
the learning : 좋은 결정을 내리기 위해 agent를 학습시킴

key aspects of reinforcement learning

다른 인공지능들과 비교했을 때 강화 학습만의 차이점
최적화
최적화는 모든 모델에서 필수
지연된 결과
현재의 결정이 미래에도 영향을 미칠 수 있음 (ex> 게임에서 지금 한 선택이 나중의 승패를 결정함)
challenges : 지금 한 결정에 대해 즉각적인 피드백이 보장되지 않음 → 과거에 내린 결정과 미래에 받을 보상에 대한 관계를 일반화하기 힘들다 ( 특히 머신러닝과 다른 점)
탐색
이미 입력-결과가 나온 데이터로 학습하는 것이 아니라, agent가 탐색한 데이터로만 학습
agent가 하는 결정들에 따라 학습하는 내용이 달라짐
일반화
이전에 학습하지 않은 상황에 대해서도 지금까지 학습한 것을 바탕으로 문제를 풀어갈 수 있는 능력
모든 action을 프로그래밍 하기엔 양이 너무 방대함 → 일반화하면 처음 보는 상황에서도 agent는 문제를 풀어갈 수 있다

differences from RL

RL : 모델이 직접 경험하며 학습
AI planning : 규칙이 이미 적용된 모델
최적화, 지연된 결과, 일반화는 해당하지만 탐색은 해당하지 않음
일련의 결정들을 결정하는 모델이지만, 규칙이 이미 적용되어 있어 현재의 결정이 미래에 어떤 영향을 미치는지 알고 있다
Supervised Machine Learning : 주어진 경험을 통해 학습하는데 result O인 data 이용
최적화, 일반화는 해당하지만 지연된 결과, 탐색은 해당하지 않음
입력-결과가 이미 나온 경험 데이터를 통해 학습
agent가 스스로 경험하며 학습하는 것이 아닌, 이미 경험한 데이터를 통해 학습
Unsupervised Machine Learning : 주어진 경험을 통해 학습하는데 result X인 data 이용
최적화, 일반화는 해당하지만 지연된 결과, 탐색은 해당하지 않음
agent가 스스로 경험하며 학습하는 것이 아닌, 이미 경험한 데이터를 통해 학습하나 행동에 대한 결과가 없는 데이터를 사용
Imitation Learning
최적화, 지연된 결과, 일반화는 해당하지만 탐색은 해당하지 않음
agent가 스스로 경험하며 학습하는 것이 아닌, 이미 경험한 데이터를 통해 학습
다른 객체에 대한 행동을 따라 학습하기 때문에, 모방해보지 않은 새로운 상황을 마주치면 해결이 불가능하다

Sequential Decision Making (under uncertainty)

world와 agent가 서로 영향을 주며 연속적인 결정을 만든다
이 상호작용하는 폐쇄 루프의 목표는 미래의 보상이 최대가 될 수 있는 결정을 하는 것
key challenges
즉각적인 보상과 미래의 보상 사이의 균형을 적절하게 맞춰야 한다
미래의 보상을 위해 즉각적인 보상을 포기해야 할 때도 있다
(e.g. 공부할 때 쉬운 문제만 푼다면 지금 맞는 문제(즉각적인 보상)는 많겠지만, 시험에서는 맞은 문제의 개수(미래의 보상)가 적을 것이다. 시험에서 맞는 문제(미래의 보상)을 최대화하기 위해 공부하며 맞는 문제의 개수(즉각적인 보상)을 포기해야 하는 사례)
즉각적인 보상과 미래의 보상의 비율을 설정하는 함수를 reward function이라 하는데, 이 reward function을 어떻게 지정하느냐에 따라 agent가 학습하는 것이 달라진다

용어 정리

1) agent & world
매 설정된 타임 스탭(time step, t)마다 agent는 행동(action, a)을, world는 행동에 대한 반응(observation, o)와 보상(reward,r)을 반환한다
(여기서 action을 취했을 때 바로 받는 reward는 즉각적인 보상이고, 현재와 떨어진 time step에서의 reward가 미래의 보상이다.)
2) history
과거 agent의 action과 world가 그에 대해 반환한 observation과 reward 의 집합
3) state
agent가 결정을 내릴 떄 사용하는 상황 전체

The Markov assumption

미래과 과거로부터 독립적이고 현재의 state가 과거의 모든 history를 충분히 반영한다면, 그 state만으로 미래를 예측하고 결정을 내릴 수 있다.
state 설정에 따라 Markov assumption은 항상 성립이 가능하므로 state를 잘 설정하는 것이 중요하다.

Full Observability

MDP(Markov Decision Process)
agent의 state(agent가 확인 및 사용할 수 있는 state)와 real world의 state(실제 모든 world의 state)가 일치한다면, state는 agent가 관찰할 수 있는 모든 부분이다.
POMDP(Partially Observable Markov Decision Process)
agent의 state와 real world의 state가 일치하지 않을 때 사용
agent가 관찰할 수 없는 부분이 존재하므로, state를 agent가 관찰할 수 있는 부분으로만 설정하면 state의 정보가 부족하다.
MDP보다 많은 정보를 포함

Type of Sequential Decision Processes

Bandits
현재 agent가 관찰 가능한 모든 부분 만으로도 충분한 state가 구성될 수 있다
과거의 결정은 현재의 state와 관련이 없다
MDPs and POMDPs
actions이 미래의 state에 영향을 미친다는 것을 감안한다
보장된 부분과 아닌 부분을 설정하는 것이 중요
How the World Changes
Deterministic
어떤 action을 취했을 때 반환될 결과가 정해져있음
Stochastic
어떤 action을 취했을 때 반환될 결과가 확률적

RL Algorithm Components

RL Algorithm Components often include one or more of
Model : representation of how the world changes in response to agent’s action
Policy : function mapping agent’s states to action
Value Function : future rewards from being in a state and/or action when following a particular policy

Model

agent가 어떤 action을 취하느냐에 따라 world가 어떻게 바뀔지에 대한 예측 결과를 출력하는 함수
Transaction / Dynamics model : agent의 다음 state를 예측
Reward model : 즉각적인 보상을 예측

Policy

state를 입력받았을 때 agent가 action을 어떻게 선택할 지 결정하는 함수
Deterministic Policy : 입력된 state에 따른 action 출력값이 하나
Stochastic Policy : 입력된 state에 따른 가능한 action 별 확률을 출력

Value Function

특정 policy에 따른 미래의 보상의 총합을 예상하는 함수
즉각적인 보상과 미래의 보상 각각에 얼마나 비중을 둘 것인지 결정하는 함수
value가 높을수록 더 큰 보상을 얻을 수 있으며, 이를 좋은 policy라 한다

Types of RL Agents

Model Based Agent
model이 존재
이 model이 policy function이나 value function을 갖고 있을 수도, 아닐 수도 있음
즉 명시된 policy function이나 value function이 없음
Model - free Agent
model이 없음
명시된 policy function이나 value function이 존재

Key Challenged in learning to Make Sequences of Good Decisions

Planning (Agent’s internal computation)

world의 동작에 대한 model 존재
Dynamic/Reward model
학습 과정에서 world에 대한 탐색은 불필요하기 때문에, world와의 상호작용 불필요
여러 선택지 중 high reward를 보장하는 action으로 결정

Reinforcement Learning

world의 동작에 대한 model이 존재하지 않음
학습 과정에서 world에 대한 탐색이 필요하기 때문에, 초반에 많은 시행착오 필요
학습 시 high reward를 받을 수 있는 방법과 world에 대한 정보를 얻을 수 있는 방법 모두를 고려해야 함

Exploration vs Exploitation

agent가 시도하는 action만 수행됨
RL agent 가 action을 조정하는 방법
Exploration : trying new things that might enable the agent to make better decisions in the future 새로운 시도!
Exploitation : choosing actions that are expected to yield good reward given past experience 여태까지 한 것 중에 좋은것 다시
Exploration-Exploitation 사이 tradeoff가 이뤄지기도 함
sacrifice reward in order to explore & learn about potentially better policy

Evaluation & Control

Evaluation

평가와 예측을 통한 보상 예측

Control

Optimization : 가장 좋은 policy를 찾아 최적화