강화(reinforcement)라는 개념은 행동심리학자 Burrhus Skinner(1904~1990)가 제시한 것으로 행동심리학에서는 널리 알려진 개념이다. 강화는 동물이 시행착오를 통해 학습을 하는 방법의 하나를 가리킨다. 스키너는 이를 조작적 조건화 이론이라고 하여 상자속에서 우연히 발판을 밟아 먹이가 나오는 것을 여러번 경험하자 쥐가 점점 발판을 자주 밟게되어 이 과정을 통해 쥐가 발판을 밟는 행동과 먹이와의 관계를 학습하게 되는 것을 관찰했다. 이는 학습과 학교 교육에 적용되고 행동수정이론으로 발전하게 된다.
어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다. 이러한 문제는 매우 포괄적이기 때문에 게임이론, 제어이론, 운용 과학, 정보이론, 시뮬레이션 기반 최적화, 다중 에이전트시스템, 떼 지능, 통계학, 유전알고리즘 등의 분야에서도 연구된다.
아래는 강화학습의 전형적인 사례들이다.
(a)의 격자 세상에서는 2차원 공간이 일정크기의 격자 모양으로 분할되어 있고, 각 격자에는 장애물 또는 보물이 놓을 수 있다. 여기에서 문제는 격자 세상에서 로봇이 격자를 이동해가면서 보물을 찾도록 하는 효과적인 정책을 찾는것. (a)에서 회색으로 칠해진 격자들은 좌측 상단의 격자에서 시작하여 가운데 보물이 있는 곳으로 이동하게 하는 이동 행동들의 궤적을 나타내는데, 이러한 일련의 행동과 이에 따른 보상을 에피소드(episode)라고 한다.
(b)는 cart-pole 문제인데, 검은색 사각형은 직선상을 움직이는 카트를 나타내고, 좁고 긴 사각형은 카트 위에는 핀으로 연결되어 있어 자유롭게 회전할 수있는 막대를 나타낸다. 여기에서 문제는 일정한 힘으로 외쪽 또는 오른쪽으로 카트를 움직여서 막대를 수직으로 세우는 정책을 찾는 것
(c)는 벽돌깨기(breakout)라는 아타리(Atari)사에서 출시했던 게임인데, 공을 잘 튕겨서 벽돌을 깨면 점수를 얻는데 뒤에 있는 벽돌일수록 점수가 높다. 여기에서는 많은 점수를 딸 수 있도록 하는 정책을 찾는 것이 문제이다.
(a) 격자 세상의 로봇 (b) cart-pole (c) breakout game
강화학습이 적용되는 문제는 일반적으로 markov decision process로 표현할 수 있다. 강화학습 문제는 다음과 같은 마코브 결정과정의 요소를 사용하여 표현한다.
`환경이 가질 수 있는 상태의 집합 S =
`에이전트가 할 수 있는 행동의 집합 A =
`상태전이를 결정하는 규칙 : t 시점의 상태 St 에서 행동 at 를 취할 때 도달하는 다음 상태 St+1 를 결정하는 것 으로, 다음 상태 St+1 이 확률적으로 결정될 수 도 있다. 이때의 확률은 로 표현한다
`상태전이가 일어날 때 즉시 보상값을 결정하는 함수 :
에이전트가 현재 상태를 명확히 알 수 있으면 마코브 결정과정에 해당되고, 그렇지 않으면 부분 관측 마코브 결정과정에 해당한다. 여기에서는 마코브 결정과정으로 표현되는 강화학습에 대해서만 고려한다.
1) 기대보상
강화학습은 에이전트가 행동하는 동안 받을 기대보상이 최대가 되는 정책을 찾는 것을 목표로함. 기대보상 R은 특정 정책에 따라 행동을 하게 될 때 얻게 되는 보상을 누적한 것으로, 종료 상태가 존재하는 경우에는 다음과 같이 계산할 수 있다.
종료상태가 없이 에이전트가 끝없이 계속 행동하는 경우, 위와같이 단순 누적합을 하면 누적 보상이 무한대로 가까이 갈수 있다. 그래서 일반적으로 기대보상을 계산할 때는 미래의 보상에 대해서 할인을 하는 할인 누적합을 사용한다.
*할인 누적합 : 현재와 10년후의 100만원은 10년동안의 이자가 합쳐져서 만들어진 것으로, 현재의 가치는 백만원에 미치지 못함.
2) 가치함수
강화학습에서는 각 상태에서 기대보상 R값이 최대가 되도록 해주는 정책을 결정해야 한다. 에이전트가 어떤 행동을 하는 것이 좋은지 결정하기 위해, 상태 가치함수와 행동 가치함수라는 개념을 사용한다
강화학습은 일반적으로 미리 주어진 데이터(상태-행동-보상)를 사용해 학습하는 것이 아니라 에이전트가 행동을 통해 결험하는 것을 바탕으로 정책을 학습한다.
3) 벨만 방정식
강화학습에서 가치함수를 관계식으로 표현한 식들을 벨만 방정식이라고 한다. 이러한 것들로 벨만 기대 방정식과 벨만 최적 방정식이 있다. 벨만 기대 방정식은 가치함수를 즉시 보상과 다음상태에서의 할인 기대보상으로 표현한다.
종료상태가 없이 에이전트가 끝없이 계속 행동하는 경우, 위와 같이 단순 누적합을 하면 누적보상이 무한대로 가까이 갈 수 있다.
그외 동적 계획법 기반 정책 결정과 모테카를로 예측을 포함하는 예측과 제어, DQN알고리즘, Actor-Critic 방법등이 있다
□
'2. 인공지능 > 2-3. 기계학습' 카테고리의 다른 글
2-3-16.구글 머신러닝 사내교육자료 (0) | 2018.03.04 |
---|---|
2-3-15. 신경망(RBF) (0) | 2018.03.03 |
2-3-13. 신경망(서포트 벡터 머신) (0) | 2018.02.25 |
2-3-11. 신경망(다층 퍼셉트론) (0) | 2018.02.18 |
2-3-10. 신경망(퍼셉트론) (0) | 2018.02.15 |