티스토리 뷰

study

Q-learning, Exploitation & Exploration

kmk_sweetlife 2023. 10. 12. 23:53
반응형

지난 시간에 큐러닝 알고리즘에 대해서 배웠지만, 아래 대목에서 어떠한 연유로 'a'를 선택하는 지에 대해서는 말하지 않았다. 

 Select an aciton a and execute it (= a라는 특정한 행동방식을 선택 및 수행한다)

Exploitation & Exploration 알고리즘 

 - 특정 행동을 선택하는 데 있어서 그 기반이 되는 알고리즘 

 1) exploit : 내가 가진 선택지 안에서 선택하는 방식 ex. 내가 자주 가는 가장 맛있는 식당을 선택하는 것

 2) explore : 시도해보지 않은 새로운 선택지를 택하는 방식 ex. 전혀 가본 적없는 식당을 선택하여 모험하는 것 

Exploration-exploitation 딜레마

- 새로운 것을 탐색할 것인가 vs 이미 내가 가진 패를 잘 활용할 것인가

: 이미 아는 것을 선택함으로써 예상과 가까운 결과를 얻는 '활용 exploitation'과 확실치 않은 것을 선택해서 배움을 얻는 '탐색 exploration' 중 무엇을 선택할지에 대한 딜레마, 즉 트레이드오프(trade-off)가 발생한다. exploit 과 explore 사이에서 반드시 1가지 행동을 선택해야 한다면, 어떻게 선택해야 할 것인가? 

 

Epsilon greedy 알고리즘

- Exploration과 Exploitation을 모두 고려한 기법으로 심플하면서도 강력한 알고리즘이다. 

: eplsilon()의 일정한 확률로 greedy(=exploit) 하게 선택할지 랜덤하게(=explore) 선택할지를 결정한다.

 

  •  확률 만큼 "탐색" → 랜덤으로 선택하여 각 선택 경로들의 가치를 탐색한다
  •  확률 만큼 "활용" → 현재 기준 가장 가치가 높은 경로를 선택한다.