Q-learning, Exploitation & Exploration

티스토리 뷰

study

Q-learning, Exploitation & Exploration

kmk_sweetlife 2023. 10. 12. 23:53

지난 시간에 큐러닝 알고리즘에 대해서 배웠지만, 아래 대목에서 어떠한 연유로 'a'를 선택하는 지에 대해서는 말하지 않았다.

Select an aciton a and execute it (= a라는 특정한 행동방식을 선택 및 수행한다)

Exploitation & Exploration 알고리즘

- 특정 행동을 선택하는 데 있어서 그 기반이 되는 알고리즘

1) exploit : 내가 가진 선택지 안에서 선택하는 방식 ex. 내가 자주 가는 가장 맛있는 식당을 선택하는 것

2) explore : 시도해보지 않은 새로운 선택지를 택하는 방식 ex. 전혀 가본 적없는 식당을 선택하여 모험하는 것

Exploration-exploitation 딜레마

- 새로운 것을 탐색할 것인가 vs 이미 내가 가진 패를 잘 활용할 것인가

: 이미 아는 것을 선택함으로써 예상과 가까운 결과를 얻는 '활용 exploitation'과 확실치 않은 것을 선택해서 배움을 얻는 '탐색 exploration' 중 무엇을 선택할지에 대한 딜레마, 즉 트레이드오프(trade-off)가 발생한다. exploit 과 explore 사이에서 반드시 1가지 행동을 선택해야 한다면, 어떻게 선택해야 할 것인가?

Epsilon greedy 알고리즘

- Exploration과 Exploitation을 모두 고려한 기법으로 심플하면서도 강력한 알고리즘이다.

: eplsilon()의 일정한 확률로 greedy(=exploit) 하게 선택할지 랜덤하게(=explore) 선택할지를 결정한다.

$ϵ$ 확률 만큼 "탐색" → 랜덤으로 선택하여 각 선택 경로들의 가치를 탐색한다
$1 - ϵ$ 확률 만큼 "활용" → 현재 기준 가장 가치가 높은 경로를 선택한다.

'study' 카테고리의 다른 글

[파이썬] 2강 팁계산기 만들기 _ 코드 비교 (0)	2024.03.12
Q-learning on a windy frozen lake! (0)	2023.10.14
CNN — ConvNet Max pooling 과 Full Network (0)	2023.10.09
CNN — ConvNet의 Conv 레이어 만들기 (0)	2023.10.09
ML — NN Dropout & Model Ensemble (0)	2023.10.09

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

글 보관함

moment garden

티스토리 뷰