티스토리 뷰
반응형
지난 시간에 큐러닝 알고리즘에 대해서 배웠지만, 아래 대목에서 어떠한 연유로 'a'를 선택하는 지에 대해서는 말하지 않았다.
Select an aciton a and execute it (= a라는 특정한 행동방식을 선택 및 수행한다)
Exploitation & Exploration 알고리즘
- 특정 행동을 선택하는 데 있어서 그 기반이 되는 알고리즘
1) exploit : 내가 가진 선택지 안에서 선택하는 방식 ex. 내가 자주 가는 가장 맛있는 식당을 선택하는 것
2) explore : 시도해보지 않은 새로운 선택지를 택하는 방식 ex. 전혀 가본 적없는 식당을 선택하여 모험하는 것
Exploration-exploitation 딜레마
- 새로운 것을 탐색할 것인가 vs 이미 내가 가진 패를 잘 활용할 것인가
: 이미 아는 것을 선택함으로써 예상과 가까운 결과를 얻는 '활용 exploitation'과 확실치 않은 것을 선택해서 배움을 얻는 '탐색 exploration' 중 무엇을 선택할지에 대한 딜레마, 즉 트레이드오프(trade-off)가 발생한다. exploit 과 explore 사이에서 반드시 1가지 행동을 선택해야 한다면, 어떻게 선택해야 할 것인가?
Epsilon greedy 알고리즘
- Exploration과 Exploitation을 모두 고려한 기법으로 심플하면서도 강력한 알고리즘이다.
: eplsilon()의 일정한 확률로 greedy(=exploit) 하게 선택할지 랜덤하게(=explore) 선택할지를 결정한다.
- 확률 만큼 "탐색" → 랜덤으로 선택하여 각 선택 경로들의 가치를 탐색한다
- 확률 만큼 "활용" → 현재 기준 가장 가치가 높은 경로를 선택한다.
'study' 카테고리의 다른 글
[파이썬] 2강 팁계산기 만들기 _ 코드 비교 (0) | 2024.03.12 |
---|---|
Q-learning on a windy frozen lake! (0) | 2023.10.14 |
CNN — ConvNet Max pooling 과 Full Network (0) | 2023.10.09 |
CNN — ConvNet의 Conv 레이어 만들기 (0) | 2023.10.09 |
ML — NN Dropout & Model Ensemble (0) | 2023.10.09 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 파이썬디버깅
- 파이썬디버거
- 고성
- 큐러닝
- 파이썬for문
- 불어문법
- qlearning
- higherlower게임
- 파이썬초급강의
- 파이썬 초급강의
- 안젤라유파이썬
- 파이썬안젤라유강의
- 프랑스어문법
- 숫자업다운게임
- 파이썬안젤라유
- 반과거
- 파이썬thonny
- 유데미파이썬강의
- 파이썬전역범위
- 파이썬반복문
- 아야진해변
- 아야진
- 파이썬 안젤라유 강의
- 복합과거
- 벡터
- 선형대수
- 파이썬강의소개
- 안젤라유강의
- higher lower game
- 파이썬 게임 만들기
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
글 보관함