Q-learning
Megjelenés
(q-learning szócikkből átirányítva)
Főnév
Q-learning (tsz. Q-learnings)
- (informatika) A Q-learning egy alapvető megerősítéses tanulási (reinforcement learning) algoritmus, amelyet arra használnak, hogy egy ügynök (agent) megtanulja, hogyan válasszon optimális lépéseket egy adott környezetben a maximális jutalom eléréséhez.
1. Alapfogalmak
- Megerősítéses tanulás: Olyan tanulási módszer, ahol az ügynök a környezettel való interakció során kap visszajelzést (jutalmat vagy büntetést), és ennek alapján javítja döntéseit.
- Állapot (state): A környezet aktuális helyzete.
- Akció (action): Az ügynök által kiválasztott cselekvés.
- Jutalom (reward): Az adott lépés után kapott visszacsatolás, amely a cselekvés értékét mutatja.
- Q-érték (Q-value): Az adott állapotból az adott akció végrehajtásával várható hosszú távú összjutalom.
2. A Q-learning algoritmus működése
A Q-learning célja a Q-tábla (Q-table) feltöltése, amely minden állapot-akció párhoz hozzárendeli a várható jutalom értékét. Az algoritmus iteratív módon frissíti ezeket az értékeket a következő képlettel:
ahol:
- : aktuális állapot
- : végrehajtott akció
- : azonnali jutalom
- : az új állapot a lépés után
- : tanulási ráta (0 és 1 között)
- : diszkont faktor (a jövőbeni jutalmak súlyozására)
- : az új állapotból a legjobb várható Q-érték
3. Jellemzők
- Off-policy algoritmus: A Q-learning megtanulja az optimális politikát függetlenül attól, hogy az ügynök milyen stratégiával választja az akciókat.
- Felfedezés és kihasználás: A gyakori megoldás az -greedy stratégia, ahol bizonyos valószínűséggel véletlenszerű lépést tesz az ügynök, hogy új lehetőségeket fedezzen fel.
4. Alkalmazási területek
- Robotika és vezérlés
- Játékok (például sakk, Go, videojátékok)
- Autonóm rendszerek tanulása
- Optimalizációs problémák megoldása
5. Összefoglaló táblázat
| Tulajdonság | Leírás |
|---|---|
| Típus | Megerősítéses tanulás, off-policy algoritmus |
| Fő cél | Optimális akciók megtanulása adott állapotban |
| Tanulási mechanizmus | Q-érték frissítés azonnali jutalom és jövőbeni várható jutalom alapján |
| Jellemző stratégia | -greedy felfedezés-kihasználás |
| Használati területek | Robotika, játékok, autonóm rendszerek |
A Q-learning egyszerű, mégis hatékony módszer arra, hogy ügynökök megtanulják a legjobb döntéseket hozni komplex és dinamikus környezetekben a jutalmak maximalizálásával.
- Q-learning - Szótár.net (en-hu)
- Q-learning - Sztaki (en-hu)
- Q-learning - Merriam–Webster
- Q-learning - Cambridge
- Q-learning - WordNet
- Q-learning - Яндекс (en-ru)
- Q-learning - Google (en-hu)
- Q-learning - Wikidata
- Q-learning - Wikipédia (angol)