Ugrás a tartalomhoz

Q-learning

A Wikiszótárból, a nyitott szótárból
(q-learning szócikkből átirányítva)


Főnév

Q-learning (tsz. Q-learnings)

  1. (informatika) A Q-learning egy alapvető megerősítéses tanulási (reinforcement learning) algoritmus, amelyet arra használnak, hogy egy ügynök (agent) megtanulja, hogyan válasszon optimális lépéseket egy adott környezetben a maximális jutalom eléréséhez.



1. Alapfogalmak

  • Megerősítéses tanulás: Olyan tanulási módszer, ahol az ügynök a környezettel való interakció során kap visszajelzést (jutalmat vagy büntetést), és ennek alapján javítja döntéseit.
  • Állapot (state): A környezet aktuális helyzete.
  • Akció (action): Az ügynök által kiválasztott cselekvés.
  • Jutalom (reward): Az adott lépés után kapott visszacsatolás, amely a cselekvés értékét mutatja.
  • Q-érték (Q-value): Az adott állapotból az adott akció végrehajtásával várható hosszú távú összjutalom.



2. A Q-learning algoritmus működése

A Q-learning célja a Q-tábla (Q-table) feltöltése, amely minden állapot-akció párhoz hozzárendeli a várható jutalom értékét. Az algoritmus iteratív módon frissíti ezeket az értékeket a következő képlettel:

ahol:

  • : aktuális állapot
  • : végrehajtott akció
  • : azonnali jutalom
  • : az új állapot a lépés után
  • : tanulási ráta (0 és 1 között)
  • : diszkont faktor (a jövőbeni jutalmak súlyozására)
  • : az új állapotból a legjobb várható Q-érték



3. Jellemzők

  • Off-policy algoritmus: A Q-learning megtanulja az optimális politikát függetlenül attól, hogy az ügynök milyen stratégiával választja az akciókat.
  • Felfedezés és kihasználás: A gyakori megoldás az -greedy stratégia, ahol bizonyos valószínűséggel véletlenszerű lépést tesz az ügynök, hogy új lehetőségeket fedezzen fel.



4. Alkalmazási területek

  • Robotika és vezérlés
  • Játékok (például sakk, Go, videojátékok)
  • Autonóm rendszerek tanulása
  • Optimalizációs problémák megoldása



5. Összefoglaló táblázat

Tulajdonság Leírás
Típus Megerősítéses tanulás, off-policy algoritmus
Fő cél Optimális akciók megtanulása adott állapotban
Tanulási mechanizmus Q-érték frissítés azonnali jutalom és jövőbeni várható jutalom alapján
Jellemző stratégia -greedy felfedezés-kihasználás
Használati területek Robotika, játékok, autonóm rendszerek



A Q-learning egyszerű, mégis hatékony módszer arra, hogy ügynökök megtanulják a legjobb döntéseket hozni komplex és dinamikus környezetekben a jutalmak maximalizálásával.