state–action–reward–state–action
Főnév
state–action–reward–state–action (tsz. state–action–reward–state–actions)
State–Action–Reward–State–Action (SARSA) egy ismert algoritmus a megerősítéses tanulás (reinforcement learning) területén. Ez egy on-policy (azaz a tanulási politika által generált tapasztalatokon alapuló) módszer, amelyet arra használnak, hogy egy ügynök (agent) megtanulja, milyen lépéseket (action) érdemes választania egy adott állapotban (state), hogy maximalizálja a hosszú távú jutalmát (reward).
1. Mi az SARSA?
Az SARSA egy érték-alapú megerősítéses tanulási algoritmus, amely a Q-értékeket (Q-values) tanulja meg. A Q-érték azt méri, hogy egy adott állapotban (state) egy adott akció (action) milyen várható összjutalmat (reward) hozhat hosszú távon, ha az adott politikát követjük.
A név az algoritmusban részt vevő öt elem rövidítése:
- State (S): a jelenlegi állapot, ahol az ügynök tartózkodik.
- Action (A): az a cselekvés, amit az ügynök végrehajt ebben az állapotban.
- Reward (R): az azonnali jutalom, amit az ügynök kap az akció után.
- State’ (S’): az új állapot, amibe az ügynök kerül az akció végrehajtása után.
- Action’ (A’): az új állapotban választott következő akció.
2. Az algoritmus lépései
- Az ügynök az aktuális állapotban (S) kiválaszt egy akciót (A) a jelenlegi politikája szerint (pl. ε-greedy).
- Végrehajtja az akciót, és megkapja az azonnali jutalmat (R).
- Megfigyeli az új állapotot (S’).
- Az új állapotban kiválaszt egy új akciót (A’) a politikája szerint.
- Frissíti a Q-értéket az alábbi képlettel:
ahol
- a tanulási ráta,
- a diszkont faktor, amely a jövőbeli jutalmak értékét súlyozza.
- Az ügynök az új állapotban (S’) az új akcióval (A’) folytatja a tanulást.
3. SARSA jellemzői
- On-policy algoritmus: Az SARSA az aktuális követett politikát használja mind a tanuláshoz, mind a cselekvés kiválasztásához, így figyelembe veszi az adott stratégia jellemzőit, például a felfedezést (exploration).
- Biztonságosabb tanulás: Mivel a frissítés az aktuális politika szerinti következő lépéstől függ, általában konzervatívabb, kevesebb „kockázatos” viselkedést tanul meg.
4. Összehasonlítás a Q-learninggel
- Q-learning: egy off-policy algoritmus, amely mindig a legjobb (maximális) jövőbeli Q-értéket használja a frissítéshez, függetlenül attól, hogy milyen akciót választ a politika ténylegesen.
- SARSA: az aktuális választott akció Q-értékét használja, így a tanulás szorosabban követi a tényleges cselekvési politikát.
5. Alkalmazási területek
- Robotika és autonóm rendszerek
- Játékok (pl. egyszerű stratégiai játékok tanulása)
- Üzleti döntéstámogatás
- Bármilyen szekvenciális döntéshozatali probléma, ahol az állapotok és akciók jól definiáltak
6. Összegzés
Az SARSA egy egyszerű, de hatékony megerősítéses tanulási algoritmus, amely az aktuális politikára alapozva frissíti a cselekvési értékeket. Ez lehetővé teszi, hogy egy ügynök adaptív módon tanuljon meg döntéseket hozni egy változó környezetben, figyelembe véve a saját viselkedési stratégiáját.
- state–action–reward–state–action - Szótár.net (en-hu)
- state–action–reward–state–action - Sztaki (en-hu)
- state–action–reward–state–action - Merriam–Webster
- state–action–reward–state–action - Cambridge
- state–action–reward–state–action - WordNet
- state–action–reward–state–action - Яндекс (en-ru)
- state–action–reward–state–action - Google (en-hu)
- state–action–reward–state–action - Wikidata
- state–action–reward–state–action - Wikipédia (angol)