Ugrás a tartalomhoz

value function

A Wikiszótárból, a nyitott szótárból


Főnév

value function (tsz. value functions)

  1. (informatika) értékfüggvény

Az értékfüggvény (angolul: value function) az optimalizálásban, dinamikus programozásban és különösen a megerősítéses tanulásban (reinforcement learning) egy központi fogalom. Általánosan szólva egy értékfüggvény azt fejezi ki, hogy mekkora „értéket”, hasznot vagy jutalmat várhatunk el egy adott döntési helyzetből, ha onnan egy adott stratégia szerint folytatjuk.



1. Fogalmi alapok

Az értékfüggvény egyfajta előretekintő értékelés: nemcsak a jelenlegi állapotot tekinti, hanem azt is, hogy milyen jövőbeli állapotokat érhetünk el, és ott milyen jutalmat kaphatunk. Ezért az értékfüggvény kulcsszerepet játszik döntéshozatali problémákban, mint például:

  • Dinamikus programozás
  • Markov-döntési folyamatok (MDP)
  • Optimalizálás
  • Játékok
  • Gazdasági modellek
  • AI és megerősítéses tanulás



2. Dinamikus programozásban

Vegyünk egy döntési problémát, ahol egy rendszer állapota időben változik, és minden lépésnél egy döntéshozónak választania kell egy cselekvést, amely jutalommal jár. A cél: maximalizálni a hosszú távú nyereséget.

Bellman-elv

Az értékfüggvény a Bellman-egyenlet segítségével határozható meg:

Ha V(s) jelöli az állapot értékét (s az állapot), akkor:

V(s) = max_a [ R(s, a) + γ * Σ P(s' | s, a) * V(s') ]
  • R(s, a): az azonnali jutalom, ha a cselekvést választjuk s állapotban
  • P(s' | s, a): valószínűsége, hogy s' állapotba kerülünk, ha s-ben a-t választunk
  • γ: diszkontráta (0 < γ ≤ 1), amely a jövőbeli jutalmak súlyát csökkenti

Ez az egyenlet rekurzív, és visszafelé számítja ki a „legjobb lehetséges értéket” minden állapotban.



3. Kétféle értékfüggvény

A megerősítéses tanulásban két fő típusa van az értékfüggvénynek:

a) Állapotérték-függvény (State-value function)

Megmutatja, hogy egy adott stratégia szerint egy állapotból indulva mekkora várható jutalmat kapunk:

Vπ(s) = Eπ [ ∑ γ^t * r_t | s₀ = s ]

Itt:

  • π a stratégia (policy)
  • s az induló állapot
  • r_t a t-edik lépés jutalma
  • γ diszkontráta

b) Állapot–akció értékfüggvény (Action-value function / Q-function)

Megmutatja, hogy egy adott állapotban egy adott akció választásával milyen várható jutalmat kapunk:

Qπ(s, a) = Eπ [ ∑ γ^t * r_t | s₀ = s, a₀ = a ]

Ez bővebb, mert nemcsak az állapotot, hanem a választott akciót is figyelembe veszi.



4. Optimális értékfüggvény

Az optimális értékfüggvény egy olyan függvény, amely a lehető legjobb stratégia szerinti legnagyobb elérhető jutalmat adja vissza minden állapotra.

  • V* az optimális állapotérték-függvény
  • Q* az optimális állapot–akció értékfüggvény

Ezek kielégítik a következő Bellman-optimális egyenleteket:

V*(s) = max_a [ R(s, a) + γ * Σ P(s' | s, a) * V*(s') ]

Q*(s, a) = R(s, a) + γ * Σ P(s' | s, a) * max_{a'} Q*(s', a')

Az optimális stratégia:

π*(s) = argmax_a Q*(s, a)

5. Értékfüggvény szerepe a gépi tanulásban

A megerősítéses tanulás célja, hogy egy ügynök tanulás révén megtanulja, mely cselekedetek hozzák a legnagyobb jutalmat.

A tanulási algoritmusok célja az értékfüggvény (vagy Q-függvény) becslése tapasztalat alapján.

Példák:

  • Q-learning: megtanulja a Q-függvényt tapasztalatból, anélkül hogy ismerné az átmeneti valószínűségeket.
  • TD(λ), SARSA: fokozatos becslések az értékfüggvényre, tapasztalati alapon.



6. Értékfüggvény vs. politika

  • A politika (policy) egy stratégia: megmondja, hogy egy adott állapotban milyen cselekvést válasszunk.
  • Az értékfüggvény értékeli a politika teljesítményét: megmondja, mennyi jutalmat várhatunk el tőle.

A tanulás során gyakran először megtanuljuk az értékfüggvényt, majd ebből származtatjuk a legjobb politikát.



7. Példa egy egyszerű környezetre

Tegyük fel, hogy egy robot 5 állapotban mozoghat (1-től 5-ig), és célja, hogy elérje az 5-ös állapotot, ahol 100 pont jutalom jár. Minden más állapotban 0 jutalmat kap. A robot léphet jobbra (előre), vagy maradhat.

Egy egyszerű stratégia: mindig lépj előre.

Az értékfüggvény:

V(5) = 100
V(4) = γ × 100
V(3) = γ² × 100
...
V(1) = γ⁴ × 100

Ez mutatja, hogy minél közelebb vagyunk a célhoz, annál nagyobb az érték.



8. Diszkontálás

A diszkontráta γ értéke 0 és 1 között van:

  • Ha γ = 1, akkor a jövőbeli jutalom ugyanolyan fontos, mint a jelenlegi.
  • Ha γ < 1, akkor a jövőbeli jutalom egyre kevésbé számít, vagyis sürgetjük az azonnali hasznot.

Ez befolyásolja az értékfüggvény alakját is.



9. Kiterjesztések

Az értékfüggvényt nemcsak diszkrét állapotokra lehet alkalmazni, hanem:

  • Folytonos állapotterekre: itt gyakran neurális hálókkal közelítik az értékfüggvényt (pl. DQN).
  • Stokasztikus rendszerekre: a véletlenszerűség miatt elvárt (várható) értékeket kell használni.
  • Részleges megfigyelésű rendszerekre (POMDP): itt nem az állapot ismert, hanem csak valószínűségi megfigyelések alapján számolunk.



10. Összefoglalás

Az értékfüggvény egy erőteljes fogalom, amely:

  • értékeli a stratégia teljesítményét
  • előrejelzi a jövőbeli nyereséget
  • segíti a legjobb döntések meghozatalát
  • a dinamikus programozás és gépi tanulás középpontjában áll

Kulcsfontosságú szerepe van minden olyan problémában, ahol többlépéses döntéseket kell optimalizálni.