Ugrás a tartalomhoz

reinforcement learning

A Wikiszótárból, a nyitott szótárból
(RL szócikkből átirányítva)


Főnév

reinforcement learning (tsz. reinforcement learnings)

  1. (informatika, mesterséges intelligencia) megerősítéses tanulás

Reinforcement Learning (RL, magyarul: megerősítéses tanulás) a mesterséges intelligencia egyik alapvető tanulási paradigmája, ahol egy ügynök (agent) tanul kísérletezés és visszajelzés (jutalom) útján optimális döntéshozatalt egy környezetben (environment). Ez a tanulás próba-szerencse (trial-and-error) alapú, és nem felügyelt (unsupervised) a klasszikus értelemben.



🧠 1. Alapötlet

Az ügynök célja, hogy maximalizálja a hosszú távú jutalmat azáltal, hogy döntéseket hoz és visszajelzést kap a környezettől.


🧱 2. Alapelemek

Komponens Leírás
Agent (ügynök) A döntéshozó entitás
Environment (környezet) A világ, amiben az ügynök működik
State (állapot) A környezet pillanatnyi leírása
Action (akció) Az ügynök választása
Reward (jutalom) A környezet visszajelzése
Policy () Az ügynök döntési stratégiája
Value function Megjósolja az összjutalmat egy állapotból
Q-function Megjósolja az akciók hasznosságát adott állapotból



🔁 3. Működési ciklus

  1. Az ügynök megfigyeli az állapotot
  2. Választ egy akciót
  3. A környezet válaszol:
    • új állapot
    • jutalom
  4. Az ügynök frissíti stratégiáját a tapasztalat alapján
  5. Ismétlés → tanulás



🔢 4. Célfüggvény – Return és optimalizálás

A cél az összesített diszkontált jutalom maximalizálása:

ahol:

  • : diszkontfaktor, ami a jövőbeli jutalmak fontosságát súlyozza



📚 5. Klasszikus RL algoritmusok

✅ 5.1 Value-based módszerek

Módszer Leírás
Q-learning Q-értékek táblázatos frissítése
SARSA On-policy frissítés
Dyna-Q Modellalapú és model-free kombináció

✅ 5.2 Policy-based módszerek

Módszer Leírás
REINFORCE Gradiens alapú tanulás
Actor-Critic Külön actor (policy) és critic (value) komponens

✅ 5.3 Model-based módszerek

  • A környezetet is modellezi → előrejelzi, mi fog történni egy akció után



🧠 6. Deep Reinforcement Learning (DRL)

Amikor mély neurális hálózatokat használunk a Q-értékek vagy policy reprezentálására.

Legismertebb példa:

  • Deep Q-Network (DQN) – Google DeepMind, 2015
    • Atari játékokat játszott emberi szinten



🕹️ 7. Példa: Q-learning (egyszerű táblás környezet)

import numpy as np
import random

Q = np.zeros((5, 2))  # 5 állapot, 2 akció
alpha = 0.1
gamma = 0.9
epsilon = 0.1

def choose_action(state):
    if random.random() < epsilon:
        return random.randint(0, 1)
    return np.argmax(Q[state])

def get_next_state(state, action):
    return min(4, state + 1) if action == 1 else max(0, state - 1)

def get_reward(state):
    return 10 if state == 4 else -1

for episode in range(500):
    state = 0
    while state != 4:
        action = choose_action(state)
        next_state = get_next_state(state, action)
        reward = get_reward(next_state)
        Q[state, action] += alpha * (reward + gamma * np.max(Q[next_state]) - Q[state, action])
        state = next_state

print(Q)

📦 8. Alkalmazási területek

Terület Példa
Robotika Mozgás, navigáció
Játékok AlphaGo, Dota2, Chess, StarCraft
Önvezető autók Döntéshozatal, sávváltás
Pénzügy Kereskedési stratégiák
Energiarendszerek Hálózatirányítás, hőmérséklet-szabályozás
Távközlés Hálózati forgalom optimalizálás



📉 9. Előnyök és hátrányok

✅ Előnyök ❌ Hátrányok
Nem igényel teljes környezeti modell Lassú tanulás lehet
Rugalmas és általánosítható Instabilitás (főleg DRL-ben)
Önálló tapasztalatból tanul Felfedezés-kihasználás egyensúlya kritikus
Alkalmas szekvenciális döntésekre Sok adat szükséges



🧾 10. Összefoglalás

Fogalom Leírás
Reinforcement learning Próba-szerencse alapú tanulás jutalom alapján
Kulcselemek Agent, environment, state, action, reward
Fő cél Hosszú távú jutalom maximalizálása
Algoritmusok Q-learning, SARSA, DQN, Actor-Critic
Alkalmazások Robotika, játék, AI, önvezetés