reinforcement learning
Megjelenés
(RL szócikkből átirányítva)
| part of a series on |
| machine learning and data mining |
|---|
Főnév
reinforcement learning (tsz. reinforcement learnings)
Reinforcement Learning (RL, magyarul: megerősítéses tanulás) a mesterséges intelligencia egyik alapvető tanulási paradigmája, ahol egy ügynök (agent) tanul kísérletezés és visszajelzés (jutalom) útján optimális döntéshozatalt egy környezetben (environment). Ez a tanulás próba-szerencse (trial-and-error) alapú, és nem felügyelt (unsupervised) a klasszikus értelemben.
🧠 1. Alapötlet
Az ügynök célja, hogy maximalizálja a hosszú távú jutalmat azáltal, hogy döntéseket hoz és visszajelzést kap a környezettől.
🧱 2. Alapelemek
| Komponens | Leírás |
|---|---|
| Agent (ügynök) | A döntéshozó entitás |
| Environment (környezet) | A világ, amiben az ügynök működik |
| State (állapot) | A környezet pillanatnyi leírása |
| Action (akció) | Az ügynök választása |
| Reward (jutalom) | A környezet visszajelzése |
| Policy () | Az ügynök döntési stratégiája |
| Value function | Megjósolja az összjutalmat egy állapotból |
| Q-function | Megjósolja az akciók hasznosságát adott állapotból |
🔁 3. Működési ciklus
- Az ügynök megfigyeli az állapotot
- Választ egy akciót
- A környezet válaszol:
- új állapot
- jutalom
- Az ügynök frissíti stratégiáját a tapasztalat alapján
- Ismétlés → tanulás
🔢 4. Célfüggvény – Return és optimalizálás
A cél az összesített diszkontált jutalom maximalizálása:
ahol:
- : diszkontfaktor, ami a jövőbeli jutalmak fontosságát súlyozza
📚 5. Klasszikus RL algoritmusok
✅ 5.1 Value-based módszerek
| Módszer | Leírás |
|---|---|
| Q-learning | Q-értékek táblázatos frissítése |
| SARSA | On-policy frissítés |
| Dyna-Q | Modellalapú és model-free kombináció |
✅ 5.2 Policy-based módszerek
| Módszer | Leírás |
|---|---|
| REINFORCE | Gradiens alapú tanulás |
| Actor-Critic | Külön actor (policy) és critic (value) komponens |
✅ 5.3 Model-based módszerek
- A környezetet is modellezi → előrejelzi, mi fog történni egy akció után
🧠 6. Deep Reinforcement Learning (DRL)
Amikor mély neurális hálózatokat használunk a Q-értékek vagy policy reprezentálására.
Legismertebb példa:
- Deep Q-Network (DQN) – Google DeepMind, 2015
- Atari játékokat játszott emberi szinten
🕹️ 7. Példa: Q-learning (egyszerű táblás környezet)
import numpy as np
import random
Q = np.zeros((5, 2)) # 5 állapot, 2 akció
alpha = 0.1
gamma = 0.9
epsilon = 0.1
def choose_action(state):
if random.random() < epsilon:
return random.randint(0, 1)
return np.argmax(Q[state])
def get_next_state(state, action):
return min(4, state + 1) if action == 1 else max(0, state - 1)
def get_reward(state):
return 10 if state == 4 else -1
for episode in range(500):
state = 0
while state != 4:
action = choose_action(state)
next_state = get_next_state(state, action)
reward = get_reward(next_state)
Q[state, action] += alpha * (reward + gamma * np.max(Q[next_state]) - Q[state, action])
state = next_state
print(Q)
📦 8. Alkalmazási területek
| Terület | Példa |
|---|---|
| Robotika | Mozgás, navigáció |
| Játékok | AlphaGo, Dota2, Chess, StarCraft |
| Önvezető autók | Döntéshozatal, sávváltás |
| Pénzügy | Kereskedési stratégiák |
| Energiarendszerek | Hálózatirányítás, hőmérséklet-szabályozás |
| Távközlés | Hálózati forgalom optimalizálás |
📉 9. Előnyök és hátrányok
| ✅ Előnyök | ❌ Hátrányok |
|---|---|
| Nem igényel teljes környezeti modell | Lassú tanulás lehet |
| Rugalmas és általánosítható | Instabilitás (főleg DRL-ben) |
| Önálló tapasztalatból tanul | Felfedezés-kihasználás egyensúlya kritikus |
| Alkalmas szekvenciális döntésekre | Sok adat szükséges |
🧾 10. Összefoglalás
| Fogalom | Leírás |
|---|---|
| Reinforcement learning | Próba-szerencse alapú tanulás jutalom alapján |
| Kulcselemek | Agent, environment, state, action, reward |
| Fő cél | Hosszú távú jutalom maximalizálása |
| Algoritmusok | Q-learning, SARSA, DQN, Actor-Critic |
| Alkalmazások | Robotika, játék, AI, önvezetés |
- reinforcement learning - Szótár.net (en-hu)
- reinforcement learning - Sztaki (en-hu)
- reinforcement learning - Merriam–Webster
- reinforcement learning - Cambridge
- reinforcement learning - WordNet
- reinforcement learning - Яндекс (en-ru)
- reinforcement learning - Google (en-hu)
- reinforcement learning - Wikidata
- reinforcement learning - Wikipédia (angol)