active learning
Megjelenés
Főnév
active learning (tsz. active learnings)
- (informatika) Active learning – magyarul: aktív tanulás – egy gépi tanulási stratégia, amelynek célja, hogy a tanuló algoritmus intelligensen válassza ki azokat az adatpontokat, amelyeket érdemes címkézni, ahelyett, hogy véletlenszerűen tanulna mindenből. Ez különösen akkor hasznos, ha:
- A címkézés költséges (pl. orvosi képekhez szakértő kell)
- Nagy mennyiségű adat áll rendelkezésre, de kevés a címkézett
🧠 1. Alapötlet
A gépi tanuló „megkérdezi”: “Melyik adatpontot lenne érdemes megtanulnom legközelebb?”
Az aktív tanulás tehát szelektíven kérdez a tanítótól (pl. emberi annotátortól) – nem tanul mindent, csak a leginformatívabb példákat.
🔁 2. Tipikus folyamat (loop)
- Kis mennyiségű címkézett adat + nagy halom címkézetlen adat
- Modell betanul a meglévő címkézett adatokon
- Modell kiválaszt egy vagy több legbizonytalanabb példát
- Ember vagy rendszer címkézi ezeket
- Modell frissítése → ismétlés
🔍 3. Mintaválasztási stratégiák
A. Uncertainty Sampling
- A modell azt az adatpontot választja, amelynél a legbizonytalanabb
- Pl. a predikció valószínűsége 50-50 két osztály között
B. Query by Committee (QBC)
- Több modell tanul → azt a példát kérdezik le, ahol leginkább eltér a véleményük
C. Expected Model Change
- Azt az adatpontot választja, amely a legnagyobb változást idézné elő a modellben, ha megcímkéznénk
D. Expected Error Reduction
- Ahol a legnagyobb hibacsökkenést várja, ha megtanulja
🧪 4. Alkalmazási területek
- 🧬 Orvosi képelemzés (MRI, CT): kevés orvosi annotátor → precíz kérdezés fontos
- 📸 Kép- és objektumfelismerés: csak a legnehezebb képek kérdezése
- 📄 Természetes nyelvfeldolgozás (NLP): dokumentumcímkézés, entitásfelismerés
- 🎯 Adatbányászat: adatgyűjtés optimalizálása
- 📉 Imbalanced classification: ritka események észlelése (pl. csalásdetekció)
🧰 5. Python példa (modAL + scikit-learn)
from modAL.models import ActiveLearner
from sklearn.ensemble import RandomForestClassifier
learner = ActiveLearner(
estimator=RandomForestClassifier(),
query_strategy=uncertainty_sampling,
X_training=X_initial,
y_training=y_initial
)
query_idx, query_instance = learner.query(X_pool)
⚖️ 6. Előnyök és kihívások
✅ Előnyök:
- Kevesebb címkézett adat is elég a jó teljesítményhez
- Költséghatékony, ha címkézés drága
- Jobb általánosítás kis adaton
❌ Kihívások:
- Melyik stratégia a legjobb? Adatfüggő
- Címkézési hibák érzékenyen érintik a tanulási folyamatot
- Tanítónak gyors válaszadónak kell lennie (online rendszer)
🧾 7. Összefoglalás
Az active learning:
- Egy interaktív gépi tanulási stratégia, ahol a tanuló kérdezni tud
- Célja: minél kevesebb adatból minél jobbat tanulni
- Kiemelten hasznos adatgazdag, de címkében szegény környezetekben
- Kiválóan kombinálható nagy nyelvi modellekkel, képfeldolgozással, orvosi MI-vel
- active learning - Szótár.net (en-hu)
- active learning - Sztaki (en-hu)
- active learning - Merriam–Webster
- active learning - Cambridge
- active learning - WordNet
- active learning - Яндекс (en-ru)
- active learning - Google (en-hu)
- active learning - Wikidata
- active learning - Wikipédia (angol)