bootstrap aggregating
Főnév
bootstrap aggregating (tsz. bootstrap aggregatings)
- (informatika) Bootstrap Aggregating, röviden Bagging, egy ensemble (együttes) tanulási módszer a gépi tanulásban, amely a pontosság növelése és a túlilleszkedés csökkentése érdekében alkalmaz több, független modellből álló rendszert.
A bagging lényege, hogy ugyanazon adathalmazból többször, véletlenszerűen mintavételezünk (bootstrappelés), majd ezekre a mintákra külön modelleket tanítunk, végül az előrejelzéseket összegezzük (pl. szavazással vagy átlagolással).
🧠 Mi az a bootstrap?
A bootstrap egy mintavételi eljárás, ahol egy adott adathalmazból véletlenszerűen és visszatevéssel választunk mintákat.
Ha van adatpont, akkor egy bootstrap minta is hosszú, de néhány pont többször is szerepelhet, mások pedig kimaradhatnak.
🔧 A Bagging algoritmus lépései
Tegyük fel, hogy van egy tanítóhalmazunk mérete , és szeretnénk egy ensemble modellt készíteni almodellből:
- Bootstrap mintavétel:
- darab tanítóhalmazt generálunk
- Minden az eredeti -ből vett véletlen minta, visszatevéssel
- Almodellek tanítása:
- Minden bootstrap mintára egy független példányt tanítunk (pl. döntési fát, regressziós modellt)
- Aggregálás:
- Klasszifikáció esetén: többségi szavazás
- Regresszió esetén: átlagolás
📦 Általános Bagging struktúra
for i in range(k):
D_i = bootstrap_sample(D)
model_i = train_model(D_i)
models.append(model_i)
def predict(x):
preds = [model.predict(x) for model in models]
return majority_vote(preds) # vagy np.mean(preds) regresszióhoz
🧠 Miért működik jól?
- A bagging különösen hatékony magas varianciájú modelleknél, pl. döntési fáknál
- Azáltal, hogy a modellek eltérő adatokon tanulnak, az együttes rendszer kiegyensúlyozottabb lesz
- A predikciók átlagolása/szavazása csökkenti a hibaszórást (variance), miközben a torzítást (bias) nem növeli jelentősen
🌳 Klasszikus példa: Random Forest
A Random Forest a bagging egyik legismertebb alkalmazása:
- Sok döntési fát tanít bootstrappelt mintákon
- A tanítás során minden fa véletlenszerűen választ attribútumokat
- A predikció többségi szavazással történik
✅ Előnyök
| Előny | Magyarázat |
|---|---|
| ✅ Stabilabb modell | Csökkenti a túlilleszkedést |
| ✅ Párhuzamosítható | Almodellek egymástól függetlenül tanulnak |
| ✅ Egyszerű | Könnyen implementálható bármilyen tanulóval |
| ✅ Nincs szükség új adatokra | Az eredeti adathalmazból mintáz |
❌ Hátrányok
| Hátrány | Magyarázat |
|---|---|
| ❌ Nagy számítási igény | Sok almodellt kell tanítani |
| ❌ Magas bias esetén nem segít | Ha az alapmodell túl egyszerű, az ensemble is gyenge lesz |
| ❌ Nehezen értelmezhető | Az aggregált modell nem magyarázható könnyen (black box hatás) |
📈 Példák alkalmazásra
- 🩺 Orvosi diagnosztika (pl. random forest a diagnózis predikcióhoz)
- 🔍 Képfeldolgozás, osztályozás
- 🧠 Szövegosztályozás
- 📊 Regressziós problémák
🧩 TL;DR
A Bagging (Bootstrap Aggregating) egy ensemble módszer, amely ugyanazon adathalmazból többszörös visszatevéses mintavétellel új tanítóhalmazokat hoz létre, és ezekre külön almodelleket tanít. Az előrejelzéseket szavazással vagy átlagolással kombinálja, így csökkenti a varianciát, és javítja a predikciós teljesítményt.
- bootstrap aggregating - Szótár.net (en-hu)
- bootstrap aggregating - Sztaki (en-hu)
- bootstrap aggregating - Merriam–Webster
- bootstrap aggregating - Cambridge
- bootstrap aggregating - WordNet
- bootstrap aggregating - Яндекс (en-ru)
- bootstrap aggregating - Google (en-hu)
- bootstrap aggregating - Wikidata
- bootstrap aggregating - Wikipédia (angol)