Ugrás a tartalomhoz

bootstrap aggregating

A Wikiszótárból, a nyitott szótárból


Főnév

bootstrap aggregating (tsz. bootstrap aggregatings)

  1. (informatika) Bootstrap Aggregating, röviden Bagging, egy ensemble (együttes) tanulási módszer a gépi tanulásban, amely a pontosság növelése és a túlilleszkedés csökkentése érdekében alkalmaz több, független modellből álló rendszert.

A bagging lényege, hogy ugyanazon adathalmazból többször, véletlenszerűen mintavételezünk (bootstrappelés), majd ezekre a mintákra külön modelleket tanítunk, végül az előrejelzéseket összegezzük (pl. szavazással vagy átlagolással).



🧠 Mi az a bootstrap?

A bootstrap egy mintavételi eljárás, ahol egy adott adathalmazból véletlenszerűen és visszatevéssel választunk mintákat.

Ha van adatpont, akkor egy bootstrap minta is hosszú, de néhány pont többször is szerepelhet, mások pedig kimaradhatnak.



🔧 A Bagging algoritmus lépései

Tegyük fel, hogy van egy tanítóhalmazunk mérete , és szeretnénk egy ensemble modellt készíteni almodellből:

  1. Bootstrap mintavétel:
    • darab tanítóhalmazt generálunk
    • Minden az eredeti -ből vett véletlen minta, visszatevéssel
  2. Almodellek tanítása:
    • Minden bootstrap mintára egy független példányt tanítunk (pl. döntési fát, regressziós modellt)
  3. Aggregálás:
    • Klasszifikáció esetén: többségi szavazás
    • Regresszió esetén: átlagolás



📦 Általános Bagging struktúra

for i in range(k):
    D_i = bootstrap_sample(D)
    model_i = train_model(D_i)
    models.append(model_i)

def predict(x):
    preds = [model.predict(x) for model in models]
    return majority_vote(preds)  # vagy np.mean(preds) regresszióhoz

🧠 Miért működik jól?

  • A bagging különösen hatékony magas varianciájú modelleknél, pl. döntési fáknál
  • Azáltal, hogy a modellek eltérő adatokon tanulnak, az együttes rendszer kiegyensúlyozottabb lesz
  • A predikciók átlagolása/szavazása csökkenti a hibaszórást (variance), miközben a torzítást (bias) nem növeli jelentősen



🌳 Klasszikus példa: Random Forest

A Random Forest a bagging egyik legismertebb alkalmazása:

  • Sok döntési fát tanít bootstrappelt mintákon
  • A tanítás során minden fa véletlenszerűen választ attribútumokat
  • A predikció többségi szavazással történik



✅ Előnyök

Előny Magyarázat
Stabilabb modell Csökkenti a túlilleszkedést
Párhuzamosítható Almodellek egymástól függetlenül tanulnak
Egyszerű Könnyen implementálható bármilyen tanulóval
Nincs szükség új adatokra Az eredeti adathalmazból mintáz



❌ Hátrányok

Hátrány Magyarázat
Nagy számítási igény Sok almodellt kell tanítani
Magas bias esetén nem segít Ha az alapmodell túl egyszerű, az ensemble is gyenge lesz
Nehezen értelmezhető Az aggregált modell nem magyarázható könnyen (black box hatás)



📈 Példák alkalmazásra

  • 🩺 Orvosi diagnosztika (pl. random forest a diagnózis predikcióhoz)
  • 🔍 Képfeldolgozás, osztályozás
  • 🧠 Szövegosztályozás
  • 📊 Regressziós problémák



🧩 TL;DR

A Bagging (Bootstrap Aggregating) egy ensemble módszer, amely ugyanazon adathalmazból többszörös visszatevéses mintavétellel új tanítóhalmazokat hoz létre, és ezekre külön almodelleket tanít. Az előrejelzéseket szavazással vagy átlagolással kombinálja, így csökkenti a varianciát, és javítja a predikciós teljesítményt.