Bayesian statistics
| Part of a series on |
| Bayesian statistics |
|---|
| Posterior = Likelihood × Prior ÷ Evidence |
| Background |
| Model building |
| Posterior approximation |
| Estimators |
| Evidence approximation |
| Model evaluation |
Főnév
Bayesian statistics (tsz. Bayesian statisticses)
- (informatika) A Bayesi statisztika a valószínűségelmélet egy olyan megközelítése, amely a valószínűséget nemcsak események gyakoriságaként, hanem bizonytalanság mértékeként értelmezi. Ez a filozófiai és gyakorlati keret lehetővé teszi, hogy előzetes tudásunkat és új megfigyeléseket együttesen használjuk fel döntéshozatalra, becslésekre és modellezésre.
1. Alapja: Bayes-tétel
A Bayes-tétel (Thomas Bayes, 18. század) adja az elmélet magját:
ahol:
- : a modell paramétere, aminek eloszlását keressük,
- : a megfigyelt adat,
- : prior – előzetes valószínűség (mielőtt látnánk az adatokat),
- : likelihood – az adatok valószínűsége adott paraméter mellett,
- : posterior – frissített tudásunk a paraméterről az adatok alapján,
- : marginal likelihood, vagy normáló tényező.
2. Kulcsfogalmak
Prior (előzetes eloszlás)
A prior azt fejezi ki, hogy mit gondolunk a paraméterről mielőtt adatot látunk. Lehet informatív (ha van előzetes tudásunk) vagy neminformatív (pl. egyenletes eloszlás, ha semmit nem tudunk).
Likelihood
Megmutatja, hogy egy paraméterérték milyen valószínűséggel „hozná létre” a megfigyelt adatokat. Ugyanaz, mint a klasszikus statisztikában.
Posterior (utólagos eloszlás)
Ez a végső cél: a paraméterről alkotott új tudásunk, ami a prior és a likelihood kombinációja.
Marginal likelihood
Egy normalizáló tényező:
Ez biztosítja, hogy a posterior eloszlás összesítve 1 legyen.
3. Intuitív értelmezés
A Bayes-tétel segítségével frissítjük a hitünket: egy új adat láttán átgondoljuk, mennyire valószínűek a különböző paraméterértékek.
Példa: érmedobás
Tegyük fel, van egy érme, és nem tudjuk, mennyire torz. Azaz nem ismerjük a fej valószínűségét, -t.
- Prior: azt gondoljuk, az érme tisztességes, ezért minden között (egyenletes eloszlás).
- Megfigyelés: 10 dobásból 7 fej.
- Likelihood:
- Posterior: A prior és likelihood szorzata (majd normalizálva).
Ezzel megkapjuk, hogy mennyire valószínű, hogy az érme fejre esési valószínűsége egy adott érték.
4. Kontraszt a klasszikus (frekventista) statisztikával
| Szempont | Bayesi | Frekventista |
|---|---|---|
| Paraméter | Véletlenszerű (eloszlás) | Fix, de ismeretlen |
| Valószínűség értelme | Tudás/bizonytalanság | Hosszú távú gyakoriság |
| Eredmény | Eloszlás a paraméterekre | Pontbecslés, konfidenciák |
| Minta szerepe | Frissíti a prior-t | Csak a mintából indul ki |
A Bayesi statisztika tehát több információt tartalmaz: nemcsak becslést ad, hanem a becslés bizonytalanságát is expliciten megadja.
5. Előnyök
- Előzetes tudás beépítése: ha van tapasztalat vagy korábbi kutatás, azt be lehet integrálni.
- Teljes valószínűségi modell: nemcsak becslés, hanem eloszlás is.
- Komplex modellek kezelése: például hierarchikus modellek, időbeli folyamatok.
- Nincs szükség nagy mintákra: kis minták esetén is működik.
- Prediktív erő: jól alkalmazható új adatok előrejelzésére.
6. Hátrányok, kihívások
- Számítási költség: a posterior integrálása gyakran nem megoldható zárt formában.
- Prior szubjektivitása: az előzetes eloszlás megválasztása befolyásolhatja az eredményt.
- Összetett implementáció: sokszor numerikus eljárások (pl. MCMC) kellenek.
7. Számítási módszerek
Mivel a posterior kiszámítása sok esetben nem analytikus, szükség van numerikus módszerekre:
MCMC (Markov Chain Monte Carlo)
A legelterjedtebb módszer a posterior mintavételezésére. Lényege:
- Egy Markov-lánc segítségével generálunk sok értéket, amelyek a posterior eloszlás szerint oszlanak el.
- Ezekből a mintákból következtetünk a várható értékre, mediánra, stb.
Legismertebb algoritmusok:
- Metropolis-Hastings
- Gibbs sampling
- Hamiltonian Monte Carlo (pl. Stan nyelv)
8. Bayesi modellezés példák
1. Orvosi diagnózis
Egy betegnek pozitív lett egy tesztje. A Bayes-tétel segítségével frissíthetjük annak valószínűségét, hogy valóban beteg (prior = populációban előfordulás, likelihood = teszt megbízhatósága).
2. Idősorok előrejelzése
Például egy tőzsdei árfolyam modellje: Bayesi módszerekkel képezhetünk dinamikus, frissíthető modelleket, melyek az új megfigyelések után azonnal aktualizálják a becslést.
3. Gépi tanulás
Bayesi logisztikus regresszió, Bayesi neurális hálók, Gaussian process regresszió – ezek lehetővé teszik, hogy a predikció bizonytalanságát is kvantifikáljuk, nem csak az értéket.
9. Bayesi informatikai eszközök
Számos programozási könyvtár és platform támogatja a Bayesi számításokat:
- Python:
- PyMC (PyMC3, PyMC4)
- TensorFlow Probability
- Pyro (Pytorch-alapú)
- R: rstan, brms, BayesianTools
- Stan: külön Bayesi nyelv, nagy hatékonysággal
10. Összefoglalás
A Bayesi statisztika egy hatékony és elméletileg megalapozott módszer a valószínűségi modellezésre, amely a meglévő tudást és új adatokat kombinálja. A prior-likelihood-posterior hármas segítségével képes nemcsak becsléseket adni, hanem a becslésekhez kapcsolódó bizonytalanságot is számszerűsíteni.
Miközben nagy számítási igénye miatt sokáig háttérbe szorult, ma a számítási kapacitás növekedésével és új algoritmusok megjelenésével reneszánszát éli. A gépi tanulás, orvosi diagnosztika, gazdasági modellezés és még sok más területen fontos szerepet játszik.
TL;DR
A Bayesi statisztika a valószínűséget a tudás/bizonytalanság mértékeként kezeli. A prior az előzetes hitünk, a likelihood az adatok modellje, a posterior a frissített tudás. A módszer erőteljes, rugalmas, és képes modellezni a bizonytalanságot – de számításigényes. A Bayes-tétel alapján egyesíti a múltbeli tudást az új adatokkal.
- Bayesian statistics - Szótár.net (en-hu)
- Bayesian statistics - Sztaki (en-hu)
- Bayesian statistics - Merriam–Webster
- Bayesian statistics - Cambridge
- Bayesian statistics - WordNet
- Bayesian statistics - Яндекс (en-ru)
- Bayesian statistics - Google (en-hu)
- Bayesian statistics - Wikidata
- Bayesian statistics - Wikipédia (angol)