Ugrás a tartalomhoz

Bayesian statistics

A Wikiszótárból, a nyitott szótárból


Főnév

Bayesian statistics (tsz. Bayesian statisticses)

  1. (informatika) A Bayesi statisztika a valószínűségelmélet egy olyan megközelítése, amely a valószínűséget nemcsak események gyakoriságaként, hanem bizonytalanság mértékeként értelmezi. Ez a filozófiai és gyakorlati keret lehetővé teszi, hogy előzetes tudásunkat és új megfigyeléseket együttesen használjuk fel döntéshozatalra, becslésekre és modellezésre.



1. Alapja: Bayes-tétel

A Bayes-tétel (Thomas Bayes, 18. század) adja az elmélet magját:

ahol:

  • : a modell paramétere, aminek eloszlását keressük,
  • : a megfigyelt adat,
  • : prior – előzetes valószínűség (mielőtt látnánk az adatokat),
  • : likelihood – az adatok valószínűsége adott paraméter mellett,
  • : posterior – frissített tudásunk a paraméterről az adatok alapján,
  • : marginal likelihood, vagy normáló tényező.



2. Kulcsfogalmak

Prior (előzetes eloszlás)

A prior azt fejezi ki, hogy mit gondolunk a paraméterről mielőtt adatot látunk. Lehet informatív (ha van előzetes tudásunk) vagy neminformatív (pl. egyenletes eloszlás, ha semmit nem tudunk).

Likelihood

Megmutatja, hogy egy paraméterérték milyen valószínűséggel „hozná létre” a megfigyelt adatokat. Ugyanaz, mint a klasszikus statisztikában.

Posterior (utólagos eloszlás)

Ez a végső cél: a paraméterről alkotott új tudásunk, ami a prior és a likelihood kombinációja.

Marginal likelihood

Egy normalizáló tényező:

Ez biztosítja, hogy a posterior eloszlás összesítve 1 legyen.



3. Intuitív értelmezés

A Bayes-tétel segítségével frissítjük a hitünket: egy új adat láttán átgondoljuk, mennyire valószínűek a különböző paraméterértékek.

Példa: érmedobás

Tegyük fel, van egy érme, és nem tudjuk, mennyire torz. Azaz nem ismerjük a fej valószínűségét, -t.

  • Prior: azt gondoljuk, az érme tisztességes, ezért minden között (egyenletes eloszlás).
  • Megfigyelés: 10 dobásból 7 fej.
  • Likelihood:
  • Posterior: A prior és likelihood szorzata (majd normalizálva).

Ezzel megkapjuk, hogy mennyire valószínű, hogy az érme fejre esési valószínűsége egy adott érték.



4. Kontraszt a klasszikus (frekventista) statisztikával

Szempont Bayesi Frekventista
Paraméter Véletlenszerű (eloszlás) Fix, de ismeretlen
Valószínűség értelme Tudás/bizonytalanság Hosszú távú gyakoriság
Eredmény Eloszlás a paraméterekre Pontbecslés, konfidenciák
Minta szerepe Frissíti a prior-t Csak a mintából indul ki

A Bayesi statisztika tehát több információt tartalmaz: nemcsak becslést ad, hanem a becslés bizonytalanságát is expliciten megadja.



5. Előnyök

  • Előzetes tudás beépítése: ha van tapasztalat vagy korábbi kutatás, azt be lehet integrálni.
  • Teljes valószínűségi modell: nemcsak becslés, hanem eloszlás is.
  • Komplex modellek kezelése: például hierarchikus modellek, időbeli folyamatok.
  • Nincs szükség nagy mintákra: kis minták esetén is működik.
  • Prediktív erő: jól alkalmazható új adatok előrejelzésére.



6. Hátrányok, kihívások

  • Számítási költség: a posterior integrálása gyakran nem megoldható zárt formában.
  • Prior szubjektivitása: az előzetes eloszlás megválasztása befolyásolhatja az eredményt.
  • Összetett implementáció: sokszor numerikus eljárások (pl. MCMC) kellenek.



7. Számítási módszerek

Mivel a posterior kiszámítása sok esetben nem analytikus, szükség van numerikus módszerekre:

MCMC (Markov Chain Monte Carlo)

A legelterjedtebb módszer a posterior mintavételezésére. Lényege:

  • Egy Markov-lánc segítségével generálunk sok értéket, amelyek a posterior eloszlás szerint oszlanak el.
  • Ezekből a mintákból következtetünk a várható értékre, mediánra, stb.

Legismertebb algoritmusok:

  • Metropolis-Hastings
  • Gibbs sampling
  • Hamiltonian Monte Carlo (pl. Stan nyelv)



8. Bayesi modellezés példák

1. Orvosi diagnózis

Egy betegnek pozitív lett egy tesztje. A Bayes-tétel segítségével frissíthetjük annak valószínűségét, hogy valóban beteg (prior = populációban előfordulás, likelihood = teszt megbízhatósága).

2. Idősorok előrejelzése

Például egy tőzsdei árfolyam modellje: Bayesi módszerekkel képezhetünk dinamikus, frissíthető modelleket, melyek az új megfigyelések után azonnal aktualizálják a becslést.

3. Gépi tanulás

Bayesi logisztikus regresszió, Bayesi neurális hálók, Gaussian process regresszió – ezek lehetővé teszik, hogy a predikció bizonytalanságát is kvantifikáljuk, nem csak az értéket.



9. Bayesi informatikai eszközök

Számos programozási könyvtár és platform támogatja a Bayesi számításokat:

  • Python:
    • PyMC (PyMC3, PyMC4)
    • TensorFlow Probability
    • Pyro (Pytorch-alapú)
  • R: rstan, brms, BayesianTools
  • Stan: külön Bayesi nyelv, nagy hatékonysággal



10. Összefoglalás

A Bayesi statisztika egy hatékony és elméletileg megalapozott módszer a valószínűségi modellezésre, amely a meglévő tudást és új adatokat kombinálja. A prior-likelihood-posterior hármas segítségével képes nemcsak becsléseket adni, hanem a becslésekhez kapcsolódó bizonytalanságot is számszerűsíteni.

Miközben nagy számítási igénye miatt sokáig háttérbe szorult, ma a számítási kapacitás növekedésével és új algoritmusok megjelenésével reneszánszát éli. A gépi tanulás, orvosi diagnosztika, gazdasági modellezés és még sok más területen fontos szerepet játszik.



TL;DR

A Bayesi statisztika a valószínűséget a tudás/bizonytalanság mértékeként kezeli. A prior az előzetes hitünk, a likelihood az adatok modellje, a posterior a frissített tudás. A módszer erőteljes, rugalmas, és képes modellezni a bizonytalanságot – de számításigényes. A Bayes-tétel alapján egyesíti a múltbeli tudást az új adatokkal.