statistical classification
Megjelenés
| part of a series on |
| machine learning and data mining |
|---|
Főnév
statistical classification (tsz. statistical classifications)
- (informatika, mesterséges intelligencia) A statistical classification, magyarul statisztikai osztályozás, a gépi tanulás és statisztika egyik alapvető területe. Célja, hogy egy adott bemeneti adatot egy előre meghatározott osztályba soroljon – például:
- Egy e-mail SPAM vagy NEM-SPAM?
- Egy betegnél jelen van egy betegség vagy sem?
- Egy gyümölcs alma, körte vagy banán?
A döntés valószínűségi és statisztikai módszerek segítségével történik.
🎯 A cél
Egy osztályozó függvényt tanítani:
ahol:
- : bemeneti vektor (jellemzők)
- : kimeneti osztálycímke (pl. 0 vagy 1)
A tanítás során mintákból tanuljuk meg, hogy milyen jellemzők jellemzik az egyes osztályokat.
📚 Alapfogalmak
| Fogalom | Leírás |
|---|---|
| Osztály (class) | A lehetséges kategóriák (pl. kutya, macska) |
| Címke (label) | A helyes osztály, amelyet tanításkor ismerünk |
| Jellemző (feature) | Egy adat tulajdonsága (pl. súly, szín, kor) |
| Tanítóhalmaz | Címkézett mintákból álló adathalmaz |
| Tesztelés | A modell kiértékelése új (ismeretlen) adatokon |
🛠️ Népszerű statisztikai osztályozók
| Módszer | Leírás |
|---|---|
| Naive Bayes | Egyszerű valószínűségi modell, jellemzők függetlenségét feltételezi |
| Logistic Regression | A valószínűséget logisztikus függvénnyel modellezi |
| Linear Discriminant Analysis (LDA) | Osztályok közötti lineáris elkülönítés |
| Quadratic Discriminant Analysis (QDA) | Hasonló az LDA-hoz, de eltérő kovariancia mátrixokkal |
| k-NN | Nem paraméteres, a legközelebbi példák alapján dönt |
| SVM (Support Vector Machine) | Optimalizált elválasztó síkot keres (lásd külön bejegyzésben) |
| Decision Tree | Hierarchikus szabályrendszer döntésekre |
📐 Példa: Naive Bayes osztályozó
Használja a Bayes-tételt:
Ahol:
- : a keresett feltételes valószínűség (melyik osztály valószínű az adott adatnál)
- : jellemzők valószínűsége az adott osztályon belül
- : az osztály prior valószínűsége
Naive = minden jellemző függetlennek van feltételezve az osztályon belül.
📊 Logistic Regression
A logisztikus regresszió kimenete nem konkrét címke, hanem egy valószínűség:
A döntési szabály:
- ha , akkor osztály = 1
- különben osztály = 0
Használható bináris és többosztályos problémákra is (one-vs-rest stratégiával).
🧠 LDA és QDA
- LDA: feltételezi, hogy az osztályok azonos kovariancia mátrixú Gauss-eloszlásból származnak
- QDA: lehetővé teszi, hogy az osztályok különböző kovarianciával rendelkezzenek
Mindkettőnél a cél: olyan döntési határt találni, ami szétválasztja az eloszlásokat.
✅ Előnyök
- 📈 Könnyen értelmezhető döntési szabályok (pl. logisztikus regresszió)
- 🔍 Statisztikai alapokon nyugszik – magyarázható, átlátható
- ⚡ Gyors tanulás és predikció
- 🧮 Kevés adat is elég lehet, ha az eloszlások egyszerűek
⚠️ Hátrányok
| Hátrány | Magyarázat |
|---|---|
| Túl egyszerű modellek | Nem kezelnek komplex mintázatokat jól |
| Feltételezések gyakran nem teljesülnek | Pl. jellemzők függetlensége (Naive Bayes) |
| Nem mindig skálázhatók jól | Pl. QDA érzékeny magas dimenzióban |
| Nem robusztusak a zajra | Nagy hibákat okozhat kiugró érték |
🧪 Kiértékelési mutatók
| Metrika | Jelentés |
|---|---|
| Accuracy | Helyesen osztályozott példák aránya |
| Precision | Az összes pozitív predikció közül mennyi volt helyes |
| Recall | A tényleges pozitívok közül mennyi lett megtalálva |
| F1-score | Precision és recall harmonikus átlaga |
| ROC AUC | Osztályozó általános teljesítménye minden küszöbre |
🛠️ Python példa: logisztikus regresszió
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y)
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)
print("Pontosság:", model.score(X_test, y_test))
📚 Alkalmazások
| Terület | Használat |
|---|---|
| Egészségügy | Diagnózis: beteg vagy nem? |
| Szövegfeldolgozás | SPAM felismerés, véleményelemzés |
| Pénzügy | Hitelképesség becslése |
| Marketing | Vásárlási hajlandóság előrejelzése |
| Gyártás | Minőségellenőrzés osztályozása (jó/rossz) |
🧾 Összefoglalás
| Tulajdonság | Leírás |
|---|---|
| Definíció | Adatok besorolása előre meghatározott osztályokba statisztikai eszközökkel |
| Típusok | Bináris, többosztályos, probabilisztikus |
| Algoritmusok | Naive Bayes, logisztikus regresszió, LDA, QDA, k-NN |
| Alkalmazás | Orvosi diagnózis, biztonság, pénzügy, NLP |
| Előny | Egyszerű, gyors, jól értelmezhető |
| Hátrány | Feltételezések torzíthatják az eredményt, nem komplex mintázatokra való |
- statistical classification - Szótár.net (en-hu)
- statistical classification - Sztaki (en-hu)
- statistical classification - Merriam–Webster
- statistical classification - Cambridge
- statistical classification - WordNet
- statistical classification - Яндекс (en-ru)
- statistical classification - Google (en-hu)
- statistical classification - Wikidata
- statistical classification - Wikipédia (angol)