anomaly detection
Megjelenés
| part of a series on |
| machine learning and data mining |
|---|
Főnév
anomaly detection (tsz. anomaly detections)
- (informatika) Az anomaly detection (magyarul: anomáliadetektálás vagy rendellenesség-felismerés) a gépi tanulás és adatelemzés egyik területe, amelynek célja, hogy felismerje azokat az adatpontokat, amelyek lényegesen eltérnek a normál viselkedéstől.
Ezek az eltérések lehetnek:
- hibás működés (pl. géphiba),
- csalás (pl. bankkártyás visszaélés),
- szokatlan viselkedés (pl. behatolás a rendszerbe),
- vagy egyszerűen szokatlan minták, amelyeket érdemes megvizsgálni.
🧩 Példák a valós életből
| Terület | Anomália példája |
|---|---|
| Banki szektor | Gyanús tranzakciók (nagy összeg, szokatlan időpont) |
| Kiberbiztonság | Ismeretlen IP-címről való bejelentkezés |
| Gyártás | Hibás szenzoradat, gép meghibásodása |
| Egészségügy | Szokatlan EKG-mintázat |
| Logisztika | Nem szokványos szállítási idő, útvonal |
🎯 A cél
- Rendellenes viselkedések automatikus azonosítása
- Korai figyelmeztetés biztosítása
- Csalás, hiba, támadás megelőzése
- Tisztább adathalmaz létrehozása az elemzésekhez
🧪 Fő típusai
| Típus | Leírás |
|---|---|
| Point anomaly | Egyetlen adatpont tér el (pl. extrém nagy érték) |
| Contextual anomaly | Egy adatpont normális lehet, de nem adott környezetben (pl. 3 AM-es vásárlás) |
| Collective anomaly | Több adat együtt szokatlan (pl. egy sor hibás szenzormérés) |
⚙️ Módszertani megközelítések
1. Statikus módszerek
- Átlag + szórás alapján: ha egy adat 3σ-nál nagyobb távolságra van → anomália
- Eloszlásmodellek (pl. Gauss-eloszlás, z-score)
2. Felosztás-alapú (supervised)
- Ha vannak címkézve rendellenes és normál példák → osztályozó (SVM, döntési fa, neurális hálózat)
- Ritkán használható, mert kevés anomália van címkézve
3. Felkügyelet nélküli (unsupervised)
- Feltételezzük, hogy a nagy többség normális, a ritka minták → rendellenesek
- Példák: K-means, DBSCAN, PCA, autoencoderek
4. Rekonstrukció-alapú
- Pl. Autoencoder: megtanulja a normál adatot, majd összehasonlítjuk a bemenetet és az újraépített kimenetet
- Ha nagy a hiba → valószínűleg anomália
5. Sűrűség-alapú
- Pl. Local Outlier Factor (LOF): megvizsgálja, mennyire „sűrű” a környezet
- Ritka környezetben levő pont → gyanús
🧮 Egyszerű statisztikai példa
Tegyük fel, hogy a normál hőmérséklet 20 °C, szórása 1 °C.
Ha egy szenzor 25 °C-ot mér, az kb. 5 standard deviációnyira van → anomália.
📦 Népszerű algoritmusok
| Algoritmus | Rövid leírás |
|---|---|
| Isolation Forest | Rekurzívan szeparálja a pontokat – anomáliák gyorsan „elszigetelődnek” |
| One-Class SVM | Olyan döntési határt keres, amely elválasztja az adatokat a „semmitől” |
| Autoencoder | Neurális háló, amely megtanulja újraépíteni az adatokat |
| LOF (Local Outlier Factor) | Lokális sűrűség-alapú módszer |
| DBSCAN | Sűrűség-alapú klaszterezés – a nem besorolható pontokat anomáliának tekinti |
🛠️ Példa Pythonban: Isolation Forest
from sklearn.ensemble import IsolationForest
import numpy as np
X = np.random.normal(0, 1, (100, 2)) # normál adat
X = np.vstack([X, [[5, 5], [-4, -4]]]) # két anomália hozzáadása
model = IsolationForest(contamination=0.05)
model.fit(X)
labels = model.predict(X) # -1 = anomália, 1 = normál
📈 Értékelés: hogyan tudjuk, hogy jó?
| Metrika | Jelentés |
|---|---|
| Precision | Az észlelt anomáliák közül hány volt valóban az |
| Recall | A tényleges anomáliák hány százalékát találtuk meg |
| F1-score | A kettő harmonikus átlaga |
| ROC-AUC | Klasszifikáló teljesítmény összesítve |
| Reconstruction Error | Autoencoder esetén hibamérés |
✅ Előnyök
- 🕵️♀️ Csalás, támadás, hiba előrejelzése
- 📉 Nincs szükség sok címkézett adatra (unsupervised módszerekkel)
- 🔍 Ritka és értékes minták megtalálása
- 🤖 Automatizálható monitorozás, karbantartás
⚠️ Hátrányok
- ⚖️ Erősen kiegyensúlyozatlan adatok → nehéz tanítás
- 🧠 Túl sok anomália → az algoritmus nem tanul jól
- 🎯 Nehezen definiálható, mi az anomália – szubjektív lehet
- ⏱️ Nagy adathalmaznál lassú lehet (pl. sűrűség-alapú módszerek)
🧾 Összefoglalás
| Tulajdonság | Részletek |
|---|---|
| Definíció | Ritka vagy szokatlan viselkedések automatikus észlelése |
| Típusok | Pontszerű, kontextusfüggő, kollektív |
| Fő megközelítések | Statisztikai, gépi tanulás, rekonstrukció-alapú, sűrűség-alapú |
| Alkalmazás | Csalásdetektálás, szenzorhiba, kiberbiztonság |
| Előny | Felügyelet nélküli tanulás is lehetséges |
| Kihívás | Kevés anomália, sok zaj, nehéz validáció |
- anomaly detection - Szótár.net (en-hu)
- anomaly detection - Sztaki (en-hu)
- anomaly detection - Merriam–Webster
- anomaly detection - Cambridge
- anomaly detection - WordNet
- anomaly detection - Яндекс (en-ru)
- anomaly detection - Google (en-hu)
- anomaly detection - Wikidata
- anomaly detection - Wikipédia (angol)