principal component analysis
Megjelenés
(PCA szócikkből átirányítva)
Főnév
principal component analysis (tsz. principal component analysises)
Principal Component Analysis (PCA) – magyarul: főkomponens-analízis – egy statisztikai és gépi tanulási módszer, amelynek célja, hogy magas dimenziójú adatokat alacsonyabb dimenziós térben ábrázoljon úgy, hogy közben a lehető legtöbb információ (variancia) megmaradjon. Ez a technika gyakori adatredukciós eljárás, különösen nagy és összetett adathalmazok elemzésekor.
🎯 1. Mi a célja a PCA-nak?
A PCA célja:
- Dimenziócsökkentés: pl. 100 változóból 2 vagy 3 „főkomponens” kiválasztása
- Zaj kiszűrése: csak a legfontosabb változásokra koncentrál
- Vizualizáció: sokdimenziós adatok megjelenítése 2D/3D térben
- Korrigált bemenet: például gépi tanulási modellekhez
📐 2. Hogyan működik?
- Standardizálás: Az adatokat középérték köré transzformáljuk és normáljuk (z-score).
- Kovariancia mátrix számítása: feltérképezzük, hogy az egyes változók hogyan változnak együtt.
- Sajátértékek és sajátvektorok kiszámítása: ezek megadják a főkomponensek irányát és fontosságát.
- Főkomponensek kiválasztása: a legnagyobb sajátértékekhez tartozó vektorok adják a fő tengelyeket.
- Adatok transzformálása: a teljes adathalmazt leképezzük ezekre a tengelyekre.
📊 3. Mit jelent a „főkomponens”?
- Egy főkomponens egy új tengely az adatban, amely:
- Lineáris kombinációja az eredeti változóknak
- Úgy van kiválasztva, hogy a lehető legnagyobb varianciát fedje le
- Az első főkomponens (PC1) a legtöbb információt tartalmazza, a második (PC2) merőleges rá, és a második legtöbb varianciát hordozza, stb.
📦 4. PCA tulajdonságai
- Lineáris módszer: nem képes nemlineáris mintázatok feltárására
- Ortogonalitás: minden főkomponens egymásra merőleges (független)
- Rangsorolható komponensek: a sajátértékek nagysága alapján
🧠 5. Mikor használjuk a PCA-t?
- Túl sok bemeneti változó esetén (sokdimenziós adatok)
- Korreált változók esetén
- Modellek előfeldolgozására (pl. regresszió, klaszterezés előtt)
- Vizualizációs célokra (pl. klaszterek megjelenítése 2D-ben)
- Zajcsökkentésre: kis varianciájú dimenziók kiszűrése
🧪 6. Példa – egyszerű 2D PCA
Tegyük fel, van két változónk: X1 és X2, amelyek erősen együtt mozognak.
A PCA új változókra képezi át:
PC1≈X1 + X2→ fő irány, legnagyobb változásPC2≈X1 - X2→ kisebb változás, háttérzaj
Ezután az elemzést PC1 alapján végezhetjük → egyetlen dimenzióba sűrítve az információt.
⚠️ 7. Mire figyeljünk?
- A PCA érzékeny a skálázásra: mindig normalizálni kell a változókat
- Nehezen értelmezhető főkomponensek (nem mindig világos, mit jelent a PC1)
- Lineáris módszer, nem alkalmazható minden mintázatra
- Visszafejthetőség: az adatok PCA utáni visszaalakítása nem teljesen veszteségmentes, ha eldobunk komponenseket
🧰 8. Alkalmazási területek
- Képfeldolgozás (pl. arcfelismerés – eigenfaces)
- Bioinformatika (génexpresszió-elemzés)
- Pénzügyi adatelemzés (pl. portfóliók mozgásai)
- Marketing (fogyasztói szokások elemzése)
- Gépi tanulás előfeldolgozása
🧾 9. Összefoglalás
A Principal Component Analysis (PCA):
- Dimenziócsökkentő módszer, amely új, mesterséges tengelyek mentén ábrázolja az adatokat
- A cél: információtömörítés és zajszűrés
- Az első néhány főkomponens általában elegendő az adatok legnagyobb részének leírására
- Alkalmas vizualizálásra, előfeldolgozásra és adatfelfedezésre
- principal component analysis - Szótár.net (en-hu)
- principal component analysis - Sztaki (en-hu)
- principal component analysis - Merriam–Webster
- principal component analysis - Cambridge
- principal component analysis - WordNet
- principal component analysis - Яндекс (en-ru)
- principal component analysis - Google (en-hu)
- principal component analysis - Wikidata
- principal component analysis - Wikipédia (angol)