Ugrás a tartalomhoz

principal component analysis

A Wikiszótárból, a nyitott szótárból
(PCA szócikkből átirányítva)


Főnév

principal component analysis (tsz. principal component analysises)

  1. (informatika) főkomponens-analízis

Principal Component Analysis (PCA) – magyarul: főkomponens-analízis – egy statisztikai és gépi tanulási módszer, amelynek célja, hogy magas dimenziójú adatokat alacsonyabb dimenziós térben ábrázoljon úgy, hogy közben a lehető legtöbb információ (variancia) megmaradjon. Ez a technika gyakori adatredukciós eljárás, különösen nagy és összetett adathalmazok elemzésekor.



🎯 1. Mi a célja a PCA-nak?

A PCA célja:

  • Dimenziócsökkentés: pl. 100 változóból 2 vagy 3 „főkomponens” kiválasztása
  • Zaj kiszűrése: csak a legfontosabb változásokra koncentrál
  • Vizualizáció: sokdimenziós adatok megjelenítése 2D/3D térben
  • Korrigált bemenet: például gépi tanulási modellekhez



📐 2. Hogyan működik?

  1. Standardizálás: Az adatokat középérték köré transzformáljuk és normáljuk (z-score).
  2. Kovariancia mátrix számítása: feltérképezzük, hogy az egyes változók hogyan változnak együtt.
  3. Sajátértékek és sajátvektorok kiszámítása: ezek megadják a főkomponensek irányát és fontosságát.
  4. Főkomponensek kiválasztása: a legnagyobb sajátértékekhez tartozó vektorok adják a fő tengelyeket.
  5. Adatok transzformálása: a teljes adathalmazt leképezzük ezekre a tengelyekre.



📊 3. Mit jelent a „főkomponens”?

  • Egy főkomponens egy új tengely az adatban, amely:
    • Lineáris kombinációja az eredeti változóknak
    • Úgy van kiválasztva, hogy a lehető legnagyobb varianciát fedje le
  • Az első főkomponens (PC1) a legtöbb információt tartalmazza, a második (PC2) merőleges rá, és a második legtöbb varianciát hordozza, stb.



📦 4. PCA tulajdonságai

  • Lineáris módszer: nem képes nemlineáris mintázatok feltárására
  • Ortogonalitás: minden főkomponens egymásra merőleges (független)
  • Rangsorolható komponensek: a sajátértékek nagysága alapján



🧠 5. Mikor használjuk a PCA-t?

  • Túl sok bemeneti változó esetén (sokdimenziós adatok)
  • Korreált változók esetén
  • Modellek előfeldolgozására (pl. regresszió, klaszterezés előtt)
  • Vizualizációs célokra (pl. klaszterek megjelenítése 2D-ben)
  • Zajcsökkentésre: kis varianciájú dimenziók kiszűrése



🧪 6. Példa – egyszerű 2D PCA

Tegyük fel, van két változónk: X1 és X2, amelyek erősen együtt mozognak.

A PCA új változókra képezi át:

  • PC1X1 + X2 → fő irány, legnagyobb változás
  • PC2X1 - X2 → kisebb változás, háttérzaj

Ezután az elemzést PC1 alapján végezhetjük → egyetlen dimenzióba sűrítve az információt.



⚠️ 7. Mire figyeljünk?

  • A PCA érzékeny a skálázásra: mindig normalizálni kell a változókat
  • Nehezen értelmezhető főkomponensek (nem mindig világos, mit jelent a PC1)
  • Lineáris módszer, nem alkalmazható minden mintázatra
  • Visszafejthetőség: az adatok PCA utáni visszaalakítása nem teljesen veszteségmentes, ha eldobunk komponenseket



🧰 8. Alkalmazási területek

  • Képfeldolgozás (pl. arcfelismerés – eigenfaces)
  • Bioinformatika (génexpresszió-elemzés)
  • Pénzügyi adatelemzés (pl. portfóliók mozgásai)
  • Marketing (fogyasztói szokások elemzése)
  • Gépi tanulás előfeldolgozása



🧾 9. Összefoglalás

A Principal Component Analysis (PCA):

  • Dimenziócsökkentő módszer, amely új, mesterséges tengelyek mentén ábrázolja az adatokat
  • A cél: információtömörítés és zajszűrés
  • Az első néhány főkomponens általában elegendő az adatok legnagyobb részének leírására
  • Alkalmas vizualizálásra, előfeldolgozásra és adatfelfedezésre