Ugrás a tartalomhoz

canonical correlation analysis

A Wikiszótárból, a nyitott szótárból
(canonical correlation szócikkből átirányítva)


Főnév

canonical correlation analysis (tsz. canonical correlation analysises)

  1. (informatika) Canonical Correlation Analysis (CCA) (magyarul: kanonikus korrelációelemzés) egy statisztikai módszer, amelyet arra használnak, hogy két többváltozós változósorozat közötti kapcsolatot feltárják. Olyan általánosítás, amely a korreláció fogalmát kiterjeszti több dimenzióra.



🎯 Alapötlet

Ha két vektorváltozót (pl. két kérdőív, vagy két fajta mérés) veszünk:

A CCA célja:

Olyan lineáris transzformációkat találni, amelyek révén a és lineáris kombinációinak korrelációja maximális lesz.


📐 Formális definíció

Keressük a és vektorokat úgy, hogy a következő korreláció maximális legyen:

  • : első kanonikus variáns X oldalán
  • : első kanonikus variáns Y oldalán

A cél: megtalálni a legnagyobb -t.

Ezután a második, harmadik, … kanonikus variánsokat is kiszámítjuk, ortogonalitási feltételekkel.



📊 Milyen problémákra használható?

  • Két többváltozós mérés összehasonlítása (pl. vérnyomás, pulzus vs. életmódváltozók)
  • Pszichológia: kérdőívek közti struktúraazonosság
  • Genomika: génexpressziós minták és fenotípusos adatok kapcsolata
  • Képfeldolgozás: két képsorozat hasonlósága



🧪 Példa

Tegyük fel, hogy van:

  • [iskolai jegyek, IQ, nyelvi teszt]
  • [kommunikációs készség, érvelési teszt, kreativitás]

A CCA segít megtalálni, hogyan kombinálhatók az és változók lineárisan úgy, hogy legjobban magyarázzák egymást.



⚙️ Lépések

  1. Kiszámítjuk a kovariancia-mátrixokat:
    • , ,
  2. Megoldjuk a generalizált sajátértékproblémát:
    • A megoldás az eigenvalue–eigenvector párok → ezek adják a kanonikus korrelációkat
  3. A sajátértékek négyzetgyökei → kanonikus korrelációk
  4. A sajátvektorok → lineáris kombinációk (projekciós irányok)



📈 Kimenet

  • Kanonikus korrelációs együtthatók: pl. 0.91, 0.62, 0.25
  • Kanonikus variánsok: új változók (X és Y oldalról), amelyek korrelálnak
  • Redundancia-analízis: mennyi információt magyaráz meg az egyik variáns a másik oldal adataiból



🧠 Különbség más módszerekkel

Módszer Mi a célja?
Korreláció Két skalárváltozó közötti kapcsolat
PCA Egy vektorsorozat dimenziócsökkentése
CCA Két vektorsorozat közti lineáris kapcsolat keresése
PLS (Partial Least Squares) Alternatíva CCA-ra, ha az adatok erősen korreláltak és kevés mintánk van



🧩 TL;DR

A Canonical Correlation Analysis olyan matematikai módszer, amely két többdimenziós változókészlet közötti lineáris kapcsolatokat tár fel. Lineáris kombinációkat keres, amelyek a lehető legjobban korrelálnak egymással – így a komplex, többváltozós kapcsolatok egyszerűsítve értelmezhetők.