canonical correlation analysis
| part of a series on |
| machine learning and data mining |
|---|
Főnév
canonical correlation analysis (tsz. canonical correlation analysises)
- (informatika) Canonical Correlation Analysis (CCA) (magyarul: kanonikus korrelációelemzés) egy statisztikai módszer, amelyet arra használnak, hogy két többváltozós változósorozat közötti kapcsolatot feltárják. Olyan általánosítás, amely a korreláció fogalmát kiterjeszti több dimenzióra.
🎯 Alapötlet
Ha két vektorváltozót (pl. két kérdőív, vagy két fajta mérés) veszünk:
A CCA célja:
Olyan lineáris transzformációkat találni, amelyek révén a és lineáris kombinációinak korrelációja maximális lesz.
📐 Formális definíció
Keressük a és vektorokat úgy, hogy a következő korreláció maximális legyen:
- : első kanonikus variáns X oldalán
- : első kanonikus variáns Y oldalán
A cél: megtalálni a legnagyobb -t.
Ezután a második, harmadik, … kanonikus variánsokat is kiszámítjuk, ortogonalitási feltételekkel.
📊 Milyen problémákra használható?
- Két többváltozós mérés összehasonlítása (pl. vérnyomás, pulzus vs. életmódváltozók)
- Pszichológia: kérdőívek közti struktúraazonosság
- Genomika: génexpressziós minták és fenotípusos adatok kapcsolata
- Képfeldolgozás: két képsorozat hasonlósága
🧪 Példa
Tegyük fel, hogy van:
- [iskolai jegyek, IQ, nyelvi teszt]
- [kommunikációs készség, érvelési teszt, kreativitás]
A CCA segít megtalálni, hogyan kombinálhatók az és változók lineárisan úgy, hogy legjobban magyarázzák egymást.
⚙️ Lépések
- Kiszámítjuk a kovariancia-mátrixokat:
- , ,
- Megoldjuk a generalizált sajátértékproblémát:
- A megoldás az eigenvalue–eigenvector párok → ezek adják a kanonikus korrelációkat
- A sajátértékek négyzetgyökei → kanonikus korrelációk
- A sajátvektorok → lineáris kombinációk (projekciós irányok)
📈 Kimenet
- Kanonikus korrelációs együtthatók: pl. 0.91, 0.62, 0.25
- Kanonikus variánsok: új változók (X és Y oldalról), amelyek korrelálnak
- Redundancia-analízis: mennyi információt magyaráz meg az egyik variáns a másik oldal adataiból
🧠 Különbség más módszerekkel
| Módszer | Mi a célja? |
|---|---|
| Korreláció | Két skalárváltozó közötti kapcsolat |
| PCA | Egy vektorsorozat dimenziócsökkentése |
| CCA | Két vektorsorozat közti lineáris kapcsolat keresése |
| PLS (Partial Least Squares) | Alternatíva CCA-ra, ha az adatok erősen korreláltak és kevés mintánk van |
🧩 TL;DR
A Canonical Correlation Analysis olyan matematikai módszer, amely két többdimenziós változókészlet közötti lineáris kapcsolatokat tár fel. Lineáris kombinációkat keres, amelyek a lehető legjobban korrelálnak egymással – így a komplex, többváltozós kapcsolatok egyszerűsítve értelmezhetők.
- canonical correlation analysis - Szótár.net (en-hu)
- canonical correlation analysis - Sztaki (en-hu)
- canonical correlation analysis - Merriam–Webster
- canonical correlation analysis - Cambridge
- canonical correlation analysis - WordNet
- canonical correlation analysis - Яндекс (en-ru)
- canonical correlation analysis - Google (en-hu)
- canonical correlation analysis - Wikidata
- canonical correlation analysis - Wikipédia (angol)