lineáris regresszió

Magyar

Kiejtés

IPA: [ ˈlinɛaːriʃrɛɡrɛsːijoː]

Főnév

(matematika)

A statisztika eszköztárában a lineáris regresszió egy olyan paraméteres regressziós modell, mely feltételezi a magyarázó- (X) és a magyarázott (y) változó közti (paramétereiben) lineáris kapcsolatot. Ez azt jelenti, hogy lineáris regresszió becslése során a mintavételi adatok pontfelhőjére igyekszünk egyenest^[1] illeszteni.

A lineáris kapcsolat a következőképpen fejezhető ki:

y=\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+\cdots +\beta _{k}x_{k}+u=X\beta +u,

ahol $y,u\in \mathbb {R} ^{n\times 1}$ , $\beta \in \mathbb {R} ^{(1+k)\times 1}$ vektorok, $X\in \mathbb {R} ^{n\times (1+k)}$ mátrix, $x_{k}\in \mathbb {R} ^{n\times 1}$ vektor minden $k=1,\ldots ,k$ -ra, $1+k$ a magyarázóváltozók száma (konstanssal együtt), $n$ a mintanagyság.

A lineáris regresszió becslése során a $\beta$ paramétervektort becsüljük a rendelkezésre álló mintából úgy, hogy az pl. az átlagos négyzetes hibát minimalizálja. A legegyszerűbb, és legáltalánosabb becslési módszer a legkisebb négyzetek módszere, azonban ez utóbbi nem tévesztendő össze a lineáris regresszió fogalmával, mivel lineáris regressziós egyenest más becslési módszerekkel is becsülhetjük, és a legkisebb négyzetek módszere nem csak lineáris regressziós modellek becslésére alkalmas.

A lineáris regressziós elemzést és becslést mindig elvégezhetjük, azonban az eredmények értelmezése a valós populációs összefüggésekre tett különböző feltételezések megtételéhez kötött.

A becsült lineáris regressziós egyenes többféleképpen értelmezhető:

Értelmezhető deskriptív módon úgy, hogy ez az a lineáris függvény, ami a legjobban illeszkedik az adott ponthalmazra. Amennyiben az egyenest valóban illeszteni tudjuk, erre az értelmezésre mindig lehetőségünk van egyéb feltételezésektől függetlenül.
Az előző ponthoz kapcsolódóan lehetőségünk van arra, hogy megbecsüljük, vagy előrejelezzük a magyarázott változó olyan értékét, amelyhez a mintában nem tartozik magyarázó változó érték. Ebben az esetben a lineáris regressziós egyenes adja a magyarázott változó legjobb lineáris közelítését a magyarázó változó adott értéke mellett.
Értelmezhetjük úgy, hogy a regressziós egyenes egy átfogó képet ad arról, hogy y várhatóan hogyan változik X változásának hatására. Ez esetben a következőt mondhatjuk a lineáris regressziós becslés és a feltételes átlagfüggvény $E[y|X=X_{0}]=m(X_{0},\beta )$ $E[y|X=X_{0}]=m(X_{0},\beta )$ kapcsolatáról:
- Amennyiben a feltételes átlagfüggvény, $m(X,\beta )$ lineáris β-ban, akkor a becsült lineáris regressziós függvény egybeesik azzal, tehát az eredmények várható érték alapú értelmezése korrekt.
- Amennyiben a feltételes átlagfüggvény nemlineáris, a becsült lineáris regressziós függvény a legjobb lineáris közelítése annak. Ez esetben ugyan a várható érték alapú értelmezés nem teljes mértékben korrekt, mégis hasznos, értelmezhető információval szolgálhatunk a becslés eredményeit vizsgálva és körültekintően értelmezve.

A magyarázóváltozók száma alapján megkülönböztetünk egyszerű vagy többszörös lineáris regressziót, az adatok X mátrixa pedig lehet véletlen vagy rögzített.

Fordítások

angol: linear regression (en)

↑ Általános, többváltozós esetben hipersíkot.

[1] Általános, többváltozós esetben hipersíkot.

[1]