Biologie	Chimie	Didactica	Fizica	Geografie	Informatica
	Istorie	Literatura	Matematica	Psihologie

Statistica

Index » educatie » » matematica » Statistica
» Regresia liniara

Regresia liniara

Am vazut in Modulul 4 cum indicatorul de corelatie ne indica asocierea intre doua caracteristici (variabile) cantitative prin folosirea coeficientului de corelatie Pearson. Practic, acest indicator poate fi folosit pentru a prezice o variabila in functie de alta. Modulul de fata se va concentra pe relatia dintre doua sau mai multe variabile cantitative, modul in care aceste predictii sunt facute si ce putem afla despre relatia dintre doua variabile dezvoltand o ecuatie de predictie. Termenul de predictie este sinonim cu cel de regresie in problematica de fata iar prima asumptie pe care o vom face este ca relatia dintre cele doua variabile este liniara, adica ne vom concentra asupra cele mai simple regresii (predictii): cea liniara. Modelele mai complexe de relatie intre variabile pornesc de la aceasta metoda, dar ele nu vor fi aprofundate aici.

Pentru ca relatia intre variabile este liniara problema predictiei devine una de a descoperi curba grafica (in cazul nostru dreapta) care va aproxima cel mai bine relatia dintre variabilele noastre. Aceasta dreapta poarta numele de "dreapta de regresie". Avand doua variabile, X si Y prin analiza de regresie liniara vom incerca sa descoperim in ce mod putem prezice variabila Y (variabila dependenta) in functie de variabila X (variabila dependenta). Normal, prin dreapta de regresie noi vom estima pe Y printr-un Y' pentru ca este putin probabil ca dreapta de regresie sa treaca prin toate punctele, astfel ca aceasta va trebui sa treaca cat mai aproape de punctele noastre. Formula acestei drepte de regresie este:

Y' = a + b*X

1 Regresia liniara simpla

Pentru a intelege cum functioneaza regresia, vom lua un exemplu simplu: pentru 10 indivizi statistici avem doua variabile, X si Y. Vom numi Y variabila dependenta, ceea pe care o vom "prezice" in functie de variabila X, independenta (tabel 1).

Primul pas pe care il vom face va fi sa reprezentam grafic situatia noastra folosindu-ne de un grafic de imprastiere. Vom porni de la un grafic pe doua coordonate in care - intotdeauna - pe axa verticala vom trece variabila dependenta, iar pe axa orizontala variabila independenta. Programul SPPS realizeaza acest grafic foarte usor cu optiunea Scatterplot (Graph - Scatter - Simple), unde vom aseza variabilele pentru axa Y (dependenta) si axa X (independenta). Observam din grafic ca situatia noastra este una fericita: norul de puncte creat se aseaza sub forma unei drepte. Daca in Output editam graficul (dublu-click) si alegem de la meniu Chart - Add chart element - Fit line at total vom obtine si dreapta de regresie (vezi grafic 1).

	X	Y
	1









Media

Tabel 1

Grafic 1

Problema pe care trebuie sa o rezolvam in continuare este de a determina coeficientii dreptei de regresie. Primul coeficient, a ne arata unde va intersecta dreapta de regresie axa X si este mai putin important pentru interpretarea datelor. Coeficientul b reprezinta panta dreptei de regresie si ne arata cu cate unitati creste in medie Y atunci cand il vom creste pe X cu o unitate. Ceea ce este important in calcularea acestor coeficienti este ca se face apel la marimi statistice obisnuite: medii (Media_Xsi Media_Y), abateri standard (σ_X, σ_Y) si la coeficientul de corelatie (r). Valorile pentru aceste marimi sunt oferite in tabel:

Media_X	Media_Y	σ_X	σ_Y	r

Tabel 2

Formula coeficientului a este:

a = Media_X - b* Media_Y

iar a coeficientului b:

b = r * (σ_X / σ_Y)

Astfel putem sa aflam coeficientii a si b iar apoi vom putea sa scriem formula dreptei de regresie:

Y' = 0,713 + 0,3212*X

2 Calitatea estimarii

Este evident ca dreapta obtinuta de catre noi (Y') nu face altceva decat sa aproximeze valorile reale ale lui Y. Distanta intre Y real si cel estimat Y' prin dreapta de regresie constituie eroarea predictiei noastre pentru fiecare caz in parte:

Y_i-Y_i' = Eroarea data de dreapta de regresie pentru individul i

Calitatea estimarii, sau eroarea standard a estimarii (pe care o vom nota cu Es) se refera la calitatea estimarii pentru intreaga populatie si nu doar pentru un singur caz, astfel ca vom folosi o formula asemanatoare abaterii standard (pentru ca intotdeauna Σ (Y_i-Y_i') = 0):

Es = ,

In tabelul 2 am calculat Es (ultima coloana) pentru exemplul nostru: Es = 0,2. O formula alternativa se poate oferi in functie de abaterea standard a populatiei Y (σ_Y) si coeficientul de corelatie r dintre populatia X si Y:

Es = σ_Y

Eroarea estimarii (Es) poate fi interpretata ca un indicator al dispersiei punctelor in jurul dreptei de regresie: abaterea medie (patratica) a valorilor reale Y de la valorile prezise Y'. El este egal cu 0 atunci cand estimarea noastra este perfecta (adica Y_i = Y_i').

Una din proprietatile regresiei este ca putem divide variatia lui Y ( _Ycalculata in tabelul 2 in coloana 5) in doua componente: variatia scorurilor prezise Y' ( _Y'in tabelul 2, coloana 8) in jurul mediei Y si variatia erorii predictiei (Es²), calculata mai sus. Formula variatiei lui Y este clara:

_Y,

iar pentru variatia scorurilor prezise vom avea:

_Y' = r²σ_y²

X	Y'	Y	Y-Media_y	(Y-Media_y)²	Y'	Y'-Mediay	(Y'-Media_y)²	Y-Y'	(Y-Y')²











N= 10
		Σ/N		σ_Y² = 0,89			σ_Y'²=0,85		Es²=0,04

Tabel 2

Observam ca avem de-a face cu o problema similara teoremei de descompunere a variantei: varianta variabilei dependente este egala cu suma dintre varianta punctelor in jurul dreptei de regresie si varianta punctelor de pe dreapta de regresie in jurul mediei. Formula dupa care vom scrie afirmatia de mai sus este:

σ_Y r²σ_y²+ (Es)²

Prima varianta din formula (varianta variabilei dependente) reprezinta varianta care trebuie explicata.

Variatia scorurilor prezise divizata cu varianta variabilei dependente reprezinta varianta explicata, adica partea din varianta variabilei dependente ce a fost explicata.

Eroarea estimarii Es²divizata cu varianta variabilei dependente reprezinta nedeterminarea fata de dreapta de regresie, este varianta care nu a fost explicata de dreapta de regresie, pentru care trebuie sa facem apel la alte variabile explicative.

Este important sa subliniem aici ca daca efectuam cateva operatii matematice observam ca partea din varianta care a fost explicata, coeficientul de determinatie este egal cu r²iar coeficientul de nedeterminatie este egal cu 1 - r²:

coeficientul de determinatie = r²

coeficientul de nedeterminatie = 1 - r²

Pentru exemplul nostru r = 0,977088 iar r²= 0,954702 astfel ca partea determinata din varianta variabilei dependente este de 95% iar varianta neexplicata este de doar 5%.

3. Un exemplu de regresie liniara simpla in PACHETUL STATISTIC PENTRU STIINTELE SOCIALE

Vom exemplifica regresia liniara simpla cu ajutorul unu fisier de date in care avem ca si variabile media notelor din liceu (high_GPA) si din facultate (univ-GPA - unde GPA Grade Point Average) a 105 studenti americani. Vom considera variabila dependenta univ-GPA, media notelor din facultate si vom incerca sa vedem ce procent din varianta acestei variabile este explicat de catre mediile din liceu.

Primul pas pe care il vom face va fi sa reprezentam grafic situatia noastra (Graph - Scatter - Simple), iar apoi sa editam graficul si sa atasam dreapta de regresie. Observam pozitionarea norului de puncte si ca exista totusi o forma alungita a norului de puncte ce sugereaza o dreapta de regresie, insa nu asa de clara ca in exemplul precedent (vezi grafic 2).

In PACHETUL STATISTIC PENTRU STIINTELE SOCIALE vom alege analiza: Analyze - Regression - Linear, vom aseza variabila univ_gpa ca si variabila dependenta si high_gpa ca si variabila independenta. In casuta de dialog Statistics sunt selectate doua optiuni standard: Estimates (ce va calcula coeficientii de regresie si alte masuri asociate) si Model Fit (va afisa r, r², r²ajustat etc. precum si un tabel ANOVA). Putem bifa optiunea Descriptives pentru a avea afisate mediile si abaterile standard ale celor doua variabile.

Grafic 2

Dupa selectarea optiunilor dorite, vom da click pe Ok. In Output vom vedea afisate mai multe tabele:

Descriptive Statistics

	Mean	Std. Deviation	N
univ_gp
high_gpa

Tabel 3

Correlations

		univ_gp	high_gpa
Pearson Correlation	univ_gp
Pearson Correlation	high_gpa
Sig. (1-tailed)	univ_gp
Sig. (1-tailed)	high_gpa
N	univ_gp
N	high_gpa

Tabel 4

Model Summary

Model	R	R Square	Adjusted R Square	Std. Error of the Estimate
	,780(a)

Tabel 5 a Predictors: (Constant), high_gpa

Coefficients(a)

Model		Unstandardized Coefficients		Standardized Coefficients	t	Sig.
		B	Std. Error	Beta
	(Constant)
	high_gpa

Tabel 6 a Dependent Variable: univ_gp

Tabelul 3 ne indica masurile statistice de baza ale celor doua variabile pe care le avem in model iar tabelul 4 ne arata valoarea coeficientului de corelatie Pearson. Tabelul 5 ne ofera un sumar al modelului: r²este 0,608, eroarea estimarii (Es) este 0,28144, de unde tragem concluzia ca varianta notelor din liceu explica 60% din varianta notelor din universitate si ca raman de explicat aproximativ 40% din varianta variabilei dependente. Daca ne vom uita la graficul 2 vom observa ca varianta in jurul dreptei de regresie nu este aceeasi pentru toate valorile lui X, astfel ca dreapta de regresie are o predictie foarte buna pentru valori mari ale notelor si o predictie modica pentru notele mici din liceu.

Tabelul 6 ne indica coeficientii de regresie: b este panta regresiei, in cazul nostru 0,675. Interpretarea ei se face in felul urmator: pentru fiecare crestere cu o unitate a mediilor din liceu, avem o crestere cu 0,675 a mediilor din facultate.

Testul t este extrem de important in interpretarea regresiei pentru ca acesta evalueaza semnificatia coeficientilor individuali b, prin testarea ipotezei nule. Ipoteza nula testata este: coeficientul de regresie este egal cu 0. In cazul de fata testul t este semnificativ pentru 0,0000 vom putea respinge ipoteza nula.

4 Intrebari pentru studiu

Care este ecuatia dreptei de regresie? La ce se refera fiecare termen al ecuatiei?

Daca o ecuatie de regresie este Y' = 3X + 5 care va fi scorul prezis pentru un scor X=8?

Ce criterii se folosesc pentru a determina care este cea mai buna dreapta ce aproximeaza cel mai bine variabila dependenta?

Ce masoara eroarea standard a estimarii (Es)?

In ce mod marimea coeficientului de corelatie Pearson este legat de eroarea standard a estimarii (Es)?

Care sunt "estimarile" la care se refera eroarea standard a estimarii (Es)?

In ce mod abaterea standard este legata de eroarea standard a estimarii (Es)?

Daca intr-o analiza de regresie aflam ca suma patratelor scorurilor prezise este 80 iar suma patratelor erorii este 40, care este r²?

Care este ecuatia de regresie daca media lui X este 20, media lui Y 50 iar corelatia intre X si Y este 0?

5 Tema pentru acasa

Deschideti in PACHETUL STATISTIC PENTRU STIINTELE SOCIALE fisierul "cars.sav". Analizati prin mai multe regresii liniare simple care din caracteristicile unei masini (caii putere, greutatea masinii sau capacitatea cilindrica) reusesc sa explice mai bine timpul in care o masina accelereaza pana la 60 de mile pe ora. Explicati apoi efectul fiecarui factor dintre cei trei, comentand indicatorii studiati in acest capitol.

Bibliografie

Liebetrau, Albert M (1983) Measures of association, in Series: Quantitative Applications in the Social Sciences, SAGE University Papers.

Berry, W.D., Feldman S. (1985) Multiple regression in practice, in Series: Quantitative Applications in the Social Sciences, SAGE University Papers.

Kleinbaum, DG, Kupper LL, Muller KE. (1988) Applied Regression Analysis and Other Multivariable Methods, 2nd edition. Chapter 4: 'Introduction to Regression Analysis' si "Chapter 5: Straight Line Regression Analysis" PWS-Kent Publishing Company, Boston.

Rotariu, Traian, Badescu Gabriel, Culic, Irina, Mezei, Elemer si Muresan, Cornelia (1999) Metode statistice aplicate in stiintele sociale, Iasi: Polirom.

Online:

Politica de confidentialitate

Statistica