Biologie | Chimie | Didactica | Fizica | Geografie | Informatica | |
Istorie | Literatura | Matematica | Psihologie |
Am vazut in Modulul 4 cum indicatorul de corelatie ne indica asocierea intre doua caracteristici (variabile) cantitative prin folosirea coeficientului de corelatie Pearson. Practic, acest indicator poate fi folosit pentru a prezice o variabila in functie de alta. Modulul de fata se va concentra pe relatia dintre doua sau mai multe variabile cantitative, modul in care aceste predictii sunt facute si ce putem afla despre relatia dintre doua variabile dezvoltand o ecuatie de predictie. Termenul de predictie este sinonim cu cel de regresie in problematica de fata iar prima asumptie pe care o vom face este ca relatia dintre cele doua variabile este liniara, adica ne vom concentra asupra cele mai simple regresii (predictii): cea liniara. Modelele mai complexe de relatie intre variabile pornesc de la aceasta metoda, dar ele nu vor fi aprofundate aici.
Pentru ca relatia intre variabile este liniara problema predictiei devine una de a descoperi curba grafica (in cazul nostru dreapta) care va aproxima cel mai bine relatia dintre variabilele noastre. Aceasta dreapta poarta numele de "dreapta de regresie". Avand doua variabile, X si Y prin analiza de regresie liniara vom incerca sa descoperim in ce mod putem prezice variabila Y (variabila dependenta) in functie de variabila X (variabila dependenta). Normal, prin dreapta de regresie noi vom estima pe Y printr-un Y' pentru ca este putin probabil ca dreapta de regresie sa treaca prin toate punctele, astfel ca aceasta va trebui sa treaca cat mai aproape de punctele noastre. Formula acestei drepte de regresie este:
Y' = a + b*X
Pentru a intelege cum functioneaza regresia, vom lua un exemplu simplu: pentru 10 indivizi statistici avem doua variabile, X si Y. Vom numi Y variabila dependenta, ceea pe care o vom "prezice" in functie de variabila X, independenta (tabel 1).
Primul pas pe care il vom face va fi sa reprezentam grafic situatia noastra folosindu-ne de un grafic de imprastiere. Vom porni de la un grafic pe doua coordonate in care - intotdeauna - pe axa verticala vom trece variabila dependenta, iar pe axa orizontala variabila independenta. Programul SPPS realizeaza acest grafic foarte usor cu optiunea Scatterplot (Graph - Scatter - Simple), unde vom aseza variabilele pentru axa Y (dependenta) si axa X (independenta). Observam din grafic ca situatia noastra este una fericita: norul de puncte creat se aseaza sub forma unei drepte. Daca in Output editam graficul (dublu-click) si alegem de la meniu Chart - Add chart element - Fit line at total vom obtine si dreapta de regresie (vezi grafic 1).
X |
Y |
|
1 | ||
Media |
Tabel 1
Grafic 1
Problema pe care trebuie sa o rezolvam in continuare este de a determina coeficientii dreptei de regresie. Primul coeficient, a ne arata unde va intersecta dreapta de regresie axa X si este mai putin important pentru interpretarea datelor. Coeficientul b reprezinta panta dreptei de regresie si ne arata cu cate unitati creste in medie Y atunci cand il vom creste pe X cu o unitate. Ceea ce este important in calcularea acestor coeficienti este ca se face apel la marimi statistice obisnuite: medii (MediaX si MediaY ), abateri standard (σX, σY) si la coeficientul de corelatie (r). Valorile pentru aceste marimi sunt oferite in tabel:
MediaX |
MediaY |
σX |
σY |
r |
Tabel 2
Formula coeficientului a este:
a = MediaX - b* MediaY
iar a coeficientului b:
b = r * (σX / σY)
Astfel putem sa aflam coeficientii a si b iar apoi vom putea sa scriem formula dreptei de regresie:
Y' = 0,713 + 0,3212*X
Este evident ca dreapta obtinuta de catre noi (Y') nu face altceva decat sa aproximeze valorile reale ale lui Y. Distanta intre Y real si cel estimat Y' prin dreapta de regresie constituie eroarea predictiei noastre pentru fiecare caz in parte:
Yi-Yi' = Eroarea data de dreapta de regresie pentru individul i
Calitatea estimarii, sau eroarea standard a estimarii (pe care o vom nota cu Es) se refera la calitatea estimarii pentru intreaga populatie si nu doar pentru un singur caz, astfel ca vom folosi o formula asemanatoare abaterii standard (pentru ca intotdeauna Σ (Yi-Yi') = 0):
Es = ,
In tabelul 2 am calculat Es (ultima coloana) pentru exemplul nostru: Es = 0,2. O formula alternativa se poate oferi in functie de abaterea standard a populatiei Y (σY) si coeficientul de corelatie r dintre populatia X si Y:
Es = σY
Eroarea estimarii (Es) poate fi interpretata ca un indicator al dispersiei punctelor in jurul dreptei de regresie: abaterea medie (patratica) a valorilor reale Y de la valorile prezise Y'. El este egal cu 0 atunci cand estimarea noastra este perfecta (adica Yi = Yi').
Una din proprietatile regresiei este ca putem divide variatia lui Y ( Y calculata in tabelul 2 in coloana 5) in doua componente: variatia scorurilor prezise Y' ( Y' in tabelul 2, coloana 8) in jurul mediei Y si variatia erorii predictiei (Es2), calculata mai sus. Formula variatiei lui Y este clara:
Y ,
iar pentru variatia scorurilor prezise vom avea:
Y' = r2σy2
X |
Y' |
Y |
Y-Mediay |
(Y-Mediay)2 |
Y' |
Y'-Mediay |
(Y'-Mediay)2 |
Y-Y' |
(Y-Y')2 |
| |||||||||
N= 10 |
|||||||||
Σ/N |
σY2 = 0,89 |
σY'2=0,85 |
Es2=0,04 |
Tabel 2
Observam ca avem de-a face cu o problema similara teoremei de descompunere a variantei: varianta variabilei dependente este egala cu suma dintre varianta punctelor in jurul dreptei de regresie si varianta punctelor de pe dreapta de regresie in jurul mediei. Formula dupa care vom scrie afirmatia de mai sus este:
σY r2σy2 + (Es)2
Prima varianta din formula (varianta variabilei dependente) reprezinta varianta care trebuie explicata.
Variatia scorurilor prezise divizata cu varianta variabilei dependente reprezinta varianta explicata, adica partea din varianta variabilei dependente ce a fost explicata.
Eroarea estimarii Es2 divizata cu varianta variabilei dependente reprezinta nedeterminarea fata de dreapta de regresie, este varianta care nu a fost explicata de dreapta de regresie, pentru care trebuie sa facem apel la alte variabile explicative.
Este important sa subliniem aici ca daca efectuam cateva operatii matematice observam ca partea din varianta care a fost explicata, coeficientul de determinatie este egal cu r2 iar coeficientul de nedeterminatie este egal cu 1 - r2 :
coeficientul de determinatie = r2
coeficientul de nedeterminatie = 1 - r2
Pentru exemplul nostru r = 0,977088 iar r2 = 0,954702 astfel ca partea determinata din varianta variabilei dependente este de 95% iar varianta neexplicata este de doar 5%.
Vom exemplifica regresia liniara simpla cu ajutorul unu fisier de date in care avem ca si variabile media notelor din liceu (high_GPA) si din facultate (univ-GPA - unde GPA Grade Point Average) a 105 studenti americani. Vom considera variabila dependenta univ-GPA, media notelor din facultate si vom incerca sa vedem ce procent din varianta acestei variabile este explicat de catre mediile din liceu.
Primul pas pe care il vom face va fi sa reprezentam grafic situatia noastra (Graph - Scatter - Simple), iar apoi sa editam graficul si sa atasam dreapta de regresie. Observam pozitionarea norului de puncte si ca exista totusi o forma alungita a norului de puncte ce sugereaza o dreapta de regresie, insa nu asa de clara ca in exemplul precedent (vezi grafic 2).
In PACHETUL STATISTIC PENTRU STIINTELE SOCIALE vom alege analiza: Analyze - Regression - Linear, vom aseza variabila univ_gpa ca si variabila dependenta si high_gpa ca si variabila independenta. In casuta de dialog Statistics sunt selectate doua optiuni standard: Estimates (ce va calcula coeficientii de regresie si alte masuri asociate) si Model Fit (va afisa r, r2 , r2 ajustat etc. precum si un tabel ANOVA). Putem bifa optiunea Descriptives pentru a avea afisate mediile si abaterile standard ale celor doua variabile.
Grafic 2
Dupa selectarea optiunilor dorite, vom da click pe Ok. In Output vom vedea afisate mai multe tabele:
Descriptive Statistics
Mean |
Std. Deviation |
N |
|
univ_gp | |||
high_gpa |
|
Tabel 3
Correlations
univ_gp |
high_gpa |
||
Pearson Correlation |
univ_gp | ||
high_gpa | |||
Sig. (1-tailed) |
univ_gp | ||
high_gpa | |||
N |
univ_gp | ||
high_gpa |
Tabel 4
Model Summary
Model |
R |
R Square |
Adjusted R Square |
Std. Error of the Estimate |
,780(a) |
Tabel 5 a Predictors: (Constant), high_gpa
Coefficients(a)
Model |
Unstandardized Coefficients |
Standardized Coefficients |
t |
Sig. |
||
B |
Std. Error |
Beta | ||||
(Constant) | ||||||
high_gpa |
Tabel 6 a Dependent Variable: univ_gp
Tabelul 3 ne indica masurile statistice de baza ale celor doua variabile pe care le avem in model iar tabelul 4 ne arata valoarea coeficientului de corelatie Pearson. Tabelul 5 ne ofera un sumar al modelului: r2 este 0,608, eroarea estimarii (Es) este 0,28144, de unde tragem concluzia ca varianta notelor din liceu explica 60% din varianta notelor din universitate si ca raman de explicat aproximativ 40% din varianta variabilei dependente. Daca ne vom uita la graficul 2 vom observa ca varianta in jurul dreptei de regresie nu este aceeasi pentru toate valorile lui X, astfel ca dreapta de regresie are o predictie foarte buna pentru valori mari ale notelor si o predictie modica pentru notele mici din liceu.
Tabelul 6 ne indica coeficientii de regresie: b este panta regresiei, in cazul nostru 0,675. Interpretarea ei se face in felul urmator: pentru fiecare crestere cu o unitate a mediilor din liceu, avem o crestere cu 0,675 a mediilor din facultate.
Testul t este extrem de important in interpretarea regresiei pentru ca acesta evalueaza semnificatia coeficientilor individuali b, prin testarea ipotezei nule. Ipoteza nula testata este: coeficientul de regresie este egal cu 0. In cazul de fata testul t este semnificativ pentru 0,0000 vom putea respinge ipoteza nula.
Care este ecuatia dreptei de regresie? La ce se refera fiecare termen al ecuatiei?
Daca o ecuatie de regresie este Y' = 3X + 5 care va fi scorul prezis pentru un scor X=8?
Ce criterii se folosesc pentru a determina care este cea mai buna dreapta ce aproximeaza cel mai bine variabila dependenta?
Ce masoara eroarea standard a estimarii (Es)?
In ce mod marimea coeficientului de corelatie Pearson este legat de eroarea standard a estimarii (Es)?
Care sunt "estimarile" la care se refera eroarea standard a estimarii (Es)?
In ce mod abaterea standard este legata de eroarea standard a estimarii (Es)?
Daca intr-o analiza de regresie aflam ca suma patratelor scorurilor prezise este 80 iar suma patratelor erorii este 40, care este r2?
Care este ecuatia de regresie daca media lui X este 20, media lui Y 50 iar corelatia intre X si Y este 0?
Bibliografie
Liebetrau, Albert M (1983) Measures of association, in Series: Quantitative Applications in the Social Sciences, SAGE University Papers.
Berry, W.D., Feldman S. (1985) Multiple regression in practice, in Series: Quantitative Applications in the Social Sciences, SAGE University Papers.
Kleinbaum, DG, Kupper LL, Muller KE. (1988) Applied Regression Analysis and Other Multivariable Methods, 2nd edition. Chapter 4: 'Introduction to Regression Analysis' si "Chapter 5: Straight Line Regression Analysis" PWS-Kent Publishing Company, Boston.
Rotariu, Traian, Badescu Gabriel, Culic, Irina, Mezei, Elemer si Muresan, Cornelia (1999) Metode statistice aplicate in stiintele sociale, Iasi: Polirom.
Online:
Copyright © 2025 - Toate drepturile rezervate
Statistica | |||
|
|||
| |||
| |||
|
|||