Home - Rasfoiesc.com
Educatie Sanatate Inginerie Business Familie Hobby Legal
Doar rabdarea si perseverenta in invatare aduce rezultate bune.stiinta, numere naturale, teoreme, multimi, calcule, ecuatii, sisteme




Biologie Chimie Didactica Fizica Geografie Informatica
Istorie Literatura Matematica Psihologie

Statistica


Index » educatie » » matematica » Statistica
» Corelatia


Corelatia


Corelatia

Capitolul precedent a prezentat un mod de analiza a legaturii dintre doua variabile de nivel nominal prin folosirea tabelelor de asociere si a indicatorilor asocierii. Acest capitol explica modul in care putem sa analizam legatura dintre doua variabile de nivel interval sau rapoarte prin procedurile denumite analize de corelatie.

1. Conceptul de corelatie

Un exemplu de legatura intre doua variabile poate fi gasita in distributia ipotetica a variabilitatii motivatiei clientilor pentru tratament dupa nivelul lor de functionare. Tabelul 1 insumeaza datele pentru un esantion de zece clienti. Pentru fiecare valoare a variabilei X de nivel interval (nivelul motivational al clientului) exista o corespondenta; sau o pereche, valoarea variabilei Y de nivel interval (nivelul de functionare al clientului). O legatura intre aceste doua variabile este evidenta deoarece, fara exceptie, nivelul inalt al motivatiei pentru tratament este asociat cu nivelele inalte ale functionarii si vice versa. Florin de exemplu, a inregistrat cea mai scazuta valoare la ambele, nivelul de motivatie (1) si nivelul de functionare (2), Jana a masurat urmatorul nivel scazut pentru ambele variabile (rezultatele 2 si respectiv 3), si Lia a atins nivelele cele mai inalte pentru ambele variabile (rezultatele 10 si respectiv 11).



Aceasta legatura poate fi depistata cu ajutorul diagramei de imprastiere, asemenea acelei ilustrate in Figura 1. Axa orizontala reprezinta rezultatelele individuale ale clientilor, sau valorile, pentru nivelul motivatiei pentru tratamentul (X), in timp ce axa verticala reprezinta rezultatele individuale ale nivelelor de functionare (Y). Fiecare punct reprezinta un caz si totodata o pereche de valori - masuri ale celor doua variabile- pentru fiecare client. Daca punctele se conecteaza, ele vor forma o linie dreapta, indicand ca cele doua variabile sunt perfect corelate. Asemenea perfectiune este rar intalnita in practica cercetarii de asistenta sociala. Aici ea este folosita pentru a ilustra conceptul de corelatie.

Tabelul 1 Rezultate inregistrate de 10 clienti la nivelele de motivare si de functionare

Nivel motivational Nivel de functionare

Numele clientului (X) (Y)

Florin 1 2

Jana 2 3

Robert 3 4

Sica 4 5

Horia 5 6

Radu 6 7

Margareta 7 8

Ana 8 9

Dorina 9 10

Lia 10 11

Figura 1 Legatura perfecta pozitiva intre doua variabile: nivelul motivational si nivelul de functionare sociala a clientilor (din Tabelul 1)


11 -  Lia

10 -  Dorina

9 -  Ana

Nivel    8 -  Margareta

de    7 -  Radu

functi-    6 -  Horia

onare    5 -  Sica

(Y)    4 -  Robert

3 -  Jana

2 -  Florin

1 -

| | | | | | | | | | |

1 2 3 4 5 6 7 8 9 10 11

Nivel motivational (X)

Intensitate si directie

Figura 1 pune in evidenta doua dimensiuni importante ale relatiei dintre variabile: intensitatea si directia. Cu privire la intensitate, legatura dintre doua variabile este cea mai puternica atunci cand rezultatele tuturor clientilor cad de-a lungul unei linii drepte. Linia care trece prin toate punctele (reprezentand clientii) diagramei de imprastiere este numita linie de regresie. In aceste foarte rare cazuri, in care exista o legatura perfecta, putem prezice cu precizie (de 100%) ca unei valori Y ii corespunde o anume valoare X, si viceversa. In cazurile obisnuite unde intensitatea legaturii este mai putin perfecta, linia de regresie este mai putin distincta, iar capacitatea noastra de a prezice valorile unei variabile din valorile alteia este supusa erorii.

Figura 2 Legatura perfecta negativa intre doua variabile: nivelul motivational al clientului si nivelul de functionare sociala a clientilor


11 - 

10 - 

9 - 

Nivel    8 - 

de    7 - 

functi-    6 - 

onare    5 - 

(Y)    4 - 

3 - 

2 - 

1 -

| | | | | | | | | | |

1 2 3 4 5 6 7 8 9 10 11

Nivel motivational (X)

In legatura cu a doua dimensiune a corelatiei, directia, legatura dintre nivelul motivational si nivelul de functionare sociala a clientilor, asa cum este prezentata in Figura 1, poate fi descrisa ca fiind pozitive. Valorile inalte ale lui X sunt asociate cu valorile inalte ale lui Y, si viceversa. Intr-o legatura negativa (Figura 2), valorile inalte ale unei variabile sunt asociate cu valorile scazute al celei de-a doua variabile si vice-versa. Asemenea corelatiei perfecte pozitive, corelatia perfecta negativa este foarte rara in cercetarea de asistenta sociala, ele apar in principal in disciplinele fizice.

In cercetarea de asistenta sociala, in anumite legaturi nu se va putea distinge directia si nici intensitatea - cu alte cuvinte nu exista legaturi intre toate variabile. Acestea lucru va fi sustinut de ipoteza nula. Dar majoritatea legaturilor dintre variabile de nivel interval sau rapoarte reflecta un anumit grad de corelatie, mergand de la aproape perfecta si pana la abia distinctibila numita si corelatie nonperfecta.

Figura 3 Legatura nonperfecta pozitiva intre doua variabile: nivelul motivational al clientului si nivelul de functionare sociala a clientilor


11 -

10 -

9 -   

Nivel    8 -

de    7 -  

functi-    6 -  

onare    5 -

(Y)    4 -  Robert 

3 -

2 -  Sica

1 -

| | | | | | | | | | |

1 2 3 4 5 6 7 8 9 10 11

Nivel motivational (X)

Similar, figura 4 furnizeaza un exemplu de legatura negative care este mai putin perfecta. Figura 5 prezinta un exemplu in care nu se poate observa nici un fel de legatura intre cele doua variabile.

Figura 4 Legatura nonperfecta negativa intre doua variabile: nivelul motivational al clientului si nivelul de functionare sociala a clientilor

11 - 

10 -

9 -  

Nivel    8 - 

de    7 -

functi-    6 - 

onare    5 -   

(Y)    4 - 

3 -

2 -

1 - 

| | | | | | | | | | |

1 2 3 4 5 6 7 8 9 10 11

Nivel motivational (X)

Figura 5 Nici o legatura intre doua variabile: nivelul motivational al clientului si nivelul de functionare sociala a clientilor


11 -  

10 -

9 - 

Nivel    8 -  

de    7 -

functi-    6 - 

onare    5 -  

(Y)    4 -

3 - 

2 -

1 - 

| | | | | | | | | | |

1 2 3 4 5 6 7 8 9 10 11

Nivel motivational (X)

2. Logica corelatiei

Figurile 1 - 5 sunt diagrame de imprastiere standard. Ele sunt modalitati dificile si consumatoare de timp de prezentare a perechilor de valori pentru un numar mare de cazuri. O cale mult mai eficienta de punere in evidenta a unei relatii dintre variabile de nivel interval sau rapoarte este folosirea unei indicator statistic numit coeficient de corelatie. Acesta furnizeaza o valoare numerica atat al intensitatii cat si al directiei unei legaturi. Asa cum este prezentat in Figura 6, coeficientul de corelatie variaza intr-un continuum de valori, de la o extrema -1,0 (legatura perfect negativa) la o alta extrema 1.0 (legatura perfect pozitiva), cu 0.00 (fara corelatie) ca punct de mijloc. Un coeficient de corelatie nu poate fi mai mare decat 1.00 sau mai mic decat -1.0.

Figura 6 Intervalul in care variaza coeficientul de corelatie

Cu cat valoarea numerica a coeficientului de corelatie este mai aproape de una din valorile extreme (-1 sau -1), cu atat mai puternica este legatura dintre cele doua variabile. De exemplu, un coeficient de 0,92 este mai apropiat de o corelatie perfecta decat oricare din coeficientii -0,65 sau 0,60 si de aceea, sugereaza o mai puternica corelatie decat oricare dintre cele doua. Cu cat coeficientul este mai apropiat de mijlocul acestui interval cu atat legatura dintre cele doua variabile este mai slaba. Un coeficient de corelatie care este apropiat de valoarea 0 sugereaza ca nu exista nici o legatura intre variabile.

Semnul plus sau minus indica directia legaturii. De exemplu, corelatia dintre nivelul indemanarii asistentilor sociali si anii de experienta profesionala in asistenta sociala poate fi de 0,8 Absenta semnului minus indica o legatura pozitiva. Corelatia dintre nivelul de indemanare si nivelul de apatie a celor care muncesc poate fi de -0,75, indicand astfel o puternica legatura negativa. Exista persoane care sunt mai apatice si neimplicate in munca lor, astfel este normal ca ele sa fie mai putin indemanatice, si viceversa.

Pot fi utilizate o varietate de analize de corelatie. Una din procedurile cele mai frecvent utilizate este si cea care va fi prezentata pentru a ilustra coeficientul de corelatie in acest capitol Este vorba de corelatia Pearson al produsului momentelor (sau coeficientul de corelatie r), pe care il vom numi in discutiile ce urmeaza, simplu: r. el se calculeaza cu formula:

         

      unde:

        X si Y reprezinta valorile individuale ale distributiilor X si Y

         mx si my reprezinta mediile distributiilor X si Y

         sx si sy reprezinta abaterile standard ale distributiilor X si Y

         N este volumul esantionului  

Intelegerea indicatorului statistic r

Folosind r, incercam sa determinam statistic ceea ce arata o diagrama de imprastiere - adica, pana la ce grad punctele reprezentand valorile celor doua variabile pentru fiecare caz vor tinde sa formeze o linie dreapta. Daca valoarea lui r este mare (daca se apropie de 1,00 sau -1,00) punctele vor tinde sa se "stranga" aproape de linia de regresie; iar daca valoarea lui r este mica (in apropierea lui 0,00) o diagrama a punctelor va reflecta distantarea punctelor fata de dreapta de regresie.

Pentru a intelege cum a aparut formula lui r ca un indicator al corelatiei dintre variabile, este bine sa ne reamintim ca r este cel mai des interpretat ca o expresie a abilitatii noastre de a prezice o valoare a unei variabile din informatiile pe care le avem despre o valoare a celeilalte variabile. Nu este implicata nici o relatie de cauzalitate. Argumentul care explica ce variabila cauzeaza variatia alteia, trebuie sa se bazeze pe alti factori.

Trebuie remarcat in formula lui r, ca numaratorul este derivat din perechile de valori (una pentru fiecare variabila) pentru fiecare caz. Suma de la numarator reflecta gradul in care variaza impreuna cele doua variabile. Exprimat in alt fel, el ne spune in ce grad anumite valori ale unei variabile tind sa fie gasite impreuna cu anumite valori ale celeilalte variabile.

La numitor, formula introduce cantitatea totala de variatie a tuturor datelor; anume produsul abaterilor standard al celor doua variabile. Valoarea r care rezulta din formula finala, este proportia din variatia totala ce revine covariatiei de la numarator. Intr-o corelatie perfecta (r = 1,0 sau r = -1,0) 100 % din variatia totala a celor doua variabile va fi explicata de catre covariatia de la numarator. Invers, in acele cazuri rare in care nu exista corelatie (r = 0,0) intre variabile, nimic din variatia totala nu va fi explicata de covariatia rezumata in numarator. Cunoscand valoarea pentru o variabila a unui caz in care r = 0,0 ea nu ne va ajuta cu nimic in a prezice valoarea pentru cea doua variabila pentru acel caz.

Valoarea indicatorului statistic r care rezulta din formula ne spune mai multe. Daca ridicam la patrat valoarea r, noua cifra va fi proportia variatiei dintr-o variabila care poate fi "explicata" prin legatura ei cu cealalta variabila. Tineti minte ca termenul explicatie pe care il folosim aici, nu inseamna cauzalitate. Se refera doar la abilitatea noastra de a prezice valorile unei variabile daca stim valorile altei variabile. De exemplu, o valoare de 0,80, relativa la numarul de interviuri de tratament si la rezultatele obtinute la testul stimei de sine, inseamna ca 64% (0,80 x 0,80 = 0,64) din variatia rezultatului obtinut la testul stimei de sine poate fi explicat pe baza numarului de interviuri de tratament. Celelalte 36 de procente ale variatiei valorilor stimei de sine (1,00 - 0,64) raman neexplicate, sau cauzele care explica acestea sunt altele. Capacitatea noastra de a prezice "imaginea de sine" a clientilor daca stim numarul de interviuri avute ar trebui sa fie buna, dar cu siguranta nu poate fi perfecta. Doar un r de +1,0 sau de -1,0 (o corelatie perfecta) ne-ar permite sa facem preziceri cu o acuratete de 100% (1,02 = 1,0).

Statistica r este un indicator al intensitatii si al directiei oricarui model de asociere care exista intre valorile unei variabile si valorile altei variabile. Asa cum am subliniat in prezentarea lui hi-patrat, folosim gresit un test cand incercam sa mergem mai departe decat este principala sa destinatie (predictia in cazul lui r) si incercam sa ii atribuim mai multe atributii (implicatii in cauzalitate) decat este el capabil sa realizeze. Exemplul si aplicarea pas cu pas a formulei care urmeaza, va sublinia faptul ca r (la fel ca alte teste statistice ) este doar o manevrare matematica a numerelor care pot furniza doar un raspuns partial pentru intrebarile cercetarii noastre. Raspunsurile plenare trebuie sa vina din logica, teorie, intuitie, experienta practica, sau din alte domenii, mai putin din procesele "mecanice".

Calcularea indicatorului statistic r

Pentru calculul coeficientului de corelatie r sa pornim de la un exemplu.

Exemplu: Robert, fiind coordonatorul unui centru de servicii familiale doreste sa realizeze un plan de perfectionare a asistentilor sociali angajati in scopul imbunatatirii calitatii serviciilor oferite clientilor. Inainte de a organiza activitatea de perfectionare, va dori sa afle daca exista o legatura intre numarul de ore de specializare urmate de asistentii sociali pe durata ultimilor 5 ani si numarul de esecuri in interventie raportat de asistentii sociali cu ocazia autoevaluarilor anuale in aceeasi perioada. Ipoteza de la care porneste Robert este ca exista o corelatie negativa intre numarul de ore de specializare realizate si numarul de esecuri raportate. In urma investigatiei, el obtine urmatoarele date:

Tabel 2. Date despre asistentii sociali din esantion

Nr. ore de perfectionare

Nr. de esecuri in interventie

Coeficientul de corelatie masoara intensitatea unei relatii liniare dintre doua variabile X si Y, dintre care una poate fi considerata variabila independenta (in acest caz, numarul de ore de perfectionare), iar cealalta variabila dependenta (in acest caz, numarul de esecuri in interventie)[1]. Semnul coeficientului de corelatie r indica directia legaturii dintre cele doua variabile.

O formula de calcul a coeficientului de corelatie a lui Pearson, echivalenta cu cea prezentata mai sus, dar care permite efectuarea mai simpla a calculelor necesare este urmatoarea:

Pornind de la datele empirice se poate construi urmatorul tabel:

Tabel 3. Schema de calcul pentru coeficientul de corelatie r a lui Pearson (din tabelul 2)

X

X2

Y

Y2

XY

Inlocuind in formula lui r, se obtine:

Concluzii: Coeficientul de corelatie intre numarul de ore de formare realizate si numarul de esecuri in interventie este -.98, foarte apropiat de -1, indicand o corelatie negativa foarte puternica. Pe baza acestui rezultat, Robert concluzioneaza ca asistentii sociali care s-au perfectionat mai intens au mai putine esecuri in munca de interventie. Totusi, este important de retinut: corelatia nu implica si cauzalitate. Asadar, nu se poate afirma faptul ca un anumit numar de ore de formare cauzeaza un anumit numar de esecuri in interventie. Exista si alti factori cu care cele doua variabile sunt, la randul lor, corelate (cum ar fi de pilda, trasaturile de personalitate ale asistentilor sociali). Dar putem oare extinde rezultatul la intreaga populatie a asistentilor sociali?

Legatura dintre r si sansa

Cat de mare trebuie sa fie r pentru a putea respinge in siguranta ipoteza nula si sa avem suport statistic pentru existenta unei legaturi reale intre cele doua variabile? Ca si la alte legaturi bivariate, coeficientul de corelatie este gandit sa fie suficient de puternic ca sa ajunga la sau sa depaseasca nivelul predeterminat al semnificatiei statistice. Nivelul de semnificatie de 0,05 justificat si statuat anterior, este folosit si aici ca punct de referinta pentru a determina daca putem respinge ipoteza nula. Tabelul pentru valorile critice ale lui r (Tabelul 4) ilustreaza punctul la care semnificatia statistica este realizata pentru diferite intensitati ale coeficientului de corelatie, depinzand de marimea esantionului. Asa cum arata tabelul, pentru un esantion de 7 indivizi, este nevoie de un coeficient de corelatie de 0,754 cu o ipoteza nedirectionala, care ajunge la o semnificatie statistica de nivelul de 0,05 (0,874 pentru nivelul 0,01) si care permite astfel respingerea ipotezei nule. Pentru o ipoteza directionala ca in exemplul de mai sus, o valoare r de 0,874 este semnificativa chiar la nivelul 0,00 Cu o marime a esantionului de 400 de cazuri, respingerea ipotezei nule este posibila cu un coeficient de corelatie mult mai slab (0,098 la nivelul 0,05 si 0,128 la nivelul 0,01). Acesta este un punct important care trebuie retinut.

Ca si la analiza de asociere, si la analiza corelatiei probabilitatea demonstrarii semnificatiei statistice cu ajutorul lui r este legata direct de marimea esantionului. Intr-un esantion mai mic este mult mai probabil ca intamplarea (sansa), sub forma erorii de esantionare, sa fie cauza legaturii aparente dintre doua variabile, decat intr-unul mai mare. Cu un esantion mare, o legatura aparenta, chiar una care la prima vedere apare a fi slaba, este de departe mai putin probabila sa fie rezultatul sansei. Un tabel cum este Tabelul 4 incorporeaza acest factor cand ia in considerare dimensiunea esantionului in furnizarea nivelului de semnificatie.

Tabelul 4 Valorile critice ale coeficientului de corelatie r

Nivel de semnificatie pentru un test directional

.025 .005 .025 .005

Nivel de semnificatie pentru un test nedirectional

n .05 .01 n .05 .01

3 .997 .999 38 .320 .413

4 .950 .990 39 .316 .408

5 .878 .959 40 .312 .403

6 .811 .917 41 .308 .398

7 .754 .874 42 .304 .393

8 .707 .834 43 .301 .389

9 .666 .794 44 .297 .384

10 .632 .765 45 .294 .380

11 .602 .735 46 .291 .374

12 .576 .708 47 .288 .372

13 .553 .684 48 .284 .368

14 .532 .661 49 .281 .364

15 .514 .641 50 .279 .361

16 .497 .623 55 .266 .345

17 .482 .606 60 .254 .330

18 .468 .590 65 .244 .317

19 .456 .575 70 .235 .306

20 .444 .561 75 .227 .296

21 .433 .549 80 .220 .286

22 .423 .537 85 .213 .278

23 .413 .526 90 .207 .270

24 .404 .515 94 .202 .263

25 .396 .505 100 .195 .256

26 .388 .496 125 .170 .230

27 .381 .487 150 .159 .210

28 .374 .478 175 .148 .194

29 .367 .470 200 .138 .181

30 .361 .463 300 .113 .148

31 .355 .456 400 .098 .128

32 .349 .449 500 .088 .115

33 .344 .442 600 .080 .105

34 .339 .436 700 .074 .097

35 .334 .430 800 .070 .091

36 .329 .424 900 .065 .086

37 .325 .418 1000 .062 .081

Substantialitatea coeficientului de corelatie

Pentru a interpreta intensitatea unui coeficient de corelatie, trebuie sa luam in considerare modul in care se utilizeaza o analiza de corelatie. Chiar daca se obtine un coeficient de corelatie statistic semnificativ, valoarea r in sine nu este in mod necesar purtatoare de inteles si nu reprezinta neaparat un rezultat substantial. De exemplu, cercetarile care construiesc instrumente de masurare sunt preocupate de validitatea si fiabilitatea lor. Punctul traditional de la care se poate accepta un instrument ca prezentand siguranta, cere adesea un coeficient de corelatie de peste 0,85, pe cand punctul pentru a accepta validitatea instrumentului este frecvent de 0,40 sau chiar mai scazut. Dintr-o perspectiva diferita, identificarea faptului ca nu exista o asociere (r = 0,00) intre doua variabile despre care se credea ca sunt legate, poate reprezenta cel mai important rezultat al unui studiu.

In interpretarea unui coeficient de corelatie, mai este important sa nu il tratam ca si cum ar fi echivalent cu date de nivel interval sau rapoarte; sau sa nu facem judecati care dau o astfel de impresie. De exemplu, un coeficient de corelatie de 0,80 nu este de doua ori mai puternic ca unul de 0,40. De fapt, 0,80 descrie o asociatie de patru ori mai puternica (0,802 = 0,64; 0,402 = 0,16; 0,64 / 0,16 = 4) in ceea ce priveste cantitatea de variatie pe care o poate explica din variatia totala a celeilalte variabile. Trebuie tinut minte ca un coeficient de corelatie atat de puternic ca 0,80, arata un model (pattern) de la care se vor abate foarte putine exceptii - adica tuturor valorilor mari ale primei variabile le vor corespunde virtual valori mari si pentru cea de a doua variabila, si viceversa. Un coeficient de corelatie mai slab (asa ca 0,40) va avea un procentaj mai mare de cazuri care se opun directiei de asociere.

Prezentarea corelatiilor

Prezentarea unui coeficient de corelatie intr-un raport de cercetare este simpla. Dupa calcularea lui r conform schemei date in Tabelul 3 si formulei lui de calcul, vom gasi nivelul de probabilitate asociat cu r -ul obtinut; pe baza dimensiunii esantionului in tabelul 4. Acesta ne va permite sa determinam daca putem respinge ipoteza nula sau nu. Cu informatia astfel obtinuta, putem prezenta rezultatele noastre intr-o fraza.

De exemplu:

Intre variabilele independenta si cea dependenta pentru 20 de clienti s-a gasit o corelatie r = -0,57, la nivelul de semnificatie p < 0,01, ceea ce indica prezenta unei corelatii negative statistic semnificative intre cele doua variabile.

3. Corelatia cu trei sau mai multe variabile

Legaturile bivariate necesita frecvent explicatii in continuare. De exemplu, este improbabil sa putem prezice cu siguranta cat timp un client va ramane in tratament doar pe baza unor informatii privind severitatea problemei prezentate de client, motivatia lui pentru tratament; sau orice alta variabila singulara. Perspectiva sistemelor si alte teorii a cauzelor multiple, sustin ca exista multe variabile care contribuie impreuna si determina comportamentul uman. Acuratetea predictiei poate fi imbunatatita prin extinderea volumului de date disponibile prin includerea mai multor (decat doua) variabile in acelasi timp intr-o analiza. Deciziile privind directia in care sa aiba loc extinderea, sursele suplimentare si tipurile de date necesare imbunatatirii explicatiilor si capacitatilor noastre predictive, constituie adesea urmatorul pas critic in procesul de analiza a datelor. In acest text, nu ne vom ocupa cu descrierea testelor care examineaza corelatiile intre trei sau mai multe variabile (unul binecunoscut este coeficientul de corelatie partiala). Pentru dezbaterea noastra, este suficient sa spunem ca ar trebui sa stim despre existenta lor si despre ceea ce pot ele oferi (sau ce nu pot ele oferi) in plus fata de o analiza bivariata, cu utilizarea lui r.

4. Un exemplu

Descrierea situatiei care genereaza un studiu

Radu este un asistent social intr-o agentie de servicii familiale. El conduce cateva grupuri de tratament, constituite din adolescente. Recent el si-a dat seama de variabilitatea mare in participarea verbala printre membrii grupului. Virtual toate fetele ar fi trebuit sa participe la discutiile de grup; dar cateva dintre ele nu au facut niciodata vreun comentariu nesolicitat. El a simtit ca aceste fete aveau un nivel scazut al dorintei de a se implica in grup. Dupa o perioada de cateva saptamani, Radu a intrebat cateva dintre fetele nevorbarete, de ce sunt asa de rare comentariile lor voluntare. Dintre cele sapte fete intrebate, cinci au dat un raspuns asemanator: fiecare a fost singurul copil in familie si au fost invatate de catre parinti ca nu este datoria lor sa initieze comunicarea. Apoi Radu le-a intrebat pe trei dintre cele mai vorbarete, care inclinau sa domine discutiile din grup, cati frati si /sau surori au. Raspunsurile lor au fost sase, sapte si noua.

Pe baza incursiunii sale limitate, Radu a inceput sa speculeze o posibila legatura intre o variabila dependenta, neinitierea unui comentariu in tratamentul de grup si o variabila independenta, numarul fratilor din familie.

Ipoteza ce urmeaza a fi testata

Din literatura, Radu a aflat tot ce a putut despre fenomenele ca trasaturile sociale ale copilului singur, modelele de comunicare dintre frati si variatiile in participarea verbala in grupurile de adolescenti. Majoritatea literaturii de specialitate parea sa-l conduca la concluzia ca adolescentii cu mai multi frati sunt mai dispusi pentru comentarii voluntare decat aceia cu mai putini frati. Aceasta presupunere se explica prin experienta in comunicare castigata prin maturizarea printre frati. Totusi, alta parte a literaturii de specialitate parea sa sugereze o versiune opusa. Ea sustinea ca acei copii care au in jur adulti cu care sa comunice vor capata mai multa iscusinta verbala si vor fi mai putin intimidati de prezenta adultilor. Astfel Radu a ramas indecis. Oriunde era vorba de o astfel de tema, in diferitele surse, se sugera ca variabila dependenta si cea independenta par a fi logic legate. Dar in ce directie? Radu avea si el o oarecare experienta castigata (desigur nestiintifica) din propriile observatii. Pana la urma, s-a decis sa realizeze un studiu de cercetare de dimensiuni mici, care sa testeze urmatoarea ipoteza directionala:

Printre adolescentele dintr-un grup de tratament, exista o corelatie pozitiva intre numarul comentariilor nesolicitate si numarul fratilor din familie.

O privire asupra metodologiei

Este o procedura obisnuita in agentia in care lucra Radu de a se inregistra video sesiunile de tratamente de grup si de a se folosi apoi de catre personalul agentiei pentru supervizare. Astfel Radu nu avea nici o problema in privinta accesului la informatiile care i-ar putea folosi pentru a-si testa ipoteza. El a primit permisiunea administratorului agentiei de a folosi benzile video cu cele sapte fete din grupul sau, pentru a le utiliza in cercetare.

Pentru operationalizare Radu a definit un caz, ca fiind o adolescenta care a participat la cel putin 75% dintre sedintele grupului sau intr-o perioada de patru luni. Avand identificate 35 de fete care indeplineau acest criteriu, el a revazut toate videocasetele impreuna cu un coleg care a fost interesat de studiul sau. Radu si prietenul sau au dezvoltat o definitie operationala pentru variabila "comentariu nesolicitat". Dupa aceea, ei au inregistrat numarul comentariilor nesolicitate realizate de fiecare fata in timpul fiecarei sedinte. Un comentariu nesolicitat a fost judecat ca fiind facut doar daca Radu si colegul sau au simtit ca a fost conform cu definitia.

Radu si colegul sau au adunat numarul comentariilor nesolicitate pentru fiecare dintre fete (cazuri) si apoi l-au impartit la numarul de sedinte la care tinerele au participat. Acest numar le-a furnizat media comentariilor nesolicitate pe o sedinta pentru fiecare caz (variabila dependenta). Din inregistrarile facute de catre agentie, ei au scos datele pentru variabila independenta, numarul fratilor pentru fiecare caz. Radu a asezat masuratorile pentru fiecare dintre cele doua variabile intr-un tabel asemanator tabelului 2.

Rezultatele

Radu a folosit r pentru a determina daca poate sa aiba suport statistic pentru ipoteza sa. Folosind formula pentru r, el a aflat ca valoarea coeficientului de corelatie dintre numarul comentariilor nesolicitate pe sedinta si numarul de frati a fost de 0,340. Gandindu-se la ceea ce inseamna puterea corelatiei, el a fost oarecum dezamagit, dar reamintindu-si ca dimensiunea esantionului sau este mare (35 este relativ mare pentru r), si-a dat seama ca nu avea nevoie de o corelatie mare pentru a avea semnificatie statistica. Cand s-a uitat in tabelul pentru r, unde dimensiunea esantionului este controlata (Tabelul 4), el a observat ca probabilitatea comiterii unei erori de tipul I in respingerea ipotezei nule cu o corelatie de 0,340 si un esantion de 35 era mai mica decat 0,02 (De semnalat ca 0,340 se gaseste la dreapta lui 0,334, dar este mai mic decat 0,430).

Interpretarea rezultatelor si tragerea concluziilor

Radu a stiut ca nivelul de semnificatie 0,05 este in general acceptat ca suport pentru o legatura dintre doua variabile. El stie de asemenea ca in ceea ce priveste legatura dintre variabila dependenta si cea independenta, se afla pe taramul sigur al statisticii. Totusi este necesar un al doilea pas pentru interpretare, inainte de a revendica suport statistic pentru ipoteza sa. A fost oare corelatia dintre variabile in directia in care el a formulat ipoteza, adica este o corelatie pozitiva? Radu a tinut minte ca o corelatie pozitiva intre doua variabile (Figurile 1 si 3) inseamna ca valorile inalte ale unei variabile tind sa se afle printre cazurile care au valori inalte ale celeilalte variabile si viceversa. Aceasta inseamna ca, pentru aceste date, fetele care au avut valori mari pentru variabila "numarul comentariilor nesolicitate" ar fi trebuit sa aiba valori mari si pentru variabila "numarul fratilor" si viceversa. Datele lui Radu arata ca este asa. El a concluzionat ca are suport statistic pentru ipoteza sa, in directia presupusa.

Radu a fost realist in privinta rezultatelor sale. El a stiut ca pot fi si alte explicatii pentru rezultatul sau statistic semnificativ, decat existenta unei legaturi adevarate intre variabile. Cercetarea sa a fost una de dimensiuni mici, el s-a bazat pe un esantion care ii convenea cel mai mult: de la agentia sa si dintre cazurile lui. Multe efecte deformante si multe alte variabile ar fi posibil sa fi afectat rezultatele obtinute de el. Acestea ar putea sa fie legate de factori ca: (1) o anume deformare creata in interiorul esantionului ca urmare a cazurilor pierdute; (2) o posibila inabilitate a lui Radu de a fi un bun mediator pentru fetele care nu au fost obisnuite cu situatiile de grup; (3) o posibila distorsiune a evenimentelor data de limitele echipamentelor de inregistrare video folosite. In plus, o corelatie de 0,340 dintre variabile nu este puternica in sens absolut. Lipsa de incredere absoluta in rezultatele sale si marimea acestora, l-au determinat pe Radu sa nu publice inca un articol din studiul sau pentru a comunica rezultatele sale si altora.

Folosirea PACHETUL STATISTIC PENTRU STIINTELE SOCIALE in analiza corelatiilor

Deschideti fisierul de date continut in pachetul PACHETUL STATISTIC PENTRU STIINTELE SOCIALE numit "World95". Fisierul contine mai multe variabile, dintre care ne intereseaza corelatia intre mortalitatea infantila - numar de decese la 1000 nasteri vii (babymort) si produsul intern brut pe cap de locuitor (gdp_cap), si corelatia intre mortalitatea infantila si procentul femeilor care citesc (lit_fema). Pentru aceasta, vom specifica toate cele trei variabile in rubrica Variables. Programul va calcula corelatii intre toate cele trei variabile, luate doua cate doua (chiar daca pe noi, de pilda, nu ne intereseaza corelatia intre produsul domestic brut pe cap de locuitor si procentul femeilor care citesc).

Pentru a calcula coeficientul de corelatie intre doua variabile prin programul PACHETUL STATISTIC PENTRU STIINTELE SOCIALE, vom urma seria de optiuni de meniu: Statistics - Correlate - Bivariate. Ultima optiune deschide o fereastra de dialog continand lista variabilelor din fisierul de date (specificate in Variables), din care vom alege variabilele intre care dorim sa se calculeze corelatia, coeficientul pe care dorim sa-l folosim - desigur, in functie de tipul de date de care dispunem - (Pearson, Kendall's tau-b, Spearman). Pentru fiecare din coeficientii de corelatie calculati, putem opta sa aplicam un test de semnificatie a diferentei fata de 0 (Test of Significance). De asemenea, prin butonul Options, putem cere calcularea unor indici sau valori: medii, abateri standard, etc. (Means and standard deviations, Cross-products deviations and covariances). Iata ce afiseaza programul dupa executarea comenzilor din meniu:

CORRELATIONS

/VARIABLES=babymort gdp_cap lit_fema

/PRINT=TWOTAIL NOSIG

/MISSING=PAIRWISE .

Dupa ce afiseaza sintaxa corespunzatoare optiunilor de meniu executate, programul tipareste un tabel in care sunt calculati coeficientii de corelatie intre variabile, luate doua cate doua. Observam ca valoarea coeficientului de corelatie intre mortalitatea infantila si procentul femeilor care citesc este -.843, iar intre mortalitatea infantila si produsul intern brut pe cap de locuitor este -.64. Sub fiecare dintre coeficientii calculati, sunt trecute rezultatele testelor de semnificatie (nivelul de incredere e peste 99% pentru ca p=0,000 in fiecare caz) si asa cum se specifica in nota **, fiecare dintre coeficientii calculati sunt semnificativ diferiti de 0 (asadar, exista corelatie intre variabilele respective). Ultima parte a fiecarui rand da informatii despre variabile (N reprezentand numarul de cazuri valide folosite la calculul coeficientilor).

Pe baza rezultatelor obtinute de PACHETUL STATISTIC PENTRU STIINTELE SOCIALE, putem concluziona ca exista o corelatie negativa puternica intre mortaliatea infantila si procentul femeilor care citesc, cu alte cuvinte, cu cat procentul populatiei feminine care citeste este mai redus, cu atat rata mortalitatii infantile e mai mare. Coeficientul de corelatie intre celelalte doua variabile investigate indica de asemenea o corelatie negativa, mai slaba decat in cazul primelor doua variabile, care ne permite sa afirmam ca tarile care au un produs domestic brut pe cap de locuitor mai ridicat, inregistreaza o rata a mortalitatii infantile mai redusa.

Atentie: Puteti folosi corelatia pentru a identifica intensitatea si directia legaturii dintre doua variabile, dar nu si pentru a stabili o relatie de cauzalitate. Analiza de corelatie de mai sus ne arata ca, in general, tarile cu un nivel economic mai ridicat si cu o pondere mai mare de alfabetizare a femeilor, au o mortalitate infantila mai scazuta, dar nu si ca, de pilda, mortalitatea infantila e mai ridicata deoarece femeile sunt intr-o pondere mai mare analfabete.

6. Intrebari pentru studiu

Care va fi forma unei diagrame de imprastiere care reflecta o corelatie negativa perfecta?

Ce coeficient de corelatie sugereaza o legatura mai puternica intre doua variabile, 0,74 sau -0,86?

Ce coeficient de corelatie sugereaza ca nu exista nici o legatura intre doua variabile de nivel interval?

Cum influenteaza dimensiunea esantionului, marimea coeficientului de corelatie considerat semnificativ statistic?

Cum se poate ca o corelatie foarte slaba, de 0,10 , sa fie o contributie valoroasa la imbunatatirea cunostintelor practice?

De ce nu este corect sa afirmam ca un coeficientul de corelatie de 0,84 sugereaza o legatura de doua ori mai puternica decat un coeficient de corelatie de 0,42?

De ce analizele bivariate, asemenea lui r, nu furnizeaza in mod uzual o explicatie totala asupra legaturii dintre doua variabile?

Poate o analiza bivariata de corelatie sa ne spuna care variabila cauzeaza variatia in a doua variabila? Explicati.

Cand poate un coeficient de corelatie sa fie folosit pentru a prezice, cu siguranta de 100%, valorile unei variabile cu ajutorul valorilor cunoscute pentru cealalta variabila?

Care este formatul obisnuit pentru prezentarea rezultatelor din analiza de corelatie?

7. Tema pentru acasa

Deschideti fisierul PACHETUL STATISTIC PENTRU STIINTELE SOCIALE "World9sav". Cereti PACHETUL STATISTIC PENTRU STIINTELE SOCIALE sa calculeze coeficientul de corelatie Pearson (r) dintre variabila numar mediu de copii la o femeie (fertility) pe de o parte, si venitul mediu pe cap de locuitor (gdp_cap), procentul de femei alfabetizate (lit_fema) si procentul populatiei urbane (urban) pe de alta parte. Care dintre corelatii este mai puternica si care este valoarea lui r ? Este ea semnificativa statistic ?

Pornind de la datele din fisierul "Employee data" - informatii despre angajati, raspundeti la intrebarea daca exista o corelatie intre salariul de debut (variabila salbegin) si cel actual (variabila salary) al respondentilor, cu ajutorul programului PACHETUL STATISTIC PENTRU STIINTELE SOCIALE. Interpretati semnificatia rezultatelor obtinute.



Nu este absoluta nevoie sa facem distinctie intre variabila independenta si cea dependenta, pentru ca r nu cere acest lucru.





Politica de confidentialitate





Copyright © 2024 - Toate drepturile rezervate

Statistica


Statistica






termeni
contact

adauga