Biologie | Chimie | Didactica | Fizica | Geografie | Informatica | |
Istorie | Literatura | Matematica | Psihologie |
Analiza statistica a datelor experimentale - cercetare pedagogica
Datele brute pe care le obtinem ca urmare a masurarii ( testarii) nu sunt semnificative prin ele insele, daca, in prealabil, nu sunt organizate intr-un mod relevant. Or, acest mod de organizare il asigura statistica, instrument matematic de neinlocuit in cercetarea experimentala.
Utilitatea statisticii in cercetarea pedagogica, in general, si in cercetarea experimentala, in special, poate fi recunoscuta precizand ca statistica ne ajuta:
sa eliminam ambiguitatile atat din gandire, cat si procedurile experimentale;
sa realizam o descriere precisa si unitara a elementelor cu care operam
sa exprimam cantitativ caracteristici ale variabilelor psihopedagogice, iar, pe baza acestei descrieri, sa relevam si sa explicam raporturile dintre variabilele studiate;
sa impunem cercetarii un cadru de referinta si un limbaj comun necesar specialistului in orice domeniu pentru a intelege datele si concluziile cercetarilor efectuate de altii.
In cele ce urmeaza nu vom prezenta decat citeva dintre conceptele si tehni-cile elementare ale statisticii, indicand celor interesati ( pentru detalii) lucrarile de anvergura ale domeniului.
a. Construirea unei distributii de frecvente
Am aratat deja ( v. mai sus) cum se procedeaza in realizarea unei distri-butii de frecvente pentru date negrupate, construind si graficele corespunzatoare.
In genere, numarul de aparitii al unui anumit scor cu ocazia testarii unui grup ( grupuri de elevi) se numeste frecventa scorului respectiv.
Este foarte important sa cunoastem frecventa fiecarui scor, dat fiind ca aceasta ne ajuta sa ne reprezentam nivelul performantelor grupului. Daca, de exemplu, scorurile mai mari au frecvente mai mari decat scorurile mici, este o dovada ca grupul ( grupurile) se prezinta bine la testul aplicat.
Sa vedem, in continuare, cum se realizeaza distributia de frecvente pentru date grupate.
Presupunem ca grupul de elevi supus testarii este numeros, fiind format din mai multe clase, sau ca intervalul in care variaza scorul este foarte mare, caz in care procedeul anterior de calculare a frecventei fiecarui scor devine dificil de aplicat. In acest caz, se procedeaza la divizarea intervalului dintre cea mai mica si cea mai mare valoare a scorului. Daca presupunem ca toate valorile scorului care cad in acelasi interval au valoare identica, vom calcula nu frecventa scorurilor individuale, ci frecventa intervalurilor, adica numarul de scoruri a caror valoare se afla in intervalul respectiv.
Putem, desigur deduce, ca o asemenea organizare a datelor conduce la pierderea unei anumite cantitati de informatie, in sensul ca scoruri apropiate, dar diferite, pot fi grupate in cadrul aceluiasi interval, disparand astfel diferenta dintre ele. Se pune, prin urmare, problema alegerii intervalului optim, in care pierderea de informatie este mai mica.
Marimea optima a intervalului de grupare se poate determina cu ajutorul unei formule empirice :
unde X max ,Xmin reprezinta cea mai mare si cea mai mica valoare a scorului, n numarul de subiecti din grupul supus testarii si 1 marimea optima a intervalului de grupare.
Ilustram situatia cu un numar de 120 de elevi, apartinand la 3 clase, care, in urma aplicarii unui test final, au obtinut urmatoarele scoruri:
Clasa A
Clasa B
Clasa C
In situatia mentionata, Xmin = 21, Xmax = 85, n= 120.
Prin urmare, marimea intervalului de grupare va fi data de :
Urmeaza sa impartim intervalul 21- 85 ( in care variaza scorul) intr-un numar de intervale egale: 21-25, 26-30, 31- 35, ..76-80, 81-85, calculand pentru fiecare numarul de scoruri a caror valoare se afla in intervalul respectiv.
Obtinem un tablou cu doua linii de date grupate de genul :
Procedeul este identic cu cel pentru date negrupate (v. mai sus), cu deosebirea ca, de data aceasta, s-a calculat frecventa intervalelor si nu frecventa scorurilor particulare.
Pentru a reprezenta grafic aceasta distributie de frecvente pentru date grupate in intervale, putem presupune ca valorile scorului se distribuie uniform in interiorul unui interval, sau, ca ele se grupeaza in punctul care reprezinta centrul intervalului.
Limitandu-ne la prima presupunere, obtinem pentru distributia data urma-toarea reprezentare grafica, care se numeste histograma distributiei respective :
Adoptand cea de-a doua presupunere, obtinem pentru aceeasi distributie, poligonul frecventelor respective.
Daca reprezentarea grafica respectiva admite o axa de simetrie ( adica valorile scorului simetrice in raport cu valoarea cu frecventa cea mai mare sunt egale), rezulta o distributie normala care se apropie de reprezentarea ideala a distributiei frecventelor data de curba Gauss-Laplace :
Daca insa majoritatea scorurilor se plaseaza intr-o parte sau alta, in raport cu valoarea cu frecventa maxima, obtinem o distributie asimetrica, spre dreapta sau spre stanga, dupa caz :
E de remarcat ca cele doua forme de distributie ( de J, in primul grafic si i, in cel de-al doilea) indica fie o variatie crescatoare, fie o variatie des-crescatoare. Rezultatul se poate datori fie faptului ca testul este neadecvat pentru populatia respectiva, fie faptului ca instruirea anterioara a fost neeficienta.
Distributia in forma de j se obtine cand majoritatea subiectilor obtin valori si frecvente ridicate ale scorurilor, iar distributia in forma de i rezulta din valori si frecvente ridicate ale scorurilor.
In situatia opusa, cand majoritatea elevilor au obtinut scoruri maxime ( distributia in forma de j), ne putem gandi la faptul ca gradul de dificultate al testului a fost prea scazut ori instruirea aplicata grupului a fost extrem de eficienta.
Distributia de frecvente si reprezentarile ei grafice ne dau o imagine generala despre modul cum este distribuita o colectie de valori ale variabilei care formeaza obiectul cercetarii respective.
A caracteriza deci o distributie inseamna a da o descriere a ei, cu scopul de a o deosebi de o alta distributie, provenind de la alta colectie de valori a aceleiasi variabile.
Pentru a putea descrie diferentele dintre aceste distributii, se utilizeaza tendinta centrala si variatia. Valoarea variabilei, situata in centrul distributiei, in jurul careia au tendinta sa se grupeze toate celelalte valori, se numeste tendinta centrala a distributiei respective. Valoarea numerica indicand gradul de impras-tiere a valorilor variabilei in jurul tendintei centrale se numeste variatie sau dispersie.
Rezulta ca o distributie de frecvente este carcaterizata in principal de indicatori ai tendintei centrale si ai dispersiei.
5 .1. Indicatori ai tendintei centrale
Indicatorii tendintei centrale cei mai frecventi sunt : media aritmetica, mediana si modul.
Aratam, in continuare, pentru fiecare, definitia, proprietatile si procedeul de calcul. Va fi util sa ilustram fiecare situatie in parte.
Media aritmetica. Fie n numere a1, a2, a3. an. Vom numi media aritmetica a acestor n numere si vom nota cu a numarul care se obtine din impartirea sumei numerelor a1 + a2+ a3 +...an la n ( numarul elevilor) :
Se considera o distributie de frecvente ( date negrupate) pentru o variabila pe care o vom nota prin X :
valorile |
x1 x2 x3 .... xs |
frecventele valorilor |
f 1 f2 f3......fs |
unde f1 + f2 + ....fs = n ( n fiind numarul de subiecti supusi testarii).
Pentru a calcula media aritmetica a acestei distributii se calculeaza suma produselor dintre valorile variabilei si frecventele corespunzatoare , impartindu-se aceasta suma la numarul de subiecti ( se noteaza cu X media aritmetica a valo-rilor variabilei x).
Rezulta ca media aritmetica a unei distributii este media aritmetica a s numere, dintre care unele apar de mai multe ori : x1 de f1 ori, x2 de f2 ori s.a.m.d
Presupunem ca variabila X este nota obtinuta la un anumit test. Adminis-trand testul la un grup de n = 38, se obtine o colectie de valori ale variabile X, care da urmatoarea distributie de frecvente :
valorile variabilei |
1 2 3 4 5 6 7 8 9 10 |
frecventele valorilor |
0 0 2 2 3 7 1 0 8 4 2 |
Pentru a calcula media aritmetica a acestei distributii, se procedeaza astfel :
se calculeaza produsul f.x dintre fiecare valoare a variabilei si frecventa corespunzatoare f, insumandu-se aceste numere : 1+ 2.0 + 3.2 + 4.2 + 5.3 + 6.7 + .. + 10.2 = 261,
se imparte rezultatul obtinut la numarul de subiecti din grup, respectiv :
Daca se impune a defini o medie aritmetica pentru o distributie de frecvente pentru date grupate, presupunem ca valorile variabilei din fiecare interval sunt concentrate in valoarea din centrul intervalului.
Notand cu x1, x2, . xs valorile centrale ale celor s intervale ale distributiei, atunci media aritmetica pentr u date grupate este numarul :
unde f1, f2, . fs reprezinta frecventele celor s intervale ale distributiei.
Etapele calcularii mediei pentru date grupate sunt :
se calculeaza valorile centrale ale intervalelor;
se inmulteste fiecare dintre valorile centrale astfel obtinute cu frecventa
intervalului respectiv;
se calculeaza suma acestor produse si se divide la n.
Presupunem ca la un test final ( scor maxim =50 de puncte), un grup de 76 de subiecti au obtinut un numar de rezultate, cu ajutorul carora construim o dis-tributie de frecvente pentru date grupate in 9 intervale ( ca in tabelul de mai jos) :
Intervalele |
Frecventele |
Valoarea centrala |
f.x |
In consecinta,
Calcularea mediei pentru date date grupate necesita,desigur, calcule foarte laborioase, daca numarul de subiecti este foarte mare.
Mediana. Acest parametru nu se calculeaza : este marimea din mijlocul sirului de masuri, asezate in ordine crescatoare sau descrescatoare.
Fie n numere a1, a2,. an , despre care presupunem ca sunt aranjate in ordine crescatoare : . Numarul care imparte acest sir de numere in doua grupe continand acelasi numar de elemente, se numeste mediana sirului respectiv, putand fi notata cu Md. O grupa va contine numerele mai mici decat Md, iar alta numerele mai mari decat de Md.
Daca n este un numar impar, adica 2k +1, atunci mediana sirului coincide cu elementul cu numarul de ordine k+1.
Exemplificand, aratam ca pentru sirul de numere :
, unde n = 9 = 2.4 +1, Md =a5 =12.
Daca sirul de numere este un numar par, adica n = 2k, neexistand un element al sirului care sa ocupe pozitia centrala, mediana va fi data de media aritmetica a elementelor de rang k si k +1.
Avand, prin urmare, sirul de numere:
,
unde n = 10 =2,5, obtinem .
Deci mediana unui sir de numere aranjate in ordine crescatoare :
.
Daca ne referim la distributia de frecvente pentru date grupate in intervale, procedeul de calcul este urmatorul :
Se determina intervalul care contine elementul de rang n/2, care se numeste intervalul median al distributiei. In cazul tabelului de mai sus al distributiei pentru date grupate in intervale, 76/2 = 38. Elementul cu rangul 38 apartine intervalului 15-19. Observam ca intervalele 5-9 si 10-14 contin 2+11 = 13 valori, iar intervalele 5-9, 10-11 si 15-14 contin impreuna 2+11+26=39 valori. Intervalul cu rangul 38 se afla deci in intervalul 15-19.
Vom obtine acelasi rezultat daca efectuam numaratoarea de sus in jos.
Mediana distributiei se obtine adaugand la limita inferioara a intervalului median o corectie, adica .
Aceasta corectie se calculeaza dupa formula , unde n reprezinta numarul de subiecti, fc suma frecventelor intervalelor anterioare intervalului median, fm frecventa intervalului median, l lungimea intervalului median.
Avand in vedere exemplul luat ca referinta, obtinem:
, deci .
Modul. Este o alta valoare reprezentativa a unui colectiv, dintre cele folosite in mod obisnuit. Modul ( notat M), dupa englezul "mode" ( sau dominanta, in franceza) este valoarea cu cea mai mare frecventa din colectiv, care se repeta cel mai des in sirul valorilor.
De exemplu, pentru distributia de date negrupate din tabelul care urmeaza:
valorile variabilei |
1 2 3 4 5 6 7 8 9 10 |
frecventele valorilor |
0 0 2 2 3 7 1 0 8 4 2 |
frecventa maxima o reprezinta 10, deci M = 10.
Pentru o distributie de frecvente pentru date grupate in intervale, intervalul modal este intervalul caruia ii corespunde frecventa maxima. Modul acestui tip de distributie este valoarea centrala a intervalului modal. De exemplu, pentru distributia din tabelul de mai jos , intervalul modal este 51-55, pentru care M= 53.
Daca doua valori ( ori intervale de valori) consecutive ale variabilei apar cu aceeasi frecventa, care este mai mare decat frecventele altor valori, atunci modul se determina calculand media aritmetica a celor doua valori ( sau a valorilor centrale ale intervalelor respective).
Presupunand ca intr-un sir de note obtinute la un obiect, nota 6 se repeta de 10 ori, iar nota 7 se repeta tot de 10 ori, atunci modul este media aritmetica a celor doua frecvente, adica .
Daca doua valori ( sau intervale de valori ) neconsecutive ale variabilei X arata astfel incat frecventele lor sunt mai mari decat frecventele altor valori, atunci fiecare valoare reprezinta un mod, iar distributia este bimodala.
Cauzele distributiei bimodale se pot datori unor greseli de prelucrare a datelor ( volumul de date supuse gruparii este prea mic sau intervalele de grupare sunt prea mici in raport cu volumul de date grupate).
Daca prelucrarea a decurs in mod corect, o distributie bimodala poate scoate in evidenta faptul ca grupul supus cercetarii nu este omogen, fiind format mai degraba din doua grupuri distincte.
Un exemplu : daca vom supune unui test de inteligenta un grup de elevi de varste diferite ( 9, respectiv,16 ani), vom obtine, cu siguranta, o distributie bimodala.
In alt sens, un grup de 80 elevi, apartinand la doua clase diferite, supus unui test de verificare a cunostintelor din cuprinsul unui modul de instruire, a obtinut urmatoarele scoruri ( scor maxim =40) :
x | |||||||||||||||||||
f |
Distributia obtinuta admite doua moduri M1= 28 si M2= 34.
Transpuse in forma poligonului frecventelor, ele arata astfel :
si se reprezinta grafic in forma unei curbe cu doua creste:
Se pune intrebarea ce semnificatie prezinta pentru cercetator aceste valori reprezentative ale colectrivului.
1. Media aritmetica este un indicator utilizat pentru variabile cantitative.
Ea indica valoarea centrala intr-un mod mai exact decat mediana sau modul, este mai usor de manipulat in calcule si prezinta fluctuatii mici pentru esantioane extrase din aceeasi populatie.
Media aritmetica se utilizeaza in special pentru distributii care pot fi considerate simetrice, caz in care cei trei indicatori mentionati coincid. Cercetatorul compara uneori cele trei valori reprezentative in vederea aprecierii structurii colectivului. Daca valorile celor trei indicatori sunt apropiate, simetria curbei este buna.
Exista insa dezavantajul ca media aritmetica poate fi influentata de even-tuale cazuri izolate de marime exceptionala, in plus sau in minus ( puncte extreme, izolate, la marginea curbei frecventelor : o performanta neobisnuit de buna sau de slaba. Unii cercetatori obisnuiesc, in aceasta situatie, sa elimine din calculul mediei aritmetice cateva cazuri de la cele doua margini ale sirului de masuri.
Pentru distributiile asimetrice, media,mediana si modul se organizeaza astfel :
asimetrie negativa - media> mediana > modul
asimetrie pozitiva - media< mediana< modul
In acest cazuri, tendinta centrala este cel mai bine indicata de mediana sau de mod.
Mediana ofera o caracterizare rapida a unei colectii de volum mare de valori ale unei variabile. Ea se va prefera mediei aritmetice, cand asimetria se manifesta prin existenta unor valori extreme, atipice, de o anumita parte a distributiei, situatie in care media aritmetica isi pierde calitatea de indicator al tendintei centrale, deoarece in calculul ei nu intervin toate valorile variabilei.
Considerand, de exemplu, sirul de date : 2, 3, 3, 4, 7, 9, 10, 11, 86 , observam ca valoarea 86 este mult mai mare decat restul valorilor. Este deci o valoare atipica pentru variabila respectiva. Facand media aritmetica = 15, se vede ca este o valoare ( 86) care este mai mare decat 7 din cele 8 valori al repartitiei. Rezulta o indicatie cu totul eronata asupra tendintei centrale, motiv pentru care este indicat sa se apeleze la mediana ca indicator al tendintei centrale.
Modul este un indicator de mai mica valoare practica, in sensul ca nu se preteaza la calcule matematice, indicand doar o aproximare bruta a tendintei centrale pentru un numar mare de subiecti.
In statistica matematica se mai folosesc si alte valori reprezentative ( medie geometrica, medie armonica, valoare potentiala etc. ), care insa nu sunt de uz curent.
5.2. Indicatori ai variatiei
In analiza sintetica a unei colectii de valori ale unei variabile, media (mediana sau modul) reprezinta, desigur, un indicator necesar nu insa si suficient. O analiza centrata numai pe medie este incompleta si poate conduce chiar la concluzii gresite. Din aceasta cauza, masurile elementelor unui colectiv ori masurile repetate asupra unui individ mai intereseaza si din punctul de vedere al organizarii lor in jurul valorii reprezentative, adica al distribuirii lor pe o scara de valori mai larga ori mai restransa, intre limite mai concentrate sau mai risipite fata de valoarea mijlocie.
De exemplu, pentru urmatoarele doua colectii de valori ( 10, 12, 15, 18, 20 ); ( 2, 8, 15, 22, 28 ), media are aceeasi valoare, 15. Cu toate acestea, ele sunt foarte diferite in ceea ce priveste variatia valorilor in jurul mediei, in sensul ca, in primul caz, abaterile de la medie sunt mult mai mici decat in cazul al doilea.
Tot astfel, nu este totuna daca aceeasi medie 7 a nivelului de invatare la un obiect este obtinuta de un elev din notele 6,7,8 sau din notele 5,7,9. In primul caz variabilitatea pregatirii elevului se intinde intre notele 6 si 8, departarea dintre ele 8 - 6 =2; in al doilea caz, risipirea notelor este mai mare, 9 - 5=4.
Din aceste motive, in analiza statistica indicarea tendintei notei centrale trbuie completata cu o caracterizare a modului in care valorile particulare ale variabilei se disperseaza in raport cu tendinta centrala.
In acest sens, cele mai utilizate masuri ale variatiei sunt amplitudinea, abaterea medie, varianta ( dispersia), abaterea standard.
Amplitudinea. Cea mai simpla valoare de distributie este amplitudinea (A) sau variatia posibila , adica diferenta dintre cele doua masuri limita intre care se insira masurile ordonate dupa marime ale colectivului cercetat.
Daca , in raport cu un anumit grup de subiecti, variabila X a luat valorile x1, x2, x3,.xs, atunci amplitudinea acestei colectii de valori este diferenta dintre cea mai mare si cea mai mica valoare :
Amplitudinea are aceleasi calitati si defecte ca si modul. Se utilizeaza, in general, numai pentru esantioane reduse ca volum. Pentru esantioane mai mari este insa o masura imprecisa. Intrucat A nu depinde de volumul esantionului, valorile calculate pentru esantioane de volum diferit nu pot fi direct comparate.
Abaterea medie. Alta masura a organizarii distributiei valorilor dintr-un colectiv este abaterea medie ( notata cu simbolul AM). I se spune "abatere" pentru ca se considera diferentele dintre masurile cazurilor ( x) si media aritmetica M. Pentru a designa acelasi concept, in uz mai circula si denumirile de "variatie medie" (dupa francezi) sau "deviatie medie" ( dupa englezi).
Consideram numerele a1, a2,.an ( prescurtat ai, unde i = 1, 2, 3, . n) si m media lor aritmetica, adica m =a1 + a2 +.a1)/n.
Pentru a caracteriza cantitativ variatia acestor numere in raport cu media lor, putem calcula diferentele :
a1 - m, a2 - m, a3 -m,.an- m.
Numarul ai - m se numeste abaterea valorii ai de la media grupului.
De exemplu, pentru numerele 2, 3, 6, 9, 10, 12, media aritmetica este 7, iar abaterile fata de medie sunt :
Constatam ca numerele situate sub medie au abaterile negative, iar numerele situate peste medie au abaterile pozitive.
Luand valorile lor absolute ( adica nu vom tine seama de semnul minus), obtinem : 5 ,4, 1, 2, 3, 6.
Prin urmare, abaterea medie a unui sir de numere a1, a2, a3,. an , avand media m, este media aritmetica a abaterilor acestor numere de la media grupului, abateri luate, desigur, in valoare absoluta.
Acum putem defini abaterea medie ca indicator al variatiei unei distributii de frecvente ( date negrupate) pentru o colectie de s valori ale unei variabile X, in cazul unui esantion de volum n ( un grup de n subiecti).
Avem tabloul de mai jos :
valoarea |
x1 x2 x3 ..xs |
frecventa valorii |
f1 f2 f3....fs |
Abaterea medie a distributiei mentionate este numarul :
,
unde X este media aritmetica a distributiei , iar n = f1 + f2 +. +fs .
Abaterea medie a unei distributii indica gradul de omogenitate al perfor-mantelor obtinute de subiectii unui grup, permitandu-ne sa facem diferenta intre doua grupuri care au obtinut medii egale.
Exemplificam cu scorurile obtinute de doua grupuri de cate 20 de elevi la aceeasi proba de control :
grupul A | |
Grupul B |
8, 7, 3, 7, 9, 7, 7, 5, 10, 7, 6, 8, 7, 8, 6, 8, 7, 6, 7, 5 |
Cele doua colectii de valori ale variabilei masurate prezinta urmatoarele repartitii de frecvente, pentru care obtinem medii egale, respectiv 6, 9 pentru grupul 1 si 6, 9 pentru grupul 2:
grupul A |
valori | |
frecvente | ||
grupul B |
valori | |
frecvente |
Calculand abaterile celor 8 valori ale variabilei de la mediile celor doua distributii obtinute, avem :
Abaterile medii ale celor doua distributii vor fi in acest caz :
Observam ca, desi cele doua grupuri (A,B ) au aceeasi medie si aceeasi amplitudine, abaterea medie indica o deosebire in structura interna a celor doua colective. Comparand abaterile medii, se constata ca grupul A contine mai multi elevi cu performante superioare sau inferioare, in timp ce grupul B este mai omogen decat grupul A din punctul de vedere al variabilei in discutie.
Varianta ( dispersia) si abaterea standard. Este cea mai importanta masura a variabilitatii din punct de vedere statistic matematic. Mai circula, pentru a denumi acelasi concept, termenul de origine franceza "abaterea etalon" si cel de origine engleza "deviatia standard".
Calculul abaterii-tip porneste tot de l diferenta ( x-M) dintre masurile individuale (x) si media aritmetica a lor (m).
Fie numerele a1, a2,.an ( prescurtat ai, unde i = 1, 2, 3, . n) si m media lor aritmetica, adica m =a1 + a2 +.a1)/n.
Abaterile acestor numere de la media grupului grupului sunt :
a1 - m, a2 - m, a3 -m,.an- m.
Dar, in loc de a considera valorile absolute ale acestor numere, asa cum am procedat pentru a calcula abaterea medie, vom considera patratele lor, adica :
(a1 - m)2, (a2 - m)2, (a3 -m)2,.(an- m)2.
Media aritmetica a patratelor abaterilor valorilor de la media grupului se numeste varianta (sau dispersia) sirului de numere (se noteaza cu s2):
Varianta este cea mai utilizata masura a variatie in analiya statistica. Ea se exprima in unitati care sunt patratele unitatilor originale.
Pentru a obtine o masura a variantei in aceleasi unitati ca cele originale, se considera radacina patrata a variantei, care se numeste abaterea standard ( se noteaza AS):
Varianta unei distributii de frecvente ( date negrupate) pentru o colectie de valori a variabilei X :
valori |
x1 x2 x3 . xn |
frecventele valorilor |
f1 f2 f3 . fs |
este media aritmetica a patratelor abaterilor valorilor de la media X a distributiei
unde f1+f2+.+fs= n este numarul de subiecti din grup.
Abaterea standard a unei distributii de frecvente ( date negrupate) este radacina patrata a variantei :
Daca avem o distributie pentru date grupate, varianta si abaterea standard se calculeaza dupa aceleasi formule, unde insa valorile x1, x2,.xn reprezinta acum punctele centrale ale intervalelor de grupare.
Valoarea variantei s2, calculata pentru un grup limitat de subiecti, poate fi considerata o estimare a variantei populatiei din care face parte acest grup de subiecti, care se noteaza cu.
Este de precizat ca aceasta estimare data de
nu este o estimare corecta, dat fiind ca are tendinta sistematica de a fi mai mica decat valoarea populatiei. Daca insa se inlocuieste n prin n-1, adica:
se obtine o estimare corecta, in sensul ca valoarea data de aceasta formula nu are o tendinta sistematica de a fi mai mare sau mai mica decat , fapt pentru care, in calcule, se prefera aceasta din urma formula.
Pentru calcularea abaterii standard a unei ditributii de frecvente cu date negrupate, se utilizeaza urmatoarea formula :
unde suma patratelor tuturor valorilor;
= patratul sumei tuturor valorilor;
n = numarul de subiecti din grup.
Explicam, in continuare, etapele procedeului de calcul bazat pe formula mentionata, calculand abaterea standard pentru urmatoarea distributie de frecvente, rezultata ca urmare a aplicarii unei probe de control la un numar de 115 subiecti:
valori | |
frecvente |
Se calculeaza suma tuturor valorilor scorului, inmultind fiecare valoare cu frecventa sa si adunand rezultatele :
Se calculeaza, in continuare, suma patratelor tuturor valorilor scorului, inmultind patratul din distributie cu frecventele corespunzatoare si adunand rezultatele :
Se calculeaza patratul rezultatului obtinut la (1) si se imparte aceasta valoare la numarul membrilor grupului.
Prin urmare :
Se scade valoarea obtinuta la (3) din valoarea obtinuta la (2), adica :
15742-14841,6 = 910,4
Se imparte valoarea obtinuta la (4) la n-1, adica: n-1= 115-1 = 114, deci:
care reprezinta valoarea variantei distributiei.
Se extrage radacina patrata din valoarea obtinuta la (5).
In cazul analizat, avem :
Calculele pot fi aranjate in forma unui tablou de genul :
Valori x |
frecventa f |
fx |
fx2 |
f= 115 |
|
|
In cazul distributiilor de frecvente pentru date grupate in intervale, se aplica acelasi procedeu de calcul, cu deosebirea ca se vor lua in considerare, de data aceasta, in locul valorilor variabilei, valorile centrale ale intervalelor de grupare.
Abaterea standard este cel mai stabil indice al variabilitatii, care, alaturi de medie, este intotdeauna prezenta in analiza statistica a performantelor obtinute de un esantion reprezentativ, insotind orice instrument de masura bine elaborat.
4.3. Corelatia statistica
Procedeele de descriere a datelor rezultate din situatii experimentale iau in considerare o singura variabila independenta.
Totusi, fenomenele educationale comporta, in general, mai multi factori, care actioneaza concomitent sau simultan, fiecare putand deveni o variabila independenta.
In aceste conditii, se pune problema relatiilor care se pot stabili intre factorii care actioneaza simultan.
In genere, in natura sau in lumea proceselor fizice, vorbim de relatii deterministe, in sensul ca un factor determina in mod univoc variatia altui factor, astfel ca unei valori a unui factor ii corespunde o singura valoare a celui de-al doilea factor.
In psihopedagogie insa, data fiind complexitatea fenomenelor, relatiile care se pot stabili intre variabile nu pot fi de tip strict determinist, ci au un caracter specific : la variatia unei variabile, cealalta raspunde cu schimbarea distributiei sau a mediei.
Legatura care se poate stabili intre colectiile de valori a doua sau mai multe variabile, obtinute prin aplicarea unor instrumente de masura aceluiasi grup de subiecti, se numeste corelatie statistica.
Corelatia statistica poate lua diferite forme.
Ne intereseaza, in continuare, corelatia dintre doua variabile ale unei cercetari experimentale:
1. Presupunem ca variabilele X,Z sunt rezultatele care se pot obtine la doua teste. In urma aplicarii acestor doua teste la un grup de 10 subiecti obtinem:
subiectul |
s1 s2 s3 s4 s5 s6 s7 s8 s9 s10 |
X | |
Y |
Se observa ca pentru orice subiect, performanta la proba a doua se obtine adunand 2 la performanta obtinuta la prima proba. Daca se va reprezenta pe axa Ox scorul unui subiect la primul test, iar pe axa Oy scorul aceluiasi subiect la al doilea test, atunci fiecarui subiect ii corespunde un punct in planul raportat la axele xOy.
Nu e greu de constat ca toate aceste puncte se afla pe o dreapta de ecuatie y= x+2. Spunem ca, in acest caz, intre variabilele X,Y exista o corelatie perfecta, care coincide cu relatia determinista (v. graficul de ai jos).
Aceasta este, desigur, situatia ideala.
2. Apar insa situatii in care se constata regularitati de felul urmator : un subiect care obtine o performanta superioara la un test obtine o performanta superioara si la al doilea test, tot astfel cum un subiect care obtine o performanta inferioara la primul test obtine acelasi fel de performanta si la al doilea test.
Daca grupul de 10 subiecti a obtinut rezultatele din tabelul urmator, reprezentarea grafica este alta ( v. mai jos).
subiectul |
s1 s2 s3 s4 s5 s6 s7 s8 s9 s10 |
X | |
Y |
Se observa ca punctele nu se mai aliniaza perfect pe o dreapta, dar au tendinta sa se grupeze in jurul unei drepte. Spunem ca intre variabilele X si Y exista, in acest caz, o corelatie pozitiva superioara.
3.Exista insa si situatii cand reprezentarea grafica ne conduce la multimi de puncte care au o tendinta slaba de a se grupa in jurul unei anumite drepte. Tabelul si reprezentarea grafica urmatoare sustin aceasta afirmatie.
subiectul |
s1 s2 s3 s4 s5 s6 s7 s8 s9 s10 |
X | |
Y |
Rezulta ca, de data aceasta, intre variabilele X,Y avem de-a face cu o corelatie pozitiva slaba.
4.Presupunem, de asemenea, ca 10 subiecti au obtinut la doua tste rezultatele:
subiectul |
s1 s2 s3 s4 s5 s6 s7 s8 s9 s10 |
X | |
Y |
E de observat ca valorile celor doua variabile sunt invers propor-tionale, conducand la o reprezentare grafica, in care punctele se aliniaza dupa o dreapta ( de ecuatie y= + 2x +24) ( v. mai jos), caz in care vorbim de o corelatie negativa perfecta. Desigur ca, asemenea corelatiilor pozitive, in concret nu intalnim, in genere, corelatii negative perfecte.
5. Exista insa si situatii in care subiectii care au realizat o performanta superioara la prima proba obtin o performanta inferioara la proba a doua si reciproc, fara ca perechile de valori astfel obtinute sa se alinieze perfect. Pot avea insa tendinta de a se grupa in jurul unei drepte, cand avem o corelatie negativa superioara ( v. mai jos).
subiectul |
s1 s2 s3 s4 s5 s6 s7 s8 s9 s10 |
X | |
Y |
53.1. Construirea unui tabel de corelatie
Studiul corelatiei presupune stabilirea anticipata a existentei unel legaturi intre doua variabile, care se sprijina pe informatii din sfera specifica cercetarii.
Pornim de la ideea ca trebuie sa verificam existenta unei corelatii intre doua variabile ( "memorarea de cuvinte" si " memorarea de imagini"), dispunand si de instrumentele necesare de masurare.
Scorurile obtinute de un subiect la cele doua variabile cu caracter aleatoriu, pe care l vom nota X,Z.
Aplicandu-se cele doua teste unui grup de 51 de subiecti, se obtin 51 de perechi de valori, respectiv :
(x1, y1); (x2, y2); (x3,y3);. (x51,y51).
Pentru a releva regularitatile din structura acestor date, vom proceda in felul urmator :
grupam datele in intervale, daca acest lucru se impune. In cazul dat, intervalul de grupare pentru ambele date are lungimea 3;
formam un tablou cu dubla intrare, pe axa orizontala inscriind valorile variabilei X ( sau intervalele de valori), in cazul de fata : 3 - 5, 6 - 8,..21 - 23, 24 -26, iar pe axa verticala valorile ( intervalele de valori) variabilei Y, in cazul de fata : 7-9, 10-12,.,
in celulele tabloului astfel format ( v. mai jos) se introduce numarul de subiecti ale caror scoruri se situeaza in intervalele care definesc celula respectiva. De exemplu, 5 subiecti pentru x cuprins in intervalul 9-11 si y cuprins in intervalul 16-18 etc.
Variabila Y |
Variabila X |
|||||||
A rezultat astfel un tablou de corelatie pentru cele doua variabile X,Y, numit ti diagrama de impristiere sau de distributie bidimensionala de frecvente.
5.3.2. Caracterizarea corelatiei dintre doua variabile
In cazul schemelor experimentale unde intervin doua variabile inde-pendente, pe care le presupunem in corelatie, se pun doua categorii de probleme :
gradul de legatura ( corelatie) dintre cele doua variabile;
forma corelatiei care se poate stabili intre ele.
Tehnicile corespunzatoare acestor probleme sunt determinarea coeficientului de corelatie si determinarea ecuatiei de regresie.
Statistica matematica ofera mai multe formule pentru calculul marimii corelatiei, pentru evaluarea , mai mare mare sau mai mica a , a gradului legaturii - coeficientul de corelatie.
Acest coeficient poate avea valori intre 0 (= legatura nula, nici un fel interdependenta) si 1 ( =legatura certa intre cele doua trasaturi, atitudini, randamente etc. paralele.
Valorile coeficientului de corelatie pot fi si negative : - 1 semnifica o interdependenta de tip contrar, cand o variabila creste, cealalta descreste.
Poate fi efectuata si o apreciere calitativa a marimii coeficientului : intre 0 si 0,4 se considera ca legatura este improbabila; intre 0,4 si 0,5 corelatia este slaba; intre o,5 si 0,7 interdependenta are valoare mijlocie; intre 0,7 si 0,8 corelatia este buna; intre 0,8 si 1 legatura este buna, oferind certitudinea unei relatii.
Dintre formulele de calcul al coeficientului de corelatie ( toate aproximative) pot fi luate in calcul cel putin doua : metoda produselor a lui Karl Pearson si metoda rangurilor a lui Charles Spearman.
1. Metoda produselor. Este una dintre cele mai cunoscute metode de calcul al coeficientului de corelatie, avand expresia:
unde :
suma produselor perechilor de valori;
suma valorilor variabilei X, respectiv Y;
suma patratelor valorilor variabilei X, respectiv Y.
Vom tine seama de faptul ca aceasta formula este functionala indeosebi atunci cand numarul subiectilor este mic ( n < 30).
Prezentam, cu titlu ilustrativ, etapele calculului, determinand coeficientul de corelatie pentru datele din tabloul de mai jos:
subiectul |
s1 s2 s3 s4 s5 s6 s7 s8 s9 s10 S11 s12 s13 s14 s15 s16 |
X |
9 4 6 7 8 8 8 5 5 10 7 9 6 8 9 7 |
Y |
8 5 6 7 9 7 9 6 7 9 7 8 8 9 9 6 |
Se calculeaza suma produselor perechilor de valori :
Se inmulteste numarul obtinut la (1) cu numarul de subiecti:
Se ridica la patrat valorile variabilei X si se aduna numerele rezultate:
Se inmulteste numarul obtinut la (3) cu numarul de subiecti :
Se calculeaza suma valorilor variabilei X:
Se ridica la patrat valoarea obtinuta la (5) :
Se ridica la patrat valorile variabilei Y si se aduna rezultatele:
Se inmulteste rezultatul de la (7) cu numarul de subiecti:
Se calculeaza suma valorilor variabilei Y:
Se ridica la patrat valoarea obtinuta la (9):
Se inmultesc numerele obtinute la (5) si la (9) :
Numaratorul fractiei care da coeficientul de corelatie se poate acum calcula, scazand rezultatul obtinut la ( 11) din rezultatul obtinut la (2):
Se scade rezultatul obtinut la (6) din rezultatul obtinut la (4) :
Se scade rezultatul obtinut la (10) din rezultatul obtinut la (8):
Se extrage radacina patrata din rezultatul obtinut la (13) si din rezultatul obtinut la (14) si se inmultesc cele doua valori:
; ; 20,39 .26,22 = 533,62;
Se calculeaya raportul dintre valoarea obtinuta la (12) si valoarea obtinuta la (15), care constituie coeficientul de corelatie :
Toate aceste calcule se pot aranja intr-un tabel de felul celui mai de jos:
subiectul |
val.var. X x |
val. var.Y y |
xy |
X2 |
Y2 |
s1 s2 s3 s4 s5 s6 s7 s8 s9 s10 s11 s12 s14 s15 s16 | |||||
|
|
|
|
|
Daca se intampla ca numarul subiectilor sa depaseasca 30, iar varia-bilele studiate au o amplitudine mare, procedeul de clacul descris anterior devine extrem de laborios. In aceasta situatie, se construieste un tabel de corelatie si se grupeaza datele in intervale.
2.Metoda rangurilor. O alt procedeu important de calcul al coeficientilor de corelatie il reprezinta metoda rangurilor propusa de statisticianul englez Charles Spearman, a carei expresie matematica este :
,
unde a1 un inseamna clasificarea ( rangul) unei valori x din sirul I, a2 este clasificarea ( rangul) unei valori y din sirul II, iar N este numarul tuturor cazurilor ( elemenetelor) colectivului.
Studiul corelatiei poate cuprinde chiar mai multe siruri de masuratori corespunzatoare. De exemplu, notele obtinute de elevi la mai multe discipline de invatamant sau, in psihologia pedagogica, rezultatele invederand mai multe trasaturi psihice ale subiectilor unui colectiv scolar ( atentie, memorie, nivel de intelegere etc.
In acest caz, analiza coeficientilor de corelatie pune in evidenta relatii intre resursele obiectelor de invatamant, intre unele discipline si trasaturi- aptitudini etc.,determinandu-se anumiti factori care stau la baza unor rezultate - randamente, caz in care se rcurge la metoda de analiza (multi)factoriala.
Scurte referinte bibliografice
Stoian, Stanciu, Cercetarea pedagogica, Buc., Ed. Pol.,1969.
Stoian, Stanciu, Sistemul metodelor de cercetare in pedagogie, in Revista de filozofie, nr.2/1965.
Beveridge,W., I., Arta cercetarii stiintifice, Ed.St.,Buc.,1968.
Sahleanu, Victor, Etica cercetarii stiintifice, Buc.,Ed.St., 1967.
Buyse, L'Expérimentation en pédagogie, Bruxelles, Lamwertin, 1935.
Landsheere, G. De l Introduction à la recherche pédagogique, Paris, A. Collin- Bourrelier,1966.
Cerghit, I., Etapele unei cercetari stiintifico- pedagogice, in Revista de pedagogie, nr.2/1989.
Dragan, I., Nicola,I., Cercetarea psihopedagogica, Editura TipoMur, TG-Mures, 1993.
Itelson, B. L., Metode matematice si cibernetice in pedagogie, Buc., EDP,1967.
Planchard, Emil, Cercetarea in pedagogie, EDP, 1972.
Vlasceanu, Lazar, Metodologia cercetarii pedagogice, in Probleme fundamentale ale pedagogiei, Buc., EDP, 1982.
Vlasceanu, Lazar, Decizie si inovatie in invatamant, Buc., EDP,1979.
Rosca, Al., Metode si tehnici experimentale in psihologie, EDP,1971
Radu, I., Introducere in psihologia experimentala si statistica, EDP, 1967.
Muster, D., Metoda statistica in psihologia si pedagogia experimentala, Buc., 1935.
Novak, A., Ghid statistic pentru cercetarile din educatie si invatamant, Editura Litera, Buc., 1968.
Muster, D., Metoda experimentala, metoda integrala de cercetare, in Fundamenta Pedagogiae, EDP,1970.
Muster, D., Prelucrarea statistica-matematica a datelor unei cercetari pedagogice, Oradea, 1979.
Dragan, I., Cercetarea psihopedagogica. Implicatii in elaborarea lucrarilor pentru gradul I, Timisoara, 1982.
Bunescu,V., Probleme ale cercetarii stiintifice in domeniul pedagogiei, in Revista de pedagogie, nr.10/1964.
Dumitrescu,T. Gh., Metode si tehnici matematice in pedagogie, EDP,Buc.,1969.
Radu, Ion (sub redactia)., Metodologie psihologica si analiza datelor, Ed. Sincron, 1993.
Novak, A, Metode statistice in pedagogice si psihologie, EDP, Buc. 1977;
Dumitrescu, Gh.T., Metode si tehnici matematice in pedagogie, EDP, 1969;
Onicescu, O. Si Stefanescu,V., Elemente de statistica informationala cu aplicatii, Editura tehnica,1979;
Smith, G.M., Ghid simplificat de statistica pentru psihologie si pedagogie, EDP, 1971;
Guilford, J.P., si Fruchter, B., Fundamental Statistics in Psychology and Education, McGraw-Hill, 1973.
Copyright © 2024 - Toate drepturile rezervate