Biologie | Chimie | Didactica | Fizica | Geografie | Informatica | |
Istorie | Literatura | Matematica | Psihologie |
DESCRIEREA STATISTICA A VARIATIEI
Desi suntem acum in masura, cu ajutorul indicatorilor prezentati, sa descriem tendinta centrala a valorilor observate statistic, sunt necesare si alte tipuri de descrieri ale seriilor de valori obtinute, pentru completarea tabloului descriptiv al acestora.
Astfel, nu este suficienta descrierea statistica a unei colectivitati studiate doar cu ajutorul mediei, medianei si modului, intrucat pot exista serii de valori diferite care sa aiba toti cei trei indicatori identici, ridicandu-se intrebarea cum s-ar putea exprima sintetic diferentele care exista totusi intre aceste serii.
Exemplu:
Sa presupunem, de exemplu, doua retele de magazine concurente, A si B, fiecare cu cate 7 magazine, pentru care, in anul 1999, s-au inregistrat cifrele de afaceri din tabelul 5.1.
Calculam cei trei indicatori ai tendintei centrale pentru fiecare dintre cele doua retele:
(rezultate in urma ordonarii crescatoare a valorilor);
(cifra de afaceri cu frecventa cea mai mare).
Prin ce anume difera totusi, intr-o expresie sintetica, cele doua serii de valori?
Raspunsul se va concretiza pe parcursul celor ce urmeaza. Pentru a va ajuta in intuirea importantei studiului variatiei, in figura 5.1. am prezentat grafic 2 perechi de distributii statistice, comparabile din punctul de vedere al variatiei.
Tabelul 5.1.
Cifrele de afaceri ale magazinelor din retea in mil. lei |
Total |
|||||||
Reteaua de magazine A | ||||||||
Reteaua de magazine B |
Figura
Statisticile de variatie raspund unor probleme ca:
verificarea reprezentativitatii mediei ca valoare tipica a unei serii de distributie;
verificarea gradului de omogenitate al seriei;
verificarea sistematizarii corespunzatoare a informatiilor prin gruparea statistica utilizata;
caracterizarea gradului si a formei de variatie a unei variabile statistice;
cunoasterea gradului de influenta a factorilor/cauzelor dupa care s-a facut gruparea unitatilor statistice, fiind posibile astfel, evidentierea actiunii cauzelor esentiale si separarea acesteia de actiunea cauzelor intamplatoare;
caracterizarea gradului si a formei de variatie in cadrul fiecarei grupe de unitati statistice si calculul statisticilor de variatie dintre grupe.
Statisticile simple ale variatiei
Statisticile simple ale variatiei sunt usor de calculat si ele dau primele informatii cu privire la gradul de imprastiere a valorilor inregistrate.
Amplitudinea unei serii de observatii este diferenta numerica intre cea mai mare si cea mai mica valoare observata, ale seriei respective. Amplitudinea se poate calcula sub forma absoluta sau sub forma relativa.
Amplitudinea absoluta a variatiei
Amplitudinea absoluta a variatiei se determina ca diferenta absoluta intre cea mai mare si cea mai mica valoare observata:
A = Xsup - Xinf
Dezavantajul acestei statistici il reprezinta, ca si in cazul mediei aritmetice, sensibilitatea ei prea mare la valorile extreme aberante. Ca atare, amplitudinea este reprezentativa, ca si statistica a variatiei, doar pentru seriile ale caror valori sunt repartizate aproximativ uniform. Astfel, singura serie din figura 5.2., pentru care are relevanta calculul amplitudinii, ca si statistica a variatiei, este seria A.
Aceasta statistica se exprima prin aceeasi unitate de masura ca si variabila analizata.
Din aceasta cauza, utilizarea ei pentru comparatii se face numai pentru variabile exprimate in unitati de masura identice.
Eliminarea acestui inconvenient se poate asigura prin calculul amplitudinii relative a variatiei.
Figura
Amplitudinea relativa a variatiei (A %)
Amplitudinea relativa a variatiei se obtine prin raportarea amplitudinii absolute la media aritmetica a valorilor inregistrate:
Amplitudinea relativa se poate folosi pentru comparatii intre populatii statistice studiate dupa variabile de grupare exprimate in unitati de masura diferite.
Nici aceasta statistica nu ofera insa posibilitatea cunoasterii structurii interioare a populatiei statistice.
Amplitudinea variatiei se foloseste pentru alegerea numarului de grupe si a marimii intervalului de grupare.
Pentru o distributie de frecvente pe intervale, amplitudinea se calculeaza ca diferenta intre limita maxima a intervalului superior si limita minima a intervalului inferior.
Se pot calcula abateri ale valorilor individuale fata de medie sau fata de mediana. Aceste abateri pot lua, de asemenea, forma abaterilor absolute si a abaterilor relative.
Abaterile individuale absolute.
Sunt abaterile, in cifre absolute, ale valorilor individuale fata de medie sau fata de mediana:
respectiv,
In practica, se calculeaza, in special, abaterile individuale maxime, intr-un sens sau altul:
respectiv,
Abaterile individuale relative
Se calculeaza prin raportarea abaterilor individuale absolute la medie sau la mediana:
respectiv,
Statisticile sintetice ale variatiei
Statisticile sintetice ale variatiei ofera informatii privind variatia la nivelul intregii populatii statistice.
Statisticile sintetice ale variatiei sunt:
abaterea medie liniara:
varianta sau dispersia:
abaterea medie patratica, cunoscuta sub denumirea de abatere standard:
coeficientul de variatie.
Abaterea medie liniara este media abaterilor individuale absolute fata de media aritmetica:
In cazul distributiilor de frecvente, abaterea medie liniara se calculeaza cu ajutorul relatiei:
unde:
(D) reprezinta abaterea medie liniara;
F = frecvente absolute inregistrate;
R = frecvente relative inregistrate.
Este posibil ca pentru anumite serii de valori, sa prezinte interes calculul abaterii medii liniare fata de mediana.
Pentru seriile de distributie pe intervale, in calculul abaterii medii liniare se iau in considerare centrele intervalelor.
Principalele neajunsuri ale abaterii medii liniare sunt:
acorda importanta egala abaterilor mici si abaterilor mari, fiind astfel influentata prea puternic de valorile extreme aberante;
nu tine seama de semnul algebric al abaterilor individuale;
este reprezentativa doar pentru serii cu un grad mare de omogenitate.
Unele din neajunsurile abaterii medii liniare sunt eliminate cu ajutorul altui indicator sintetic de variatie: dispersia sau varianta.
Calculul variantei
Varianta este o statistica de variatie mult mai sintetica si utila decat statisticile de variatie abordate pana acum. Varianta sau dispersia este media aritmetica a patratelor abaterilor individuale absolute fata de media aritmetica. Ea se noteaza cu 2 iar relatiile ei de calcul sunt prezentate in tabelul 5.2.
Tabelul
pentru serii cu variabile simple (negrupate) |
pentru distributii de frecvente |
|
|
D reprezinta abaterile individuale fata de media aritmetica, ; F = frecventele absolute ale variantelor unei variabile grupate; R = frecventele relative ale variantelor unei variabile grupate. |
Proprietati ale variantei
Cele mai importante proprietati ale variantei sunt:
pentru o serie cu toate valorile egale, varianta este nula;
pentru orice variabila X, varianta este egala cu diferenta dintre media aritmetica a patratelor valorilor inregistrate de variabila X si patratul mediei aritmetice a variabilei X:
daca se adauga sau se scade o constanta la fiecare valoare inregistrata de o variabila X, varianta sa nu se modifica (vezi figura 5.3.). Aceasta proprietate deriva din proprietatea anterioara si din proprietatile mediei aritmetice:
unde a este o constanta;
daca fiecare valoare individuala a unei serii se multiplica sau se imparte cu o constanta, atunci varianta se multiplica sau se micsoreaza cu patratul acelei constante (vezi figura 5.3.):
unde a este o constanta.
Figura
Exemplu:
Sa consideram doua populatii statistice mici, fiecare cu cate 7 unitati, pentru care s-au inregistrat urmatoarele valori individuale:
A: 7, 8, 9, 10, 11, 12, 13
B: 1, 4, 7, 10, 13, 16, 19
Media aritmetica a ambelor populatii este 10. Valorile individuale ale celor doua populatii sunt reprezentate pe axe orizontale, in figura 5.4.
Asa cum se observa si in figura 5.4., valorile populatiei B sunt mult mai dispersate fata de medie decat valorile populatiei A. O prima masura a variatiei fata de medie ne-o ofera abaterile individuale, reprezentate prin linii cu sageti.
Variantele, pentru cele doua populatii, sunt:
Figura
Deoarece abaterile individuale ale populatiei B sunt de 3 ori mai mari decat abaterile individuale ale populatiei A, varianta populatiei B din urma este de 32 ori mai mare decat dispersia populatiei A.
pentru doua constante a si b, relatia de calcul a variantei devine:
daca fiecare frecventa absoluta sau relativa a unei serii de frecvente, se multiplica sau se imparte cu o constanta, atunci varianta nu se modifica;
pentru seriile de distributii pe intervale, ca si in cazul mediei, cu cat intervalele sunt mai largi, cu atat varianta este mai putin semnificativa;
in cazul variabilelor alternative, pentru calculul variantei se foloseste relatia:
unde p reprezinta ponderea sau greutatea specifica a unitatilor pentru care se inregistreaza varianta in forma directa (de tip DA).
pentru distributiile pe intervale, deoarece in calcul se iau centrele de interval, varianta calculata este una aproximativa si nu exacta;
varianta, ca si media aritmetica, este sensibila la valorile aberante;
varianta este un indicator abstract, care arata in ce masura valorile variabilei graviteaza in jurul mediei. Este de mentionat insa ca acest indicator este util in calculul altor statistici necesare in verificarea de ipoteze statistice, in inferentierea statistica etc.;
pentru o serie impartita pe grupe, se poate verifica regula de adunare a variantelor: varianta la nivelul intregii serii este egala cu suma dintre media aritmetica a variantelor partiale (la nivelul grupelor) si varianta intre grupe (varianta mediilor aritmetice partiale ale grupelor fata de media aritmetica generala a seriei). Pentru intelegerea acestei proprietati importante, este util exemplul care urmeaza.
Exemplu privind regula de adunare a dispersiilor, pentru serii grupate:
Sa consideram seria de date din tabelul 5.3., privind salariile personalului unei firme cu doua filiale.
Varianta generala a salariilor este:
Media variantelor partiale se calculeaza ca o medie aritmetica ponderata a acestora:
Varianta dintre grupe (variatia mediilor partiale ale grupelor fata de media intregii colectivitati este):
Se verifica regula de adunare a variantelor:
Tabelul
Categorii de personal |
Filiala 1 |
Filiala 2 |
Date globale |
|||
Frec-vente F1 |
Salariul mediu - mii lei (1) |
Frec-vente F2 |
Salariul mediu - mii lei (2) |
Frec-vente F1+2 |
Salariul mediu - mii lei (1+2) |
|
Muncitori | ||||||
Personal operativ cu studii supe-rioare | ||||||
Cadre de condu-cere | ||||||
Total |
Calculul abaterii standard
Abaterea medie patratica, numita si abaterea standard, este media patratica a abaterilor valorilor unei serii fata de media aritmetica a acestora.
Abaterea medie patratica este radacina patratica a variantei:
Exemplu:
Sa presupunem ca 5 experti acorda note de la 1 la 7 pentru calitatea a doua produse, conform tabelului 5.4.
Tabelul
produsul |
seria notelor acor-date |
media arit-metica |
abaterea individuala |
abaterea medie liniara |
patratul abaterii individuale |
dispersia s |
abaterea medie patratica s |
A | |||||||
B |
Calculul abaterii standard pentru datele din exemplul nostru sunt realizate direct in tabelul 5.4.
Proprietati ale abaterii standard
abaterea standard se exprima in unitatea de masura in care se exprima si variantele variabilei studiate, motiv pentru care nu poate fi folosita pentru comparatia variatiei a doua populatii studiate dupa variabile exprimate in unitati de masura diferite. O statistica prin care se inlatura acest neajuns este coeficientul de variatie;
se poate verifica faptul ca abaterea medie patratica este mai mare decat abaterea medie liniara (proprietatea derivata din relatia de marime dintre media aritmetica si media patratica);
abaterea standard se foloseste in calculele de corelatie si in inferentierea statistica (la estimarea erorilor de sondaj, la verificarea semnificatiei anumitor indicatori statistici etc.);
si in cazul abaterii medii patratice se pastreaza neajunsul sensibilitatii prea mari la valorile aberante;
de asemenea, nu se pot compara, din punctul de vedere al abaterii medii patratice, doua populatii ale caror valori au ordine de marime diferite, rezultatul comparatiei fiind unul deformat;
abaterea standard se foloseste si pentru alcatuirea de intervale ale populatiei statistice studiate, intervale centrate in jurul mediei si care au o semnificatie utila in inferentierea statistica. Asemenea intervale sunt, de exemplu; ( + 2 etc.
Este o statistica de variatie propusa de Karl Pearson, care raspunde necesitatii de comparatie, din punctul de vedere al variatiei, dintre doua sau mai multe populatii statistice.
Coeficientul de variatie se calculeaza ca raport intre abaterea standard si media aritmetica a colectivitatii statistice studiate:
De regula, coeficientul de variatie se exprima in procente:
Exemplu:
Sa consideram datele din tabelul 5.5., referitoare vanzarea a doua produse diferite A si B, pe o anumita piata, intr-o perioada de 5 luni de zile.
Tabelul
luna |
Total |
|||||
produsul A - tone | ||||||
produsul B - mil. lei |
Calculam media aritmetica pentru cele doua produse:
pentru produsul A: A = 41/5 = 8,2 tone;
pentru produsul B: B = 47/5 = 9,4 mil. lei.
Parametrii de variatie pentru cele doua produse sunt calculati in tabelul 5.6.
Tabelul
produ-sul |
seria datelor privind vanza-rea |
media arit-metica |
abaterea individuala absoluta |
abaterea medie liniara |
patratul abaterii individuale |
varianta s |
abaterea medie patratica s |
A | |||||||
| |||||||
Total | |||||||
B | |||||||
Total |
Cu indicatorii astfel calculati nu putem face comparatia intre cele doua produse, deoarece unitatile lor de masura sunt diferite (vezi tabelul 5.5.).
Ca atare, procedam la calculul coeficientilor de variatie pentru cele doua produse:
pentru produsul A: V(A)% = (3,124/8,2) x 100 = 38,09%;
pentru produsul B: V(B)% = (4,1279/9,4) x 100 = 43,91%.
Coeficientul de variatie este mai bun pentru primul produs, fiind mai mic.
Alegerea parametrilor de variatie se face, pentru orice tip de serie, in functie de tipul variabilei supuse analizei:
a). daca variabila este nominala/calitativa, caracterizarea variatiei seriei de valori nu are sens:
b). daca variabila este o variabila de ordine (ale caror valori sunt note de importanta, cum este de exemplu calitatea avand ca si variante: calitatea I, calitatea II, calitatea III etc.) variatia se caracterizeaza cu ajutorul intervalelor intercuantilice: Q1 - Q 3 (interval intercuartilic); Q1 - Q9 (interval interdecilic): Q1 - Q99 (interval interpercentilic) etc.;
c). pentru seriile numerice/cantitative se apeleaza la varianta, abaterea standard sau coeficientul de variatie, in functie de scopul analizei:
d). pentru serii care contin valori aberante sunt de asemenea de preferat intervalele intercuantilice.
Media si dispersia sunt cazuri particulare de valori care fac parte din momentele unei serii statistice.
Se numeste moment de ordinul p in raport cu un parametru cunoscut a, valoarea:
unde;
X sunt valorile individuale ale variabilei studiate;
F = frecventele absolute.
Momentele de ordinul p, cu parametrul a = 0 se numesc momente necentrate, iar momentele de ordinul p, cu parametrul a = (X) se numesc momente centrate.
Se observa ca momentul necentrat de ordinul 1 este chiar media aritmetica, iar momentul centrat de ordinul 2 este chiar varianta.
Covarianta este varianta simultana a doua variabile:
Pentru doua variabile identice, covarianta este identica cu varianta:
Proprietati ale covariantei
covarianta poate lua atat valori pozitive, cat si valori negative. Covarianta este pozitiva atunci cand predomina tendinta de variatie in acelasi sens pentru cele doua variabile, ceea ce face ca suma produselor abaterilor individuale ale lor sa fie pozitiva. Covarianta este negativa atunci cand predomina tendinta de variatie in sensuri opuse pentru cele doua variabile, ceea ce face ca suma produselor abaterilor individuale ale lor sa fie negativa;
covarianta unei variabile X cu o variabila constanta este nula:
unde a este o variabila constanta;
covarianta este comutativa:
unde X, Y sunt variabile statistice;
DX = abaterile individuale ale valorilor variabilei X;
DY = abaterile individuale ale valorilor variabilei Y;
pentru doua variabile X si Y, covarianta este egala cu diferenta dintre media aritmetica a produselor valorilor simultane ale variabilelor si produsul mediilor aritmetice ale valorilor simultane ale variabilelor:
covarianta este distributiva in raport cu adunarea sau scaderea variabilelor:
unde X, Y si Z sunt variabile statistice;
adaugarea sau scaderea unei constante la toate valorile inregistrate de o variabila X nu determina modificarea covariantei sale cu o variabila Y:
unde a reprezinta o constanta;
multiplicarea sau impartirea cu o constanta a tuturor valorilor inregistrate de o variabila X determina multiplicarea sau impartirea cu aceeasi constanta a covariantei sale cu o variabila Y:
unde a reprezinta o constanta;
prin raportarea ei la produsul abaterilor standard inregistrate pentru doua variabile X si Y, covarianta este utila in masurarea corelatiei statistice dintre acestea:
Copyright © 2025 - Toate drepturile rezervate
Statistica | |||
|
|||
| |||
| |||
|
|||