Biologie | Chimie | Didactica | Fizica | Geografie | Informatica | |
Istorie | Literatura | Matematica | Psihologie |
ANALIZA SERIILOR DE REPARTITIE DE FRECVENTA
Continut:
1. Probleme generale ale seriilor de repartitie de frecventa
2. Indicatori de frecvente
3. Indicatori ai tendintei centrale
4. Indicatori ai variatiei
5. Indicatorii variatiei intr-o colectivitate impartita pe grupe. Regula adunarii dispersiilor.
Rezumat: Capitolul debuteaza prin prezentarea principalelor proprietati ale seriilor de repartitie: omogenitatea, variabilitatea, independenta variantelor, tendinta de repartitie, facand ulterior si o grupare a indicatorilor. sunt prezentati apoi indicatorii de frecvente, precum si indicatorii tendintei centrale. O deosebita importanta in studiul seriilor o au indicatorii variatiei, grupati in indicatori simpli si indicatori sintetici. O atentie deosebita le este acordata acestora din urma, insistandu-se asupra abaterii medii liniare, abaterii medii patratice, dispersiei si coeficientului de variatie. In final , in vederea intelegerii profunde a variatiei in cadrul seriilor este prezentata regula adunarii dispersiilor.
1. Probleme generale ale seriilor de repartitie de frecvente
Sistematizarea datelor observarii sub forma de serii de repartitie de frecventa se face pentru fiecare variabila atributiva, fie cantitativa, fie calitativa.
Principalele proprietati ale seriilor de repartitie sunt:
- omogenitatea;
- variabilitatea;
- independenta;
- tendinta de concentrare a frecventelor atasate valorilor inregistrate
Omogenitatea reprezinta faptul ca seriile au acelasi continut, fiind rezultatul combinarii acelorasi factori determinanti.
Variabilitatea deriva din faptul ca fenomenele de tip statistic sunt determinate nu numai de actiunile unor factori esentiali, ci si de combinarea acestora cu o serie de factori neesentiali.
Independenta variantelor seriei de distributie se bazeaza pe faptul ca variantele au fost inregistrate pentru unitati de observare existente, independente una fata de alta, chiar daca apartin aceleiasi colectivitati statistice.
Tendinta de concentrare a frecventelor atasate valorilor inregistrate ale unei serii statistice este rezultatul combinarii tuturor unitatilor observate; in cazul in care factorii de influenta au o intensitate relativ constanta in cadrul fiecarei unitati inregistrate, seria va prezenta o tendinta de repartitie uniforma a frecventelor, indicand un proces de diversificare relativ constanta a variantelor inregistrarii.
Indicatorii seriilor statistice se grupeaza in:
- indicatori de frecventa;
- indicatori ai tendintei centrale;
-indicatori ai mediilor de structura;
-indicatori de variatie;
- indicatori ai formei de repartitie.
2. Indicatori de frecventa
O serie de frecvente arata astfel:
|
Intervale de grupare |
Frecventele absolute |
Frecventele relative |
Frecventele absolute cumulate |
Frecventele relative cumulate |
|||||
|
Grupa 1 Grupa 2 Grupa I Grupa n |
|
|
|
|
|||||
TOTAL |
|
|
|
|||||||
Pentru a analiza structura seriei este necesar sa se calculeze frecventele relative dupa formula:
O alta modalitate de a caracteriza structura unei serii consta in calcularea frecventelor cumulate. Cumularea poate fi facuta fie pentru frecventele absolute cat si pentru frecventele relative.
Cumularea frecventelor, respectiv a greutatilor specifice ajuta pentru a evidentia care este numarul de unitati sau ponderea lor pana la valoarea absoluta sau relativa totalizatoare.
3. Indicatori ai tendintei centrale
Principalul indicator a tendintei centrale este media aritmetica. Pe langa ea, pentru caracterizarea unei serii de repartitie este necesar sa se calculeze valoarea mediana si valoarea modala.
Media simpla:
Media ponderata:
In primul caz, n reprezinta numarul termenilor seriei; in cazul al doilea n reprezinta numarul intervalelor de grupare.
Pentru cazul in care seriile sunt impartite pe intervale de variatie, valorile x luate in calcul sunt date de centrele de intervale, calculate ca medii aritmetice simple intre limitele de interval.
Media se exprima in aceleasi unitati de masura ca si valoarea variabilei statistice din care s-a calculat.
In analiza seriilor se pot utiliza si celelalte tipuri de medii: media armonica, patratica, geometrica.
Mediana - notata cu Me, este valoarea seriei, care o imparte pe aceasta in 2 parti egale.
Pentru seriile simple, daca numarul termenilor seriei este impar, atunci mediana este data de termenul de mijloc al seriei. Daca numarul termenilor seriei este par, mediana se va calcula ca medie aritmetica simpla a celor 2 termeni din mijloc ai seriei.
Aplicatia 1
Au fost inregistrate vanzarile lunare ale unei firme (V) pe o perioada de 15 luni (mil. lei):
V |
Pentru a se determina mediana este necesara ordonarea datelor seriei si stabilirea rangului fiecarui termen al seriei. De regula ordonarea se face crescator, dupa cum urmeaza:
V | |||||||||||||||
Rang |
Avand in vedere faptul ca volumul seriei de date este impar (15 valori), mediana va fi egala cu valoarea situata pe pozitia din mijloc, adica valoarea de rang 8:
Me = x8 = 15 mil. lei
Aplicatia 2
Au fost inregistrate vanzarile lunare ale aceleiasi firme (V) pe o perioada de 16 luni (mil. lei):
V |
Se ordoneaza crescator datele :
V | ||||||||||||||||
Rang |
Avand in vedere faptul ca volumul seriei de date este par de aceasta data, mediana va fi egala cu media aritmetica simpla a valorilor situate pe pozitiile din mijloc, adica celor de rang 8, respectiv 9:
Me = 15,5 mil. lei
Pentru date grupate pe intervale de frecventa, calculul medianei presupune parcurgerea urmatoarelor etape:
Me unde:
- locul medianei. Pentru ∑ fi > 500 se renunta la +1.
x0 - limita inferioara a intervalului median
- lungimea intervalului median
- suma frecventelor anterioare frecventei cumulate
- frecventa mediana.
Aplicatia 3
Se iau in considerare datele grupate pe intervale de frecventa din tabelul de mai jos:
Grupe de unitati comerciale dupa valoarea vanzarilor realizate (xi) |
Nr. unitati (fi) |
Vanzari totale (mil. lei) |
sub 30 | ||
peste 40 | ||
Total |
Pentru calculul medianei vom parcurge etapele enuntate mai sus:
1. UMe= = = 50,5 mil. lei
2. fiC : f1 = 16
f1 +f2 = 16+26 = 42
f1 +f2 + f3 = 42 +25 = 67 > 50,5
3. fMe = 25
Me (32-34)
fiCa = 42
x0 = 32
h = 34 -32 = 2
4. Me = 32 + = 32,68 mil. lei
Mediana prezinta avantajul ca este mai putin dependenta de intervalele de grupare si de forma de repartitie in comparatie cu media, fiind mai utila atunci cand datele sunt prezentate intr-o forma in care calculul mediei este afectat de inchiderea conventionala a intervalelor deschise.
Pentru o mai buna cunoastere a structurii unei repartitii continue de date, se pot folosi si alte valori de pozitie, cum sunt quantilele, care se obtin prin extinderea notiunii de mediana.
Quantilele, similar medianei, sunt marimi de pozitie reprezentate de valori ale caracteristicii care impart seria in q grupe de dimensiuni egale. Constanta q defineste ordinul quantilelor. Astfel, mediana este quantila de ordinul 2, deoarece imparte seria de date in doua grupe egale. Quantilele de ordinul 4 sunt cele care impart seria de date in patru grupe egale si poarta numele de quartile.
Quartilele sunt in numar de trei, notate de obicei Q1, Q2, Q3 . Quartila mijlocie (Q2) este chiar mediana, iar celelalte doua se determina tot prin interpolare.
Q1
Q3
Aplicatia 4
Se considera informatiile cu privire la gruparea a 160 de firme dupa cifra anuala de afaceri. Datele sunt prezentate in tabelul urmator:
Grupe de firme dupa cifra de afaceri (xi) |
Numar de firme (fi) |
Frecventa cumulata crescator (fiC) |
TOTAL |
Obs: limita inferioara inclusa in interval
Sa se calculeze quartila de ordinul 1 si cea de ordinul 3.
loc Q1 = = = 40 firme
fiC : f1 = 15
f1 +f2 = 45 > 40
fQ1 = 30
Q1 Є (16-22)
X0 = 16
h = 6
Q1 = 16 + 6 = 21 mil. lei
= = 121 firme
fiC : f1 = 15
f1 +f2 = 45
f1 +f2 + f3 = 85
f1 +f2 + f3 + f4 = 135 > 121
fQ3 = 50
Q3 Є (28-34)
X0 = 28
h = 6
Q3 = 28 + 6 = 32,32 mil. lei
In mod asemanator se determina si celelalte categorii de quantile, si anume, decilele, care impart seria de date in zece grupe egale, centilele, care impart seria in o suta de grupe egale si promilele, care impart seria in o mie de parti egale.
Modul - notat cu "Mo", exprima dominanta sau valoarea tipica a seriei, deci prin definitie este acea valoare care corespunde frecventei celei mai mari.
La seriile de valori individuale, determinarea modului este imediata prin examinarea termenilor seriei.
In cazul seriilor cu grupare pe intervale este mai corect sa vorbim de un "interval modal" sau un "interval dominant".
Formula de calcul:
unde: x0 - limita inferioara a intervalului modal
h - lungimea intervalului modal
- diferenta dintre frecventa modala si frecventa anterioara modalei.
- diferenta dintre frecventa modala si frecventa succesoare modalei.
Aplicabilitate: valoarea modala poate inlocui media atunci cand cea in cauza nu se poate calcula sau nu are sens a fi calculata ca de exemplu: talia medie in industria confectiilor, numarul mediu la incaltaminte etc. In acest caz, se stabilesc ca valori modale, talia cea mai des solicitata, numarul la pantofi cel mai cautat. De asemenea modul este util cand seria de repartitie este asimetrica. Mediana si modul se exprima in aceleasi unitati de masura ca si variabila studiata, iar dupa marimea abaterilor dintre ele se poate aprecia forma de repartitie a frecventelor in seria analizata.
Aplicatia 5
Distributia a 50 unitati de alimentatie dupa volumul incasarilor zilnice se prezinta astfel:
Grupe de unitati dupa incasarile zilnice (mii lei) |
Numar de unitati (fi) |
Centrul de interval (xi) |
Numar de unitati cumulate crescator (fiC) |
TOTAL |
|
fMo = 17
Mo Є (600-650)
X0 = 600
h = 650 - 600 = 50
= 17 - 12 = 5
= 17 - 8 = 9
Mo = 600 + 50 = 617, 85 mii lei
4. Indicatori ai variatiei
Media nu este o valoare reprezentativa decat pentru cazul in care este calculata din marimi omogene, cu un grad variatie cat mai redus.
Pentru verificarea gradului de omogenitate al caracteristicilor pentru care se determina media, este necesar sa se calculeze indicatorii de variatie, de asimetrie, si de exces.
Indicatorii variatiei se impart in: indicatori simpli si indicatori sintetici.
1. Indicatorii simpli ai variatiei.
Sunt utilizati pentru a caracteriza gradul de imprastiere a unitatilor purtatoare a caracteristicilor studiate.
Se pot exprima in marimi absolute, dar si in marimi relative sau procente.
a) Amplitudinea absoluta a variatiei (A) se calculeaza ca diferenta intre nivelul maxim si nivelul minim al caracteristici
b) Amplitudinea relativa a variatiei (A%) se exprima in procente ti se determina ca raport intre amplitudinea absoluta si valoarea medie a caracteristicii
c) Abaterile individuale absolute (di) se calculeaza ca diferenta intre fiecare varianta inregistrata si media aritmetica a variantelor.
d) Abaterile individuale relative () se calculeaza ca raport intre abaterile individuale absolute si valoarea medie .
In analiza variatiei intereseaza in mod special abaterile maxime intr-un sens sau altul:
- in marimi absolute
- in marimi relative:
2. Indicatorii sintetici ai variatiei.
Se utilizeaza pentru a sintetiza intr-o singura expresie numerica intreaga variatie a unei caracteristici scop in care statistica recurge tot la valoarea medie calculata din abaterile individuale ale variantelor la media lor.
In practica se calculeaza numaratorii indicatorilor sintetici:
a) Abaterea medie liniara - se calculeaza ca o medie aritmetica simpla sau ponderata din abaterile termenilor serie de la media lor, in valoare absoluta.
- pentru o serie simpla:
- pentru o serie cu frecvente absolute:
b) Abaterea medie patratica numita si abatere medie tip sau abatere standard, se calculeaza ca o medie patratica din abaterile tuturor variantelor serie de la media lor aritmetica.
- pentru o serie simpla
- pentru o serie cu frecvente absolute:
c) Dispersia este un indicator sintetic al variatiei extrem de important, deoarece cumuleaza gradul de imprastiere al valorilor seriei fata de media lor.
- pentru o serie simpla:
- pentru o serie cu frecvente absolute:
d) Coeficientul de variatie se calculeaza ca raport intre abaterea medie patratica si nivelul mediu al seriei. Se exprima procentual.
Daca avem la dispozitie doar abaterea medie liniara, coeficientul de variatie poate fi calculat si pe baza ei:
Coeficientul de variatie poate lua valori intre 0 si 100 %.
Se apreciaza ca o serie este omogena daca valoarea acestui coeficient in valoare absoluta nu depaseste 35%. In caz contrar se apreciaza ca media nu mai este reprezentata deci seria este eterogena, singura modalitate de crestere a omogenitatii fiind refacerea impartirii pe grupe.
Aplicatia 6
Despre un esantion de unitati comerciale se cunosc datele:
Grupe de unitati comerciale dupa valoarea vanzarilor realizate (mii lei) |
Nr. Unitati (fi) |
Vanzari Totale (mil. lei) |
|
|
|
|
|
sub 30 | |||||||
peste 40 | |||||||
Total |
Sa se calculeze indicatorii simpli si sintetici ai variatiei.
1) Indicatori simpli ai variatiei
a) Amplitudinea
mil. lei
b) Abaterea individuala absoluta
mil. lei
2) Indicatorii sintetici ai variatiei
a) Abaterea medie liniara
mil. lei
b) Abaterea medie patratica
mil. lei
c) Dispersia
mil. lei
d) Coeficientul de variatie
d1) In functie de abaterea medie liniara
d2) In functie de abaterea medie patratica
5. Indicatorii variatiei Intr-o colectivitate impartita pe grupe. Regula adunarii dispersiilor
Intre indicatorii de variatie calculati la nivelul fiecarei grupe si cei pe intreaga colectivitate exista anumite relatii, bazate pe regula adunarii dispersiilor.
Se pot calcula urmatoarele dispersii:
Dispersia de grupa sau dispersia partiala - se calculeaza ca o medie aritmetica ponderata a patratelor abaterilor variantelor caracteristicii de la media grupei, folosind relatia:
Media dispersiilor de grupa - se calculeaza ca o medie aritmetica a dispersiilor partiale.
Dispersia dintre grupe - se calculeaza ca o medie aritmetica ponderata a patratelor abaterilor mediilor de grupa fata de media colectivitatii generale:
Dispersia totala (generala) - se calculeaza ca o medie aritmetica ponderata a patratelor abaterilor termenilor fata de media totala:
Avand in vedere continutul dispersiilor calculate, se popate obtine regula de adunare a dispersiilor:
Pe baza regulii de adunare a dispersiilor se pot calcula si alti indicatori care folosesc la analiza seriilor statistice de distributie multidimensionale. Astfel, se poate calcula coeficientul de determinatie si cel de nedeterminatie:
Coeficientul de determinatie:
arata care este ponderea factorului principal de grupare in variatia totala a caracteristicii.
Coeficientul de nedeterminatie
arata care este ponderea factorilor intamplatori in variatia totala a caracteristicii.
Suma celor 2 coeficienti este 1 sau 100 %.
Regula de adunare a dispersiilor mai este utila pentru a calcula o dispersie cand se cunosc celelalte doua. De asemenea, in teoria selectiei, calculul erorii medii pe tipuri de selectie se bazeaza, din punct de vedere al continutului, pe regula de adunare a dispersiilor.
Aplicatia 7
O agentie de inchiriat autoturisme hotaraste sa-si vanda autoturismele dupa utilizarea acestora timp de un an. Managerul firmei presupune ca distanta parcursa de masini influenteaza costul de intretinere al autovehiculelor si deci pretul de vanzare al acestora. Pentru a verifica aceasta presupunere, se inregistreaza pentru 200 de masini distanta parcursa in ultimul an (mii km) si costul de intretinere al acestora (in sute mii lei). Se alcatuiesc 4 grupe dupa distanta parcursa.
Grupe dupa distanta parcursa |
Cost de intretinere |
Total |
|||
Stiind ca:
pentru grupa a 3-a (60-80 mii km) s-au inregistrat date pentru 40 de autovehicule, costul mediu de intretinere fiind de 1.040.000 lei, cu un coeficient de variatie de 11,538 %;
pentru grupa a 4-a (80-100 mii km), ce cuprinde 10 % din autovehicule, cheltuielile totale de intretinere au fost de 264 sute mii lei, iar abaterea standard de 0,98 sute mii lei, se cere:
a) Sa se masoare influenta distantei parcurse asupra variatiei cheltuielilor de intretinere, utilizand coeficientul de determinatie si cel de nedeterminatie;
b) Sa se arate daca valoarea medie a cheltuielilor pentru cele 200 de autovehicule este o valoare reprezentativa.
a) Notam cu:
xi - distanta parcursa;
yj - costul de intretinere.
Grupa 1 (20 - 40 mii km)
Cost de intretinere |
|
|
|
|
|
||||
|
||||
|
||||
Total |
sute mii lei
Grupa 2 (40 - 60 mii km)
Cost de intretinere |
(%) |
|
(% ) |
(%) |
|
||||
|
||||
|
||||
|
||||
Total |
sute mii lei
Grupa 3 (60 - 80 mii km)
sute mii lei
%
Grupa 4 (80 - 100 mii km)
sute mii lei
Media dispersiilor de grupa
Dispersia dintre grupe
Media intregii colectivitati de autoturisme poate fi calculata ca medie a mediilor partiale:
Din regula de adunare a dispersiilor rezulta:
Coeficientul de determinatie:
Coeficientul de nedeterminatie:
48,15 % din variatia caracteristicii y (costul de intretinere) este influentata de distanta parcursa.
b) Pentru a stabili daca valoarea medie a cheltuielilor este o valoare reprezentativa, calculam coeficientul de variatie.
Deoarece V < 35 %, rezulta ca, cheltuielile de intretinere pentru cele 200 de autoturisme constituie o valoare reprezentativa.
Copyright © 2024 - Toate drepturile rezervate
Statistica | |||
|
|||
| |||
| |||
|
|||