Biologie | Chimie | Didactica | Fizica | Geografie | Informatica | |
Istorie | Literatura | Matematica | Psihologie |
PRELUCRAREA PRIMARA A DATELOR
1. Continutul prelucrarii datelor statistice
Datele statistice inregistrate, printr-o modalitate de observare totala sau partiala, sunt utile in procesul de cunoastere si pregatire a deciziilor numai daca sunt supuse unor operatiuni de prelucrare. Prelucrarea, ca etapa a cercetarii statistice, cuprinde operatii de rafinare sau transformare cu ajutorul carora se realizeaza trecerea de la datele individuale la indicatorii derivati, sintetici, care reflecta esenta din manifestarea fenomenelor.
Pentru desprinderea aspectelor esentiale si stabile din manifestarea fenomenelor analizate datele statistice sistematizate trebuie sa fie supuse unor operatii de prelucrare. Prelucrarea datelor statistice inregistrate poate fi primara sau secundara.
Prelucrarea primara cuprinde operatii de clasificari, de grupari, de comparari, de prezentare sub forma de tabele, grafice sau serii statistice. Prin efectuarea acestor operatii se realizeaza sintetizarea datelor individuale la nivelul grupelor sau claselor, se calculeaza indicatori absoluti si/sau relativi, se prezinta sintezele efectuate prin tabele, grafice sau serii statistice. Rezultatele operatiilor de prelucrare primara sunt elementele de intrare pentru prelucrarea secundara in urma careia se estimeaza valori tipice, omogenitatea si asimetria distributiilor, intensitatea legaturilor dintre fenomenul analizat si factorii sai de influenta etc.
2. Metode de structurare a colectivitatilor statistice in functie de una sau mai multe caracteristici
Principalele metode sunt clasificarea si gruparea. Obiectivul principal al acestora il reprezinta formarea de clase sau grupe de unitati omogene, din colectivitatea investigata. Prin grupa sau clasa omogena intelegem acea grupa sau clasa in care sunt incluse acele unitati din colectivitate la care valorile individuale ale caracteristicii urmarita prezinta variatii minime, explicate prin influenta factorilor intamplatori.
2.1. Clasificarea statistica
Clasificarea presupune operatii complexe de sistematizare a unui ansamblu de unitati sau notiuni, pe baza caracteristicilor lor comune, in clase de unitati, a claselor de unitati in clase de clase de unitati s.a.m.d., cu scopul ca fiecare clasa astfel obtinuta sa ocupe un loc precis si stabil intr-o structura sau ierarhie. In cadrul operatiei de clasificare se disting obiectele (unitatile) de clasificat; criteriul (criteriile) dupa care se efectueaza clasificarea; clasele rezultate din operatii de clasificare.
Clasificarea, ca operatie de sistematizare, se aplica variabilelor calitative, rezultatul constituindu-l seria de distributie de frecvente homograda, cum este urmatoarea:
Clasa |
Numarul de unitati statistice |
|
|
|
|
|
|
|
|
|
|
|
|
TOTAL COLECTIVITATE |
|
De exemplu, cumparatorii dintr-un magazin au fost rugati sa spuna cartierul in care locuiesc; in urma sistematizarii s-a obtinut urmatoarea serie de distributie de frecvente:
Cartierul |
Numarul de cumparatori |
|
Dorobanti |
30 |
8,5 |
Militari |
80 |
22,9 |
Drumul Taberei |
70 |
20,0 |
Cotroceni |
20 |
5,7 |
Altele |
150 |
42,9 |
TOTAL |
350 |
100 |
Alaturi de frecventele absolute, care indica numarul total de unitati statistice cu valoarea variabilei situata intr-un interval, vom putea calcula si frecvente relative, adica proportia din numarul total de unitati: sau , in care sau .
2.2. Gruparea datelor statistice
Pentru VARIABILELE ATRIBUTIVE
Gruparea, ca operatie de sistematizare, se aplica variabilelor cantitative, rezultatul constituindu-l seria de distributie de frecvente heterograda.
a) In functie de numarul de caracteristici, intalnim:
grupari simple, in functie de o caracteristica;
grupari combinate, in functie de doua sau mai multe caracteristici.
b) In functie de variatia caracteristicii urmarite avem:
gruparea pe variante, in cazul variabilelor discrete sau in cazul in care caracteristica urmarita prezinta un numar redus de variante. Ea presupune stabilirea variantelor in care vom grupa datele si numararea unitatilor la care se inregistreaza aceeasi varianta a caracteristicii. Prin urmare, se obtine o serie de distributie de frecvente heterograda de forma:
Clasa |
Numarul de unitati statistice |
|
|
|
|
|
|
|
|
|
|
|
|
De exemplu, a finalul lantului de asamblare a aspiratoarelor se preleveaza un esantion de 20 aparate. In urma controlului tehnic de calitate s-a constatat numarul de piese care prezinta o defectiune, la fiecare aparat prelevat. Datele inregistrate sunt urmatoarele:
Numarul de piese care prezinta o defectiune minora |
|||
1 |
0 |
2 |
0 |
1 |
2 |
0 |
0 |
0 |
1 |
3 |
0 |
2 |
1 |
0 |
0 |
In urma gruparii datelor pe variante se obtine distributia de frecvente absolute.
Distributia aparatelor dupa numarul pieselor defecte
Numarul de piese defecte |
Numar de aparate (ni) |
|
0 |
10 |
50 |
1 |
6 |
30 |
2 |
3 |
15 |
3 |
1 |
5 |
Total |
20 |
100 |
In cazul seriilor heterograde, cum este si aceasta, se pot calcula frecventele absolute cumulate. Acestea pot fi crescatoare sau descrescatoare si reprezinta numarul unitatilor statistice care au valoarea variabilei mai mica sau eventual egala cu limita superioara a grupei: .
Numarul de piese defecte |
Numar de aparate |
|
Fci |
Fci |
0 |
10 |
50 |
10 |
20 |
1 |
6 |
30 |
16 |
10 |
2 |
3 |
15 |
19 |
4 |
3 |
1 |
5 |
20 |
3 |
Total |
20 |
100 |
|
1 |
gruparea pe intervale de variatie, in cazul variabilelor continue sau in cazul in care caracteristica urmarita prezinta o plaja larga de valori posibile. Gruparea datelor pe intervale de variatie se utilizeaza atunci cand caracteristica numerica urmarita prezinta un numar mare de valori individuale.
Pentru structurarea colectivitatii, pentru evidentierea grupelor (straturilor) tipice din colectivitate, se pot forma grupari pe intervale egale de variatie sau pe intervale neegale. Gruparea datelor pe intervale de variatie necesita stabilirea numarului de grupe si a marimii intervalelor.
A = xmax - xmin
, in care r reprezinta numarul de grupe.
Pentru determinarea numarului de grupe, se tine seama de faptul ca numarul acestora trebuie sa fie cuprins intre 5 si 15 sau se utilizeaza relatia lui Sturges.
Dupa determinarea marimii intervalelor de variatie este necesar sa se determine limitele inferioare si superioare ale intervalelor de grupare. Stabilirea limitelor se poate face astfel: limita superioara a fiecarui interval sa se preia ca limita inferioara a intervalului urmator, obtinandu-se astfel intervale cu limita repetabila sau limitele inferioare si superioare ale intervalelor de grupare distincte, diferentiate printr-o unitate.
Centrul de interval reprezinta valoarea situata la jumatatea distantei dintre limitele intervalului si este considerat reprezentativ pentru datele din interiorul intervalului.
Frecventele relative cumulate (crescator sau descrescator) reprezinta procentul unitatilor statistice care au valoarea variabilei mai mica sau cel mult egala cu limita superioara a grupei.
Pentru VARIABILELE DE TIMP
Prin sistematizarea acestora, se obtine o serie cronologica (dinamica sau de timp), care are forma urmatoare:
Unitati de timp (momente sau intervale) |
Valori ale variabilei studiate |
1 |
|
2 |
|
|
|
|
|
|
|
|
|
Pentru VARIABILELE DE SPATIU
Prin sistematizarea acestora, se obtine o serie teritoriala, care are forma urmatoare:
Unitati teritoriale/administrative |
Valori ale variabilei studiate |
A |
|
B |
|
|
|
I |
|
3. Metode de prezentare a datelor statistice
3.1. Tabele statistice
Una dintre cele mai adecvate modalitati de prezentare a datelor statistice o reprezinta forma tabelara, deoarece ea permite caracterizarea structurii colectivitatii (populatiei) investigate, a legaturilor dintre grupele sale tipice etc. si este elaborat pentru sistematizarea datelor in vederea prelucrarii si obtinerii indicatorilor sintetici si pentru prezentarea rezultatelor prelucrarii primare si secundare.
In functie de scopul analizei si al prelucrarii, in teoria si practica statistica, se elaboreaza si se utilizeaza o multitudine de tabele statistice.
1. tabele simple, descriptive. Acestea sunt elaborate pentru prezentarea indicatorilor statistici ai unitatilor complexe investigate, ordonati din punct de vedere cronologic, teritorial sau organizatoric;
2. tabele utilizate in prelucrare. Acestea sunt instrumente intermediare utilizate pentru parcurgerea unor algoritmi de calcul;
3. tabele de prezentare a datelor statistice structurate pe grupe/clase de variatie
4. tabele de contingenta. Acestea sunt tabele cu dubla intrare.
5. tabele statistice de prezentare a valorilor functiilor biometrice sau a repartitiilor statistice teoretice.
Tabelele statistice, indiferent de tipul lor, de modalitatea lor de elaborare (manuala sau automata), contin una sau mai multe serii.
3.2. Serii statistice
Seria statistica, ca rezultat al sistematizarii, defineste corespondenta dintre doua siruri de date statistice in care primul reprezinta variatia caracteristicii urmarite, iar al doilea sir cuprinde frecventele de aparitie a variantelor caracteristicii.
In functie de natura caracteristicilor urmarite, seriile statistice sunt clasificate in:
1. Serii de repartitie (de distributie), elaborate atunci cand caracteristica urmarita este numerica (cantitativa).
2. Seriile cronologice (de timp sau dinamice), care prezinta evolutia in timp a unui fenomen sau descrie un anumit proces. Acestea pot fi de flux (de intervale) sau de stoc (de momente).
3. Seriile teritoriale (sau de spatiu), care prezinta variatia teritoriala a caracteristicii analizate. In aceste serii valorile caracteristicii se refera la unitatile teritoriale din care fac parte. In mod frecvent aceste serii se obtin dupa criterii administrativ-teritoriale, ceea ce inseamna ca in cadrul acestora spatiul este variabil, iar timpul si structura organizatorica sunt considerate fixe.
4. Seriile descriptive (sau enumerative), care se prezinta sub forma de liste a unitatilor dupa o anumita caracteristica.
3.3. Grafica datelor statistice
Graficele statistice se utilizeaza in scopul vizualizarii marimii si variatiei independente si/sau interdependente a datelor, trebuie sa ilustreze proportiile care se formeaza intre diferitele unitati/grupe/colectivitati/fenomene, tendinta de evolutie a unor fenomene sau legaturile dintre diferite procese social-economice.
Uzual, in practica statistica graficele sunt trasate in sistemul de coordonare rectangulare (ortogonale), adica in raport si proportional cu doua axe perpendiculare. Pe axa OX se vor fixa variantele sau intervalele de variatie ale caracteristicii independente, momentele sau intervalele de timp, iar pe axa OY se vor fixa frecventele, valorile caracteristicii a carei evolutie este urmarita, valorile sau intervalele de variatie ale caracteristicii dependente. Pentru a respecta proportiile din date este necesar ca pe cele doua axe punctele sa fie fixate la scara. In afara de acest sistem, mai exista si grafice reprezentate in sistem de coordonate polare. In cazul lor, un punct M este localizat prin distanta r si unghiul α, acest sistem fiind utilizat in special in cazul seriilor cronologice.
Histograma se construieste prin ridicarea unor dreptunghiuri, fiecare dreptunghi fiind de latime egala cu marime intervalului de grupare si de inaltime egala cu numarul masuratorilor care se incadreaza in intervalul respectiv. El se traseaza in cazul seriilor de distributie de frecvente heterograde, cazul datelor continue.
Poligonul frecventelor cumulate ilustreaza grafic frecventele marcate in relatie cu centrele de interval si reprezinta o alta modalitate de descriere a datelor continue.
Poligonul frecventelor se construieste pentru a studia normalitatea unei distributii, sugerand daca aceasta se apropie sau nu de repartitia normala, frecvent intalnita in cazul fenomenelor social-economice cu caracter de masa si vizualizeaza densitatile repartitiilor. El se traseaza in cazul seriilor de distributie de frecvente heterograde, cazul datelor discrete, prin ridicarea din centrul fiecarui interval xi a unei linii punctate pana in dreptul frecventei, unde se marcheaza un punct. Unind apoi aceste puncte prin linii drepte se obtine o linie franta.
Diagrama prin coloane si benzi este utilizata pentru ilustrarea nivelului, dinamicii sau structurii unor indicatori ce caracterizeaza o anumita colectivitate statistica sau pentru comparatii intre diferite colectivitati. Coloanele sau benzile sunt proportionale cu nivelul indicatorilor reprezentati. Se utilizeaza la reprezentarea seriilor de distributie de frecvente homograde si la cea a seriilor teritoriale.
Diagrama de structura este utilizata pentru a vizualiza ponderile/structura unei colectivitati. Se utilizeaza la reprezentarea seriilor de distributie de frecvente homograde si heterograde. Uzual, se reprezinta printr-un cerc complet este 100% sau totalul colectivitatii, iar marimea fiecarei felii in parte este proportionala cu frecventa relativa a categoriei.
Corelorgrama (diagrama de imprastiere sau graficul norului de puncte) se utilizeaza in cazul seriilor de distributie bidimensionale. In acest caz, fiecare unitate statistica este reprezentata printr-un punct de coordonate xi si yi. graficele de acest fel pot indica existenta sau inexistenta intre cele doua variabile studiate, precum si sensul acestora.
Cronograma (historiograma) se foloseste pentru reprezentarea grafica a seriilor dinamice. Pe axa ordonatelor se construieste scara de marime a indicatorilor seriei dinamice, iar pe abscisa se va reprezenta scara timpului (de regula ani calendaristici). In fapt, cronograma va reprezenta o curba care va oglindi tendinta evolutiei fenomenului social-economic studiat (functia de trend).
Diagrama polara (radiala) este utilizata in situatiile in care seria de timp prezinta variatii sezoniere (de exemplu, pentru reprezentarea temperaturilor medii lunare la o statie meteorologica).
Diagrama prin figuri geometrice de suprafata sau volum utilizeaza figuri geometrice. Suprafetele sau volumul corpurilor geometrice trebuie sa fie proportionale cu volumul fenomenului ce urmeaza a fi prezentat, iar repartizarea pe grupe se reflecta in repartizarea ariei pe sectoare, proportional cu greutatea specifica a fiecarei grupe. Se utilizeaza la reprezentarea seriilor teritoriale.
Cartogramele si cartodiagramele sunt reprezentari grafice care evidentiaza variatia fenomenelor social-economice in profil teritorial, astfel incat pe harta administrativa-teritoriala se hasureaza/coloreaza diferit spatiul subunitatilor teritoriale, in functie de intensitatea de manifestare a fenomenelor. Se utilizeaza la reprezentarea seriilor teritoriale.
Copyright © 2024 - Toate drepturile rezervate