Alpinism | Arta cultura | Diverse | Divertisment | Film | Fotografie | |
Muzica | Pescuit | Sport |
Gruparea datelor si prezentarea sub forma de tabele si grafice
Gruparea datelor reprezinta prima etapa a analizei statistice. Aceasta etapa tine de statistica descriptiva, care reuneste procedurile prin care datele sunt organizate, sintetizate si descrise folosind distributiile de frecvente, reprezentarile grafice si indicatorii numerici sintetici.
Reprezentarea datelor sub forma tabelelor de frecventa
Cea mai simpla modalitate de a descrie datele o reprezinta analiza de frecvente.
Sunt mai multe tipuri de frecvente.
Frecventa simpla - este de doua feluri:
Ø frecventa absoluta sau frecventa observata (numarul de cazuri corespunzatoare fiecarei variante a caracteristicii); notatie: ni
Ø frecventa relativa (proportia, cat reprezinta frecventa absoluta in total: ni / Σ ni ); se poate calcula si prin raportare la unitate, dar forma cea mai uzuala este forma procentuala (%); acest tip de frecventa este indicat cand vrem sa comparam esantioane de volum diferit dupa aceeasi caracteristica
Frecventa cumulata
Ambele tipuri de frecvente simple se pot cumula, fie crescator, fie descrescator (vezi exemplul)
De regula, Softurile statistice cumuleaza crescator frecventa procentuala.
Obs. frecventa cumulata intereseaza numai in cazul variabilelor masurate pe scala ordinala sau interval-raport
Frecventele cumulate au rol important in analiza rezultatelor gruparii.
Folosind tipurile de frecvente mentionate se pot realiza Tabelele de frecventa fie separat pentru o singura variabila, fie pentru doua variabile simultan (tabele de corespondenta).
Analiza de frecvente pentru o variabila singulara se face diferit in functie de natura variabilei.
realizarea tabelului de frecvente presupune listarea exhaustiva a variantelor caracteristicii si determinarea frecventelor absolute si relative pentru fiecare varianta in parte
ex.: distributia infractiunilor dupa mediul de producere (pentru primele 6 luni din 2008 - Sursa: MIRA)
mediu |
Frecv. absoluta |
Frecv. relativa (%) |
urban | ||
rural |
59 548 | |
total |
exemplu (citim pe linia rosie din tabel):
Ø dintr-un total de 154066 de infractiuni savarsite in primele 6 luni din 2008, 94 518 (reprezentand 61,3%) au fost savarsite in mediul urban
daca avem un numar relativ mic de variante posibile: realizam gruparea pe variante, ca in cazul 1. (ex. varsta studentilor dintr-o subgrupa de studiu)
Varsta (ani) |
Frecv. absoluta |
Frecv. relativa (%) |
Frecv. relativa cumulata crescator |
total |
exemplu (citim pe linia rosie din tabel):
Ø pe esantionul studiat (n= 10), 3 persoane (reprezentand 30 % din volumul esantionului) au 19 de ani, si peste trei sferturi dintre subiecti (80 %) au varsta de maxim 19 de ani (au varsta mai mica sau egala cu 19)
- daca avem un numar mare de variante posibile: gruparea pe variante este nerelevanta (ex. varsta populatiei generale); in acest caz, realizam gruparea pe intervale. Stabilim intervale (clase) omogene si determinam numarul de valori inregistrate pentru fiecare interval (calculam frecventele).
Pentru a constitui intervalele, ne ghidam dupa cateva reguli generale:
numarul de intervale: sa nu fie nici prea mare, nici prea mic; ex. 5-7
marimea intervalelor: sa fie semnificativa (ex. multiplu de 5 - 5,10)
de regula, folosim intervale egale
in intervale sa fie cuprinse toate valorile inregistrate
se recomanda ca limitele intervalelor sa se termine in 0 sau 5
o valoare trebuie sa fie cuprinsa intr-un singur interval (intervalele sa nu se suprapuna)
de obicei, intervalele sunt astfel construite incat limita superioara a unui interval se repeta ca limita inferioara a intervalului urmator; de aceea, trebuie sa precizam care limita este cuprinsa in interval (ex., "limita inferioara este cuprinsa in interval")
ex. numarul de inculpati aparati de un avocat intr-un an
cazuri |
Frecv. absoluta |
total |
exemplu (citim pe linia rosie din tabel):
Ø pe esantionul studiat (n= 51), 18 avocati au avut un numar de clienti cuprins in intervalul10-19
Tabele de frecventa pentru doua variabile analizate simultan
(tabele de corespondenta)
Într-un astfel de tabel, una dintre variabile (cu modalitatile aferente) este trecuta pe linii, cealalta pe coloane.
ex. distributia infractiunilor savarsite de minori, in functie de genul acestora
Tipuri de infractiune |
genul |
total |
|
baieti |
fete |
||
Furt | |||
Talharie | |||
Vatamare corporala | |||
Viol | |||
Omor | |||
Lovituri cauzatoare de moarte | |||
total |
exemplu (citim pe linia rosie din tabel):
Ø pe esantionul studiat (n= 90), 14 minori de gen masculin au savarsit infractiunea de omor
Reprezentarile grafice
Rolul graficelor este de a facilita intelegerea datelor numerice.
Vom prefera intotdeauna un grafic simplu, care sa ilustreze clar distributia datelor.
Natura graficului se alege in functie de natura variabilei.
pentru variabilele nonnumerice (masurate pe scala nominala categoriala / ordinala), cele mai uzuale sunt graficele tip "Bar" sau tip "Pie"
Graficul tip Bar sau "graficul in bare"
se realizeaza pentru variabile discrete
inaltimea barei este proportionala cu frecventa modalitatilor variabilei
exemplu 1: distributia infractiunilor in functie de mediul in care au fost savarsite (rural vs. urban)
exemplu 2: distributia raspunsurilor la un sondaj realizat de Politia Comunitara din Timisoara
Considerati ca Politia Comunitara isi indeplineste atributiile ? |
|
sondaj |
|
Terminat la 2008/12/31 |
|
In totalitate |
34 % (53) |
In mare masura |
18 % (28) |
Partial |
25 % (39) |
Deloc |
22 % (35) |
Total Voturi: 155 | Total Votanti: 155 |
Graficul circular sau tip placinta "Pie"
se realizeaza pentru variabile discrete
marimea unei "felii" este proportionala cu frecventa modalitatilor variabilei
exemplu: distributia infractiunilor in functie de mediul in care au fost savarsite (rural vs. urban)
pentru variabile numerice (masurate pe scala de interval / raport), cele mai uzuale sunt graficele tip Histograma, Stem-and-leaf si Boxplot
Obs. exemplele sunt oferite pentru scorurile obtinute de un grup de 60 de persoane (condamnate la pedeapsa cu inchisoarea pentru savarsirea infractiunii de omor) la un test clinic ce evalueaza psihopatia.
Histograma
barele ce compun Histograma sunt unite, dat fiind faptul ca variabila este de tip continuu
in realizarea acestui grafic, softurile statistice realizeaza automat gruparea pe intervale a valorilor
inaltimea barelor este proportionala cu: frecventa corespunzatoare a intervalelor de grupare.
Graficul tip Stem-and-leaf ("tulpina si frunza")
este un grafic care imbina modalitatea grafica cu cea numerica
avantaje:
Frequency Stem & Leaf
1.00 3 . 5
15.00 4 . 005555555555555
11.00 5 . 00255555555
15.00 6 . 000055555558888
11.00 7 . 00000000555
5.00 8 . 00035
2.00 9 . 00
Stem width: 10
Each leaf: 1 case(s)
Boxplot ("cutia cu mustati")
Este compus dintr-o "cutie" (ce contine 50% din valorile distributiei) si doua linii verticale numite "mustati"
În constructia acestui grafic, se folosesc quartilele (valorile ce impart distributia in 4 parti egale ca frecventa)
Astfel:
limita inferioara / superioara a "mustatilor" o reprezinta valoarea minima / maxima (exceptand cazul cand exista valori extreme)
limita inferioara a cutiei este quartila 1 (Q1)
limita superioara a cutiei este quartila 3 (Q3)
linia neagra este mediana sau quatila 2 (valoarea ce imparte seria in 2 parti egale ca frecventa)
lungimea mustatilor nu poate depasi 1,5 X inaltimea cutiei (Q3-Q1)
"stelutele" sunt valorile extreme
OBS. Pentru intelegerea acestui grafic, vezi cursurile 4 si 5.
OBS: Pentru buna intelegere a graficelor, vezi seminarul (aplicatiile in SPSS)
Copyright © 2024 - Toate drepturile rezervate