Biologie | Chimie | Didactica | Fizica | Geografie | Informatica | |
Istorie | Literatura | Matematica | Psihologie |
Statistica este un set de metode destinate descrierii si analizarii din punct de vedere numeric a diferitelor aspecte ale vietii sociale. Statistica se concentreaza asupra aspectelor sociale care pot fi numarate ,masurate cuantificate .
Metodele statistice pot fi grupate in doua categorii :
a) descrpitive - descriere numerica( cantitativa) a diferitelor fenomene sociale ;
b) inferentiale - plecand de la datele obtinute prin observarea asupra unui esantion reprezentativ se fac inferente privind caracteristicile unei populatii.
Utilizarea statisticii in cercetarea sociala se face dupa urmatoarea schema :
1.model teoretic - 2. Stabilirea variabilelor si a ipotezelor - 3. Definirea populatiei si selectarea esantionului reprezentativ - 4. Alegerea unor instrumente de colectare a datelor - 5. Organizarea datelor obtinute si testarea ipotezei /ipotezelor - 6. Stabilirea locului si rolului datelor obtinute in cadrul teoriei . ( de la punctul 4 incepe utilizarea statisticii )
Masurarea = set de reguli privind atribuirea de valori numerice fenomenelor sociale . In cercetarea stiintifica este important sa cunoastem principiile pe care se bazeaza scalele utilizate in masurare . Inainte insa de a prezenta scalele utilizate de statistica este important sa cunoastem conditiile necesare pt. ca o scala sa ofere o descriere valida a valorilor unei variabile ( sa masoare corect ) .
Siguranta ( increderea )/reliability - o scala este sigura / de incredere daca ,atunci cand este utilizata la masurarea repetata a aceluiasi obiect ,se obtin aceleasi rezultate .
Validitate / validity- o scala este valida daca ofera informatia pe care a fost destinata sa o obtina . ( in cazul interviurilor si al chestionarelor ,validitatea inseamna daca rin intrebarile puse s-au obtinut raspunsurile care au fost dorite ,la subiectele urmarite .)
Exahaustivitatea si exclusivitatea reciprica
O scala trebuie sa fie structurata astfel incat categoriile ei sa incuda toate aspectele posibile ( criteriul exhaustivitatii ) ; de asemenea nici un obiect observat nu trebuie sa se incadreze decat intr-o singura categorie ( exclusivitate reciproca : daca este incadrat intr-o categorie atunci este exclus din oricare alta categorie ).
Tipuri de scale
Scalele au fost dezvoltate sa poate masura toate tipurile de variabile deci avem scale : nominale , ordinale ,de interval , de raport si ( inplus ) scalele dihotomice
Scalele nominale / calitative /categoriale -ofera categorii pt. clasificarea obiectelor sau a evenimentelor pe baza unor criterii ca de ex. apartenenta religioasa , politica ,peferinta sau apartenenta la un grup etnic. Scalele nominale nu permit cuantificari
Scalele ordinale - se bazeaza tot pe categorii ( asemenea scalelor nominale ) dar aceste categorii sunt ordonate pe o scala de la cel mai mic la cel mai mare /de la cel mai mare la cel mai mic ( cu alte cuvinte exista o ordine intre categorii ) .Ex : ordinea de terminare a unei curse ( primul clasat , al doilea clasat etc ) pozitia sociala ( clasa superioara /bogata , clasa de mijloc , clasa saraca ) ,scalele care organizeaza categoriile in termeni de ,f. favorabil , favorabil ,netru , mai putin favorabil , defavorabil .
!Scalele nominala si ordinala sunt scale discrete ( discontinue ) -nu pot fi divizate la infinit . Scalele de interval si cea de raport pot fi divizate la infinit -de aceea se numesc scale continue
Scalele de interval - au aceleasi proprietati ca si scalele ordinale si nominale dar in plus categoriile lor constau in intervale egale iar distanta dintre aceste intervale este cunoscuta . Ex . : varsta , numarul anilor de studiu , veniturile , centimetrul (distanta dintre intervalul dintre 1 cm si 2 cm este aceeasi cu distanta dintre intervalul de 7 cm si cel de 8 cm . )
Scalele de raport au aceleasi caracteristici ca si scalele de interval dar in plus au si un punct care ii corespunde lui zero absolut ; ex temperatura .
a) Frecvente relative ( prin relativ intelegem prezentarea datelor pin raportare la un standard )
Raportul = raportul dintre doua variabile se calculeaza prin impartirea valorii unei variabile la valoarea celeilalte variabile ( este o relatie intre doua parti ,doua variabile )
Proportia =este un raport intre parte si intreg ( se calculeaza cat reprezinta un subset de obseervatii din totalul observatilor )
Procente = este un raport inmultit cu 100
Percentile = arata locul ocupat de un scor in totalul scorurilor observate ( rangul ) . Percentilele sunt frecvent utilizate in termeni de : centile , decile si cuartile .Centilele impart o distributie in 100 de parti egale ( vezi formula ) .Decilele impart distributia in 10 parti egale iar cuartilele impart distributia ini 4 parti egale ( fiecare parte reprezinta 25% )
c) Grafice :
sistemul de coordonate cartezian
histograma frecventei ( un grafic care prezinta frevventa distributiei unei variabile de interval )
poligoanele frecventei
poligoanele frecventei cumulate ( ogive)
diagramele de bare ( bar charts )
a) sliding bar charts - utilizat pt prezentarea frecventei a doua variabile dintre care una este dihotomica
c) diagrama "placinta"
In acest capitol sunt prezentate tehnicile de caracterizare a unei distributii printr-o singura valoare numerica . Cele care pot realiza o asemenea caracterizare sunt masurile tendintei centrale si masurile variatiei.
A) Masurile tendintei centrale sunt : modul , mediana , media
Modul = este cea mai des intalnita observatie intr-o distributie ( cel mai popular rezultat observat ) . Modul frecventei ditributie de grup este mijlocul intervalului cu cel mai mare numar de observatii . !O distributie poate avea mai multe moduri .
Mediana = mijlocul unei distributii ( este utilizata in cazul variabilelor ordinale si de interval ) ;desparte distributia in doua jumatati egale . ( vezi formula ) . Mdiana este sensibila la gruparea valorilor peste si sub valoarea ei . Mediana reprezinta a 50-a percentila sau a doua cuartila .
Media aritmetica = suma tuturor valorilor inregistrate intr-o distributie impartita la numarul total de cazuri observate .In calcularea mediei fiecare valoare obseervata contribuie cu propria poportie la rezultatul final . .Media poate fi privita ca un punct de echilibru deoarece suma distantelor valorilor peste medie este egala cu suma distantelor valorilor sub medie .
! Media de grup( grand mean ) :
a) daca grupurile au un numar egal de membrii atunci procedezi procedezi in mod normal
b) daca grupurile au un numar inegal de membri atunci trebuie sa fi sigur sa calculezi media astfel incat fiecare grup sa contribuie la determinarea mediei in functie de cat reprezinta el din total . ( vezi formula )
Doua proprietati ale mediei :
suma diferentelor dintre valorile individule inregistrate si medie este zero ( adun toate diferentele dintre valorile observate si medie si obtin zero )
suma diferentelor dintre observatiile individuale si medie la patrat este minima .
Masurile tendintei centrale ne ofera o caracterizarea unei intregi distributii printr-un singur numar ;acestea pun accentul pe similaritatile observate intr-o distributie . Masurile variatiei pun accentul pe diferentele /variatiile unei distributii.
Variatia unei variabile discrete :
Indicele variatiei calitative (IQV)=compara variatia observata a unei variabile nominale cu potentialul maxim de variabilitate care poate fi asteptat . (vezi formula ) .Variatia maxima este obtinuta atunci cand membrii din esantion sunt imprastiati cat se poate de mult ceea ce se intampla cand sunt distribuiti in mod egal de-a lungul categoriilor scalei . Observatiile asteptate si cele observate se calculeaza ca suma a produselor tuturor perechilor de categorii ale scalei posibile . IQV este destinat scalelor nominale care nu au multe categorii . Utilitatea IQV = evalueaza imprastierea observata in comparatie cu maximul care putea fi inregistrat .
Fluctuatia ( Range ) unei distributii este data de diferenta dintre cea mai mare si cea mai mica valoare a unei distributii .Fluctuatia unei distrubutii ia in consideratie doar doua valori : maxima si minima . Fluctuatia este influentata si de marimea esantionului : cu cat acesta este mai mare cu atat creste sansa de a lua in calcul si valori extreme . De aceea este probabil ca esantioanele mai mari sa aiba fluctuatii mai mari decat esantioanele mici .
! Valorile variatiei nu au un standard cu care sa poata fi comparate .
Abaterea standard ( standard deviation)notata cu s -este cea mai des utilizata masura variatiei ; este definita drept radacina patrata a variatiei.
Utilitatea s-ului : orice distributie continuua poate fi descrisa in unitati ale abaterii standard ;extragand radacina patrata orice variatie poate fi transformata intr-o forma standard astfel incat 1 abatere standard este egala cu 1s . ,doua abateri standard =2s,etc.
Mai mult ,intr-o distributie normala, intre :+/- 1s se afla 68% din cazuri , intre +/- 2s se afla 95^ din cazuri iar intre +/- 3s se afla 99% din cazuri .
Alternative pt. calcularea variatiei ( s2) si a abaterii standard ( s)
In situatiile de mai sus calcularea lui s si a lui s2 se baza pe valoarea mediei. A) O metoda alternativa pleaca de la suma patratelor valorilor observate in distributie . (s2: suma din x2,unde x2=patratul unei valori individuale ;s=radical din s2) .
B) O formula alternativa trebuie folosita pt a calcula abaterea standard pt distributia frecventelor de grup. Formula se bazeaza pe punctele de mijloc ale intervalelor si seamana in structura cu suma patratelor aplicata la formula de mai sus.
Concluzie : abaterea standard si variatia reprezinta cele mai bune estimari ale variatie deoarece tin cont de valoarea fiecarui caz obseervat. ,ambele se bazaeaza pe cea de a doua proprietate a mediei, abaterea standard este mai populara deoarece a oferit un cadru pt. aprecierea sensului variatiei in orice distributie .
CAPITOLUL IV:
DISTRIBUTIA NORMALA
Distributia unei variabile in populatie reprezinta distributia reala ; distributia unei variabile intr-un esanion reprezinta o estimatie a variabilei in populatie . Daca vom extrage mai multe esantioane dintr-o populatie rezultatele obtinute vor fluctua putin datorita intamplarii .Aceste fluctuatii intamplatoare sunt numite variatii aleatoare ( tocmai datorita faptului ca sunt intamplatoare ) .Metodele probabilistice sunt utilizate tocmai pt. a determina cat de probabil este ca distributia unei variabile observate intr-un esantion sa corespunda distributiei reale a variabilei respective .
Probabilitati si frecvente relative
Probabilitatea P ca un anumit rezultat( o valoare ) al unei variabile sa se materializeze poate fi definita ca o proportie a rezultatului "r" dintr-un total "n" de rezultate ( P=r/n)( vezi mai sus ce inseamna proportie) .
Frecventa relativa : distributia frecventei relative se obtine calculand frecventa d aparitie a fiecarui interval folosind formula de mai sus..Frecventa relativa reprezinta de asemenea si probabilitatea asociata observatiilor pe fiecare interval .Totalitatea probabilitatilor intervalurilor se numeste distributia probabilitatilor .( probability distribution) .
Nu trebuie sa pierdem din veder faptul ca ceea ce ne intereseaza este distributia in populatie a variabilei . Deoarece de cele mai multe ori populatiile sunt prea largi pt a putea fi investigate apelam la ajutorul unui model teoretic pe baza caruia determinam probabilitatea asociata producerii sau nu a unui rezultat. O histograma a frecventei distributiei variabilelor are doua caracteristici importante :
a) datorita faptului ca populatiile sunt mari ,histograma consta intr-un nr mare de observatii;daca variabila este continua nr valorilor pe care variabila le poate avea este f mare ,drept urmare barele histogramei devin infinite in nr , cu schimbari graduale in inaltime ceea ce face ca forma histogramei sa fie cea a unei linii .
b) de regula histograma variabilelor continuui iau forma unui clopot .Mai mult ,deorece distributiile sunt asemanatoare in forma ,ariile asociate unor valori pot fi determinate anterior si astfel probabilitatea unei observatii poate fi cunoscuta de asemenea.
Modelul teoretic al distributiei normale
Caracteristicile distributiei normale :
a) forma de clopot;
b) simetria - jumatatea stanga a distributiei este imaginea in oglinda a jumatatii din dreapta ;
c) modul , mediana si media coincid ;
d) continuitatea- teoretic numarul valorilor variabilei este infinit .
e) este asimptotica
f) aria cuprinsa sub curba este egala cu zero iar valoarea Y pt orice variabila X divide aria curbei in doua parti : o parte sub iar cealalta deasupra liniei obseervatiei.
Distributia normala empirica
Distributiile normale empirice au aceeasi forma cu modelul teoretic dar media si abaterea standard difera de valorile variabilelor reprezentate de distributie . Diferenta in ceea ce priveste media afecteaza locatia distributiei pe intervalul scalei;diferenta in ceea ce priveste deviatia standard influenteaza ascutitmea curbei ( ceea ce se numeste kurtosis-aplatizare ) .O deviatie standard mica indica ca valorile observate se grupeaza in jurul mediei ceea ce inseamna de asemenea ca avem o curba mai ascutita a distributiei. O deviatie standard mare are loc cand mai multe valori ale variabilei sunt inregistrate mai departe de medie si mai aproape de cozile distributiei ceea ce inseamna si o curba a distributieimai plata .
Oricum ,curbele normale empirice se apropie de forma modelului teoretic. Importanta modelului teoretic este ca aria curbei,sub si peste orice linie de observatie poate fi determinata si astfel probabilitatea observatiei poate fi cunoscuta .
Distributia normala standardizata
Scala standardizata folosita pt a transforma o distributie empirica in valorile scalare ale unei distributii normale standardizate este scorul Z(scala Z) .Scala Z este construita astfel incat mijlocul scalei ( media ) sa fie egal cu zero iar valorile peste si sub el sa fie paralele cu unitatile abaterii standard ( discutate mai sus ,in capitolul III) .Distributiile empirice sunt transformate in scala Z utilizand formula Z=x-X/s( unde x=valoarea observata ;X=media distributiei;s=abaterea standard).Transformarea unei scale empirice in valorile unei scale Z ( scorul Z) este lineara adica valorile sunt modificate pt a corespunde standardului sclei Z dar pozitiile valorilor observate ( relativ una la cealalata ) raman neschimbate .
Arii sub curba normala standardizata
Ariile asociate fiecarei valori a scorului Z sunt fixe deci ,o data ce valoarea unei variabile este transformata in scala Z , putem determina probabilitatea de producere /inregistrare . Valorile acestea sunt prezentate I anexa ( nu am anexa ) .Vezi exemplele pe care le intalnesc pe parcurs in anexa cu formule .
Informatiile privind aria de observatie ne permite sa facem afirmatii probabilistice despre valoarea lui Z astfel: X% din totalul obseervatiilor va fi mai putin de Z= . iar Y% din observatii va fi egal sau mai mare decat Z= in exemplul dat in anexa ,cu Z= 1.50 putem spune ca 93.32% dintre cazuri se situeaza sub Z iar 6.68 % sunt egale sau mai mari decat Z ) . !Aria pt Z=-1.50 este o imagine in oglinda a arie lui Z=1.50 ( datorita simetriei distributiei) . Uneori ne intreseaza aria atat la stanga cat si la dreapta mediei ( sua si peste valoarea mediei) ..In cazul lui Z=+/- 1.50 acesta este 0.4332 + 0.4332=0.8664 sau 86.64% dintre cazuri sunt plasate intre =/- 1.50. .In acest caz se vorbeste de o probabilitate cu doua "cozi two-tailed) .Daca te intereasa doar o latura ( peste sau sub valoarea mediei) atunci vorbim de o probabilitate cu o singura "coada"
Scorul Z este asociat cu un anumit nivel de probabilitate astfel: scorul Z pt o probabilitate de 95% (vezi pt cum procezi tabelul cu formule ) =1.65;scorul Z pt o probabilitate de 95% dar cu doua cozi este de 1.96 .
Skewness( inclinatia ) si Kurtosis( apaltizarea)
Orice dostributie poate fi caracterizata prin 4 momente :
1= media ;2=variatia ;3=skewness(inclinatia);4=kurtosis(aplatizarea).
Media este punctul de echilibru al distributiei;variatia descrie gradul in care valorile observate sunt imprastiate in jurul mediei.
Inclinatia = ne ofera o estimare a simetriei distributiei si se calculeaza ca medie a cubului diferentelor dintre valoarea observata si medie( vezi formula ) .O distributie poate fi inclinata spre stanga( inclinatie negativa ,adica sub valoarea mediei) sau spre dreapta(inclinatie pozitiva ,peste valoarea mediei).Cand o distributie este inclinata ( in orice directie) ,media ,mediana,modul nu mai coincid;modul ramane ca varf al distributiei,media se muta spre "coada " mai lunga iar medianaeste si ea trasa spre partea mai alungita . inclinatia infuenteaza si aria de sub si peste medie .
Aplatizarea= ofera o estimatie a ascutimii curbei distributiei.
Atunci cand multe valori observate sunt apropiate de valoarea mediei,curba distributiei este mai ascutita si este descrisa ca fiind leptoturtica ;atunci cand valorile observate sunt imprastiate mult in jurul mediei ,curba distributiei este aplatizata si se numeste platykurtica.O distributie leptoturtica va aves mai multe cazuri intr-o unitate de abatere standard decat o distributie normala iar o distributie platyturtica va avea mai putine.
! Distributia normala standardizata este utilizabila doar in cazul variabilelor continuui.Pt. variabilele discrete vom folosi distributia probabilitatii binominale.
CAPITOLUL VI
NOTIUNI INTRODUCTIVE PRIVIND INFERENTA STATISTICA
Inferenta statistica consta in a trage concluzii pe baza unor evidente statistice. .Inferenta statistica are la baza anumite /conditii rationamente: esantionarea aleatore ;reprezentativitatea esantionului ;distributia de esantionare ,distributia in populatie,etc
Prin populatie intelegem intregul set de entitati care prezinta inters pentru cercetarea propusa . de regula populatiile sunt f. largi de aceea se apaeleaza la esantioane
Esantionul = subgrup al populatiei vizate de cerceteare care intruneste toate caracteristicile populatiei din care a fost extras.Reprezentativitatea esantionului depinde de modul in care entitatile din esantion au fost selectate.Metodele cu cele mai mari sanse de a genera un esantin reprezentativ sunt metodele selectiei aleatoare ( acestea genereaza ceea ce se numesc esantioane aleatoari).Un esantion aleator este cel care intruneste doua conditii : oricare membru al populatiei vizate are sanse egale si independente de a fi ales in esantion. sansa independenta de a fi ales inseamna ca sansa unui membru de a fi ales nu depinde de sansa altui membru . esantionarea simpla aleatoare este cea mai frecventa metoda de selectie a membrilor esantionului ;mai intalnimsi tabelul numerelor aleatoare .
Inferenta statistica tine cont de trei distributii : distributia in populatie ,distributia mediilor de esantionare , distributia esantionului .
Distributia in populatie : orice variabila are o anumita distributie in populatie dar acesta este arareori cunoscuta . De obicei ceea ce se cunoaste despre ea provine din estimatiile oferite de esantioane. Distributia mediei de esantionare este cea care ofera posibilitatea de a detecta erorile de esantionare inerente.
De regula ,in cercetare , nu stim care este media unei variabile in populatie sau care este abaterea standard distributiei variabilei in populatie.
In acest caz ( in care nu cunoastem valorile din populatie ) ,eroarea standard a mediei poate fi determinta apalend la abaterea standard a esantionului "s"( vezi discutia de la masurile variatiei)
Parametrii pot fi estimati prin doua modalitati : fie printr-un punct ( un numar ) fie printr-un interval .
Estimarea printr-un punct ( media , mediana ) -vezi formula in anexa -se calculeaza apeland la abaterea standard a esantionului "s". !Cu cat s este mai mare cu atat este si eroarea standard a mediei si cu atat este mai putin precisa estimarea mediei populatiei prin media esantionului .
Estimarea printr-un interval apeleaza la aproximarea mediei printr-un interval determinat de doua valori .Si in acest caz media esantionului joaca un rol vital deoarece cele doua valori care delimiteaza intervalul sunt plasate la o distanta egala fata de medie . .largimea intervalulu depinde de nivelul de confidenta pe care vrei sa-l conferi. ( Prin nivel de confidenta intelegem cat de sigur vrei sa fi ca intervalul respectiv contine intr-adevar valoarea din populatie .Datorita accentului pus pe nivelul de confidenta estimarile de interval mai sunt numite si limite de confidenta )
Largimea intervalului de confidenta depinde de valoarea Z si de eroarea standard a mediei .Valoarea Z reprezinta nivelul de confidenta pe care vrei sa-l imprimi intervalului : cu cat mai mare vrei sa fie confidenta cu atat trebuie sa creasca valoarea lui Z si cu atat mai larg este intervalul ( cresterea marimii intervalului de confidenta se face in detrimentul preciziei).Daca ai o eroare standard mica atunci si intervalul tinde sa fie mai mic .
Un esantion mai mare ofera o mai buna estimare a parametrilor decat unesantion mai mic Cresterea marimii esantionului atinge unnivel in cae acest efect de cresterea a capacitatii de estimare este redus .Se pune deci intrebarea : cat de mare trebuie sa fie un esantion pt a oferi o estimare precisa a parametrilor ? Cand abaterea din populatie este mare atunci si esantionul trebuie sa fie mare ;daca cunoastem eroarea standard a mediei putem calcula arimea esantionului ( vezi formula )
Limite de confidenta pentru proportii ( pt variabilele discontinue )
Pt variabilele dihotomice putem calcula medie si abatere standard daca fiecare dintre cele doua categorii este mai mare de 10 membri ; mai mult daca nr membrilor este mai mare de sau egal cu 30 putem determina eroarea standard a proportiei esantionului la fel cum determinam eroarea standard a mediei . ( eroarea standard a proportiei esantionului = radical din (npq)/n unde n=marimea esantionului ;p=una dintre categorii iar q=cealalta categorie). Dupa ce cunoastem eroarea standard a proportiei putem calcula intervalul de confidenta ca fiind +/-valoarea erorii
CAPITOLUL VII
TESTAREA IPOTEZELOR
Scopul unei estimari este de a determina daca esantionul statistic ofera sau nu o buna aproximare a parametrului din populatie . In continuare vom discuta cum cunt folosite ipotezele pt. a compara esantioanele cu parametrii asteptati sau cunoscuti .
Ce este o ipoteza
Definitie : Ipoteza este o afirmatie despre un parametru din populatie care poate fi testata cu un esantion statistic . Pocedeul acceptari sau respingerii unei ipoteze e bazeaza pe criteriul falsibilitatii care sustine ca: este posibil sa determini daca o ipoteza este falsa dar este mult mai dificil daca nu chiar imposibil sa determini adevarul unei ipoteze . In cercetare se lucreaza cu doua tipuri de ipoteze :
a) ipoteza de nul ( H0) care face o presupunerea asupra valorii din populatie;mai este numita si ipoteza de nici o diferenta deoarede afirma ca intre valoarea din populatie si valoarea asteptata nu este nici o diferenta .EX -presupunem ca trebuie sa extragem un esantion de 30 de membri dintr-o populatie care consta din barbati si femei ;ipoteza de nul in acesta situatie ar fi ca barbarii reprezinta jumatate din populatie ( femeile si barbatii sunt egali ca si numar ).H0=0,5
b) ipoteza alternativa ( H1) care afirma ca valoarea din populatie este alta decat cea propusa de H0. Pt exemplul de mai sus ,ipoteza alternativa ar fi barbatii nu reprezinta jumatate din populatie .H1diferit de 0,5
Ipotezele alternative
pot fi - directionate,H1-barbatii reprezinta mai putin
de 50% sau barbatii reprezinta mai mult de 50%
- non-directionate ( barbatii nu reprezinta 50% din populatie );
Decizia privind acceptarea unei sau alteia dintre ipoteze depinde de anumite teste statistice ( bazate pe datele oferite de esantioane ) .daca informatiile obtinute contrazic ipoteza H0 atunci acesta este respinsa ,daca datele obtinute sunt in acod cu ipoteza atunci aceasta este acceptata.
Pragul de semnificatie
Definitie: nivelul de semnificatie este punctul de la care esantionul difera prea mult ca desebirile fata de ceea ce se astepta in populatie sa se datoreze unor variatii aleatoare .
Stabilirea nivelului de semnificatie este o problema de a decide care este demarcatia intre o diferenta mica si una mare . Diferente mici sunt cele cu un nivel ridicat al probabilitatii de producere pe cand diferentele mari au o probabilitate de producere scazuta . Deci pragul de semnificatie este de fapt un nivel al probabilitatii . Pragul de semnificatie imparte observatiile din esantion in doua categorii : probabile si improbabile. Observatiile improbabile sunt numite semnificative deoarece difera prea mult de ceea ce se asteapta sa fie observat /intalnit in populatie . Intr-o distributie normala zona critica ( semnificativa ) este reprezentata de capatela /cozile distributiei ;aceasta zona critica este numita si zona de respingere ,deoarece rezultatele inregistrate aici impun respingerea lui H0.
Testarea ipotezelor
Reluam exemplul esantionului de 30 de pers dintr-o populatie alc din barbati si femei ;dorim sa testam H0=0,50 la un nivel al semnificatiei de 0,05. Stabilind semnificatia la 0,05 asta inseamna ca respingem H0 daa valoarea lui este mai mica sau egala cu 0,05 .Aria de 0.05 se imparte in mod egal intre cele doua capete ale distributiei deci fiecare capat are 0,025 . ! Retimen ca unui prag al semnificatiei de 0.05 ii corespunde un scor Z de +/- 1,96.
Sa pesupunem ca in esantion avem 9 barbati ( x=9) .Putem in acst caz sa acceptam ipoteza H0 ( ca numarul barbatilor reprezinta jumatate din populatie ) .
Cum procedam : pt ca variabila sex este dihotomica calculam media si eroarea standard astfel - media = nP ( unde n= nr de membri,P=probabilitarea de aparitie a categoriei barbati )deci media=30( 0,50)=15
eroarea standard = radical din (nPQ) unde Q=probabilitate de apriatie a categoriei femei;deci eroarea standard = radical din 30(0,50)(0,50)=2.74.
Stiind media si eroarea standard putem transforma observatiile din esantion in forma standardizata a scorului Z dupa formula : valoare observata -media /eroare standard ( vezi si formula din anexa) .In cazul nostru valoarea scorului Z=-2,19. Probabilitatea asociata lui Z=-2,19 este de 0.0286 este mai mic decat 0.05 deci rezultatul obtinut se afla in zona de excludere ;deci respingem H0 ceea ce inseamna c acceptam iipoteza alternativa . Aceasta este ceea ce numeste dovada prin contradictie : cand H0 este dovedita falsa ,H1( ipoteza alternativa) devine credibila . Din acest punct putem testa ipoteze alternative directionale apeland la teste de semnificatie cu o singura latura /"coada" .In ex nostru presupunem, ca vrem sa verificam daca nr barbatilor este mai mic de jumatate deci ne intereseaza doar latura
stanga a distributiei ceea ce inseamna ca aria de 0,05 este in partea stanga a distributiei .Daca rezultatul observat se afla in aria celor 0,05 atunci H0 este inca o data respins iar ipoteza alternativa directionala este acceptata. Probabilitatea asociata lui Z=-2,19 ,cu o singura latura este de 0,0143, mult mai mica decat 0,05 deci ipoteza H0 este respinsa iar H1 este acceptata .
Decizia de a accepta sau de a respinge ipotezele se poate face si comparand direct valorile scorului Z. Valoarea scorului Z asociat lui 0,05 este 1,65. Daca valoarea scorului Z inregistrat de noi este in afara intrevalului+/-1,65 atunci ipoteza H1 poate fi acceptata. -2,19 este in afara acestui interval deci putem accepta ipoteza H1 .
Cercetatorii isi pot alege singuri pragurile de semnificatie dar cele mai des utilizate sunt cele de 0,01 si 0,05 .
Riscul erorilor
Exista doua tipuri de erori care se pot produce .
Tipul I : respingerea ipotezei H0 atunci cand ar fi trebuit sa o acceptam .
Tipul II : acceptam ipoteza H0 atunci cand ar trebui sa o respingem .
Nu putem fi niciodata siguri ca am luat decizia corecta dar putem sa reducem riscul de gresi . Tipul I de eroare este egal cu nivelul de semnificatie deoarece acesta stabileste regiunea de respingere a ipotezei de nul . ( in cazul nivelului de semnificatie =0,05 riscul de a gresi este redus la 5%) . .Reducerea nivelului de semnificatie scade riscul de materializare a unei erori de tipul I dar creste riscul de producere al unei erori de tipul II . Eroarea de tip II consta in acceptarea ipotezei cand aceasta ar trebui sa fie exclusa ; coborarea nivelului semnificatiei duce la sporirea acestui risc . Evitarea erorii de tip II consta in abilitatea de a descoperi daca este vorba de diferenta datorata unei variatii de esantionare sau unei diferente reale fata de populatie .Riscul unei erori de tip II este legat de puterea unui test statistic.Trei factori influenteaza puterea unei statistici :
a) pragul de semnificatie ;
b) reprezentativitatea esantionului ;
c) marimea diferentei dintre rezultatul obseervat si rezultatul asteptat.
TESTELE DE CONCORDANTA ( GOODNESS OF FIT)
Testele se impart in doua categorii : destinate variabilelor continue ( de interval ) si cele detinate variabileleor discrete(ordinale sau nominale)Cele doua mai sunt numite teste de semnificatie parametrice respectiv non-parametrice .
Testele parametrice : permit identificarea diferentelor intre doua distributii comparand mediile distributiilor intre ele( trebuie deci sa poti calcula media si ai destule exemple sa poti obtine un model apropiat de curba distributiei normale) . Ele sunt limitative in sensul ca pleaca de la presupozitia ca distributia variabileleor este de forma distributiei normale .
Aceste teste vor fi descrise in continuare ,separat , urmarind aspectele urmatoare: descrierea testului, ilustrarea utilizarii fiecarui test, caracteristicile fiecarui test ( sumar )
Aceste teste sunt : testul erorii standard a mediei;testul t( student's t test ) pt situatia in care este cunoscut doar abaterea satndard a esantionului ;testul erorii standard a proportiilor (utilizat pt variabilele nominale , dihotomice )
Eroarea standard a mediei = trebuie sa determine daca media estimata in esantion este o buna aproximare a medie din populatie . ( se stabileste relevanta pt populatie a rezultatelor obtinute din studierea ensantionului ) .Marimea diferentei dintre media din esantion si media din populatie este calculata tinand cont de variatia variabilei in populatie asa cum este aceasta descrisa de eroarea standard a mediei ( vezi formula si exemplul ) .
Pe scurt :testul erorii standard a mediei este utilizat pt a vedea daca media din esantion corespunde mediei din populatie ; este limitat la situatiile in care cunoastem parametrii medie si abatere standard in populatie . ;variabila este o variabila de interval ,numarul de membrii este mai mare sau egal cu 30,distributia variabilei in populatie trebuie sa fie normala .
Formula testului este :T= (x-U)/ s/radical din n-1 unde x=media din esantion ,U=media din populatie .Cand Gosset a descoperit ca s/radical din n-1 ofera o buna estimare a erorii standard in populatie el a pus la punct si forma exacta a distributiei valorilor lui T.Distributia valorilor lui T este compaabila cu cea a valorilor lui Z( in sensul ca este folosita pt a determina probabilitatea unui estimari ).Valorile lui T sunt reprezentate de o familie de distributii care depind de o valoare numita grade de libertate(df) ale distributiei. Gradele de libertate ale unei distributii sunt egale cu numarul valorilor in distributie care sunt libere sa varieze fara a schimba suma distributiei. .Forma distributiei se schimba o data cu gradele de libertate si cu dimensiunea esantionului . Cand marimea esantionului si gradele de libertate sunt mici ,distributia este plata/turtita si indepartata de abcisa ceea ce sporeste riscul unei variabilitati mari a estimarii bazate pe esantioanele mici.Fiecarui nivel de libertate pt distributiile cu una sau cu doua laturi ii corespunde o anumita valoare la un anumit nivel al pragului de semnificatie . Reguala este urmatoarea : daca valoarea lui T este egala sau mai mare decat valoarea din tabel ( aflata la intersectia dintre gradele de libertate si nivelul se seminificatie ) atunci respingem ipoteza de nul si acceptam ipoteza alternativa.
Pe scurt : testul T este utilizat pt a testa concordanta intre esantion si populatie atunci cand nu este cunoscuta abaterea standard in populatie si doar abarterea standard in esantion ( s). Testul T este potrivit esantioanelor mici ca dimensiuni iar ,cu ajutorul gradelor de libertate,este adaptat esantioanelor f. mici. Onditiile de aplicabilitate ale testului t sunt : sa fie o variabila de interval ,forma distributiei sa fie normala,numarul de entitati incluse in esantion poate fi mai mic sau egal cu 30.
Eroarea standard pentru proportii( variabile binominale )
Acest test arata concordanta proportiilor dintr-un esantion cu proportia din populatie . Acest test este o aproximare a distributiei normale si este utilizat ca alternativa pt variabilele binominale atunci cand categoriile sunt mai mari de 10 ( p si q-cele doua categorii -au un nr de exemplare egal sau mai mare de 10). Formula arata ca Z este un raport intre diferenta dintre proportia din esntion si proportia din populatie si eroarea standard a proportiilor . Testul pleaca de la premisa ca distributia este cea a unei variabile binominale . Ipoteze care pot fi testate sunt atat cele cu o latura cat si cele cu o singura latura si pot avea forma urmatoare : Ipoteza de nul =procentul din populatie este proportia specificata ;ipoteza alternativa cu doua laturi : procentul din populatie difera de cel specificat ; ipotezele ci o latura : procentul din populatie este mai mic decat cel specificat sau procentul din populatie este mai mare decat cel specificat .
Pe scurt: acest test este utilizat pt a evalua concordanta dintre distrubutia unei variabile dihotomice in esantion si cea asteptata in populatie ;pt a pute fi aplicat trebuie ca cele doua categorii sa fie mai mari de 10 membri,ca variabila sa fie nominala dihotomica ;poate fi testat pe ipoteze cu una si cu doua laturi /cozi.
Testele nonparametrice (concordanta pentru variabilele discrete)
Testul Kolmogorov - Smirnov ( K-S) este folosit pt a determina daca distributia unui esantion pe rangurile unei scale ordinale corespunde distributiei ipotezate pt. populatie.Testul se bazeaza pe o comparatie a distributieiobservate in esantion si distributia asteptata in populatie . Testul statistic D este egal cu maximul diferentei dintre cele doua frecvente relative ale distributiei ( diferenta absoluta ) : frecventa realtiva a distributiei din populatie - frecventa relativa a distributiei din esantion ( in modul astfel incat rezultatul sa fie mereu pozitiv).Frecventa relativa a distributiei din populatie este egala cu proportiile cumulate ale fiecarui rang al scalei ordinale (Fx). Frecventa relativa a distributiei in esantion este egala cu suma proportiilor de pe fiecare rang al scalei ordinale din esantion. testul K-S este nonparametric deoarece nu este focalizat pe un singur parametru ca de exemplu media dar localizeaza orice diferenta intre distributia esntionului si a populatiei; nu tine cont de forma distributiei ( este distribution free) ,necesita doar ca forma distributiei in populatie sa fie specificata ( nu impune insa o anumita forma a acestei distributii).deci trebuie sa specifici fiecare proportie a populatiei asteptata in fiecare rang al scalei ordinale . Testul permite testarea doar a ipotezelor cu doua laturi si acete sunt urmatoarele : ipoteze de nul = distributia in populatie este cea preconizata de frecventa realiva a populatiei ( Fx) iar ipoteza alternativa este ca distributia in populatie difera de cea preconizata ( difera de Fx) .
Regula de interpretare : daca valoarea lui D este egala sau mai mare decatvaloare inscrisa in tabelul care prezinta valoarea lui D pt un anumit nivel de semnificatie si pt o anumita dimensiune a esantionului atunci respingem ipoteza de nul .rationamentul acestui test este ca daca eantionul observat este concordant cu populatia atunci frecventele cumulate ale celor doua ar trebui sa fie similare in forma .
Pe scurt : testul K-S este utilizat pt datele ordinale si desi nu este atat de puternic ca si testul T de concordanta este o alternativa viabila pt situatiile in care nu sunt satisfacute anumite conditii impuse de testul T . Conditiile de aplicare pt testul K-S sunt : variabilele sa fie cel putin ordinale distribuita variabilei ordinale sa poata fi specificata in populatie ;testul poate verifica doar ipotezele cu doua laturi.
Testul -chi-square : verifica concordanta pt variabilele multinominale
Testul chi-square ofera posibilitatea de a verifica concordanta pt variabilele nominale ;acet test reprezinta o extindere a testului varibilelor binominale la variabilele multinominale . Acest test este utilizat pt a verifica daca distribuirea membrilor esantionului in categoriile scalei nominale corespunde distributiei asteptate . Formula se obtine ridicand la patrat diferenta dintre frecventa observata si frecventa asteptata la o anumita categorie si impartind-o apoi la frecventa asteptata in populatie pt fiecare categorie a scalei nominale . Nici chi-square nu tine cont de forma distributiei dar trebuie ca nu mai mult de 20% dintre categorii sa nu aiba mai putin de 5 intrari .De asemenea nu putem verifica decat ipotezele cu doua laturi . Ca si testul T de concordanta si chi-square este o familie de distributii si deci forma fiecareia este determinata de gradele de libertate ale distributie. Gradele de libertate pt o variabila nominala =k-1, unde k=numarul .exista un tabel cu valorile probabilitatii asociate testului chi-square pt un anumit nivel de semnificatie si pt un anumit nivel al gradelor de libertate categoriilor nominale .Regula de interpretare este urmatoarea : daca valoarea lui chi-squaer este mai mare decat valoarea din tabel atunci respingem ipoteza de nul .
Pe scurt : testul chi-square este o alternativa la testul pt variabilele nominale cu doar doua categorii ;cel mai mare neajuns este sensibilitatea testului la marimea esantionului.Conditiile de aplicabilitate ale testului statistic : cel mult 20% dintre categorii sa aiba mai putin de 5 cazuri,sa fie specificata distributia pe categorii in populatie .Nu putem verifica decat ipoteze cu doua laturi /cozi .
!Concluzie Testele de concordanta atat cele parametrice cat si cele nonparametrice sunt foosite pt a stabili daca ezultatul statistic obtinut prin investigarea unui esantion corespunde parametrului ipotetic din populatie .
TESTELE PARAMETRICE PT VARIBILE CONTINUE
Testele din acest capitol sunt detinate verificarii daca doua esantioane reprezinta aceeasi populatie sau doua populatii asemanatoare. Si aceste teste se bazeaza pe raporul dintr valorile observate si cele asteptate( numaratorul reprezinta valorile observate iar numitorul valorile asteptate).Variatia asteptata este o estimare a abaterii standard a variabilei.
esantioanele din doua populatii diferite sunt comparate pt a vedea daca distribuita variabilei in cele doua populatii este diferita.
Esantioanele sunt extrase din aceeasi populatie dar membrii sunt expusi unor tratamente experimentale ( in asemenea cazuri esantioanele comparate sunt : un grup de control si un grup experimental;ele sunt utilizate pt a vedea care este influenta experimentului ).
Ce difera intre cele doua situatii : diferentele intre cele doua esantioane sunt explicate in primul caz prin deosebirile dintre cele doua populatii pe cand in al doilea caz diferentele sunt explicate prin influenta experimentului .
Doua sau mai multe grupuri sunt independente daca selectarea membrilor intr-un grup nu influenteaza selecti apt celelat/celalalte grupuri .
Doua grupuri sunt dependente daca selectarea unor membri intr-un grup determina componenta membrilor celuilalt grup .
In cazul in care selectam esntioanele din aceeasi populatie ,esntioanele sunt independente daca membrii lor sunt selectati aleator ;daca membrii sunt selectati astfel incat membrii unui grup sa se potriveasca caracteristicilor membrilor celuilalt grup atunci avem un caz de dependenta . ( caracteristicile unui grup impun caracteristicile celuilalt grup).Esantioanele pot fi alcatuite utilizand un test de tipul inainte si dupa care implia doar un esantion.In aceasta situatie masuratorile se fac asupra esantionului inainte si dupa efectuarea experimentului. ( pretest si posttest).In continuare vor fi prezentate 5 teste toate fiind parametrice.
Testul T este un raport intre diferenta intre mediile celor doua esntioane si eroarea standard a diferentei . ( vezi anexa ).Rationamentul acestui test este ca daca ,diferenta dintre cele doua medii este compatibila cu ceea ce se astepta ,atunci variabila este distribuita aproximativ la fel in cele doua populatii .! Ca si in cazul testelor din capitolul 8 si aceste teste emit ipoteze despre parametrii din populatie asa cum sunt acestia intuiti prin intermediul estimarilor din esantioanele reprezentative . Putem testa ipoteze nedirectionate si ipoteze directionate ;ipotezele nondirectionate sunt :ipoteza de nul -parametrii din cele doua populatii sunt egali( adica nu este nici o diferenta intre valorile inregistrate si cele asteptate) ;ipoteza alternativa -parametrii din cele doua populatii difera ;ipotezele directionate ; parametrul din populatia 1 este mai mare decat parametrul din populatia 2 sau invers : parametrul din ppulatia 1 este mai mic decat parametrul din populatia 2 .
Decizia se bazeaza pe valorile inscrise in tabel iar gradele de libertate se bazeaza pe cele doua esantioane si se calculeaza :n1+n2-2. ( ex: corelatia intre educatie/instruire si alcoolism -s-au comparat rate de alcoolism in doua esantioane cu grade diferite de educatie/instruire: o comunitate cu un nivel de educatie redusalc din 31 de membrii si alta comunitate cu un nivel ridicat de educatie alc din 37 de membrii.Prima comunitate are o medie a alcoolismului de 3,115 la suta de rezidenti iar a doua comunitate de 2,436.pt aceste valori eroarea standard este de 2,012 respectiv de 1,566 .Problema : este acesta o diferenta semnificativa in populatie ? Testul T de corelatie are valoarea 2,097;in tabel ,valoarea corespunzatoare este ~2,000;2,097este mai mare decat 2,000 deci putem respinge ipoteza de nul ,concluzia este ca : pare sa fie o diferenta intre cele doua populatii ;ipoteze directionate pot fi testate la un nivel de semnificatie de 0,25 .Concluzia finala : comunitatile cu un grad de instructie mai scazut au un grad de alcoolism mai ridicat.)
Pe scurt : testul T pt diferenta a doua medii independente unde variatia variabilelor este asemanatoare poate fi aplicata daca sunt respectate conditiile : variabilele sa fie de interval ,variatia din cele doua populatii sa fie asemanatoare,aproximativ egala ,variabila sa aiba o distributie normala .
Exista o alternativa la acest test pt cazurile in care cele doua esantioane nu au o variatie aproape egala .
Acest test se bazeaza pe teoria limitei -centrale ;eroarea standard a diferentei se calculeaza utilizand variatia variabilelor in esantion. ( vezi formulele) .
Pe scurt : si acest test pleaca de la premisa ca varibilele au o distribuite normala inpopulatie si variabilele sunt de interval .
ex testarea opiniilor unui grup de proprietari privind guvernarea locala inante si dupa o creste a taxelor locale. ).Testul poate verifica ipoteze directionate si nondirectionate .
Pe scurt : Acest test se aplica variabilelor dihotomice ,se bazeaza pe schimbarea celulelor unui tabel de contingenta cu doua randuri si doua coloane ,evalueaza semnificatia schimbarii ,Z poate fi util daca cel putin una dintre diagonale are mai mult de 10 cazuri. ( vezi un exemplu de tabel de contingenta tipic in foaia cu formule ) .
CAPITOLUL X
COMPARAREA A DOUA VARIABILE DISCRETE -TESTE NONPARAMETRICE
Testele nonparametrice sunt mai putin restrictive atat in ceea ce priveste forma distributiei cat si marimea esantionului.Testele parametrice se concentreaza asupra evaluarii diferentelor apeland la o populatie specifica pe cand testele nonparametrice se concentreaza asupra diferentelor mai generale ale distributiilor.
In ceea ce priveste testele nonparametrice trebuie sa tinem cont de puterea lor ;prin puterea unuitest intelegem capacitatea acestuia de a evita tipul II de eroare( vezi mai sus,cap VII).Este posibil sa calculam puterea unui test dar nu acesta esste obiectivul acestui capitol ;ce trebuie sa retinem este ca unele teste sunt mai puternice decat altele si ca standardul de a face distinctia intre ele este testul T . .Descrierea se face in procente deci un test este descris ca fiind in proportie de 95% la fel de puernic ca si testul T
VARIABILE ORDINALE
Comparand doua variabile ordinale independente
1)Testul Mann-Whitney , testul U
Descrierea testului : testul este utilizat cand distibutia unei variabile continue nu este normala si deci nu putem utiliza testul T ;scorurile de interval sunt combinate si li se atribuie ranguri . de al cea mai mica la cea mai mare valoare . ;in final suma celor doua ranguri este comparata.Daca scorurile au valoare aproximativ egala atunci si distributia ar trebui sa fie asemanatoare. Testul este sensibil la diferentele tendintei centrale in distributiile celor doua populatii ( vezi formula ).
U este egal cu valoarea cea mai mica dintre cele doua .
Daca n1 si n2 sunt mai mari decat 10 distributia lui U se aproprie de distributia normala si putem deriva un scor Z din U premisa este ca daca extragem mai multe esantioane din doua populatii atunci distributia lui U va fi apropiata de cea normala. Media si eroarea standard pt : U= n1n2/2 respectiv U=n1n2(n1+n2+1)/12.Scorul Z este procentul dintre diferenta intre valorile asteptate si cele observate ( la numarator ) si valoarea asteptata a erorii standard .
Putem testa doar o ipoteza nedirectionata( cu doua laturi) Pt esantioanele statistice mai mici de 10 se foloseste tabelul de la anexa ( care nu este in xeroxuri ). Cand probabilitatea asociata lui Z este mai mica decat 0,05 atunci respingem ipoteza de nul ( ca cele doua variabile au aceeasi distributie in populatie).
Pe scurt : testul Mann-Whitney U este cea mai puternica alternativa pt testul T avand o eficienta de 95% ;acest test este until pt a compara doua distributii care nu indeplinesc conditiile impuse de testul T
Testul mann-whitny este sensibil la diferentele in forma distributiei rangurilor repartizate la doua distributii de interval ;este potrivit cand numarul scorurilor este apropiat ; nu face presupuneri despre forma distibutiei variabileisi pleaca de la premisa ca cele doua esantioane sunt extrase independent.
2) Testul K-S pt doua esantioane
Testul Mann-whitney nu poate fi utilizat pt variabile ordinale ce au intre 3-7 categorii .In acest caz se foloseste testul K-S care a fost special creat pt acest caz. D statistic este egal cu cea mai amre diferenta dintre proportiile cumulate ale celor doua esantioane. Putem testa atat ipoteze directionate cat si ipoteze nondirectionate .Probabilitatea pt ipotezele nedirectionate este testata utilizand distributia valorilor lui D iar ipotezele directionate sunt testate utilizand distributia lui chi-square . Pt ipotezele nondirectionate respingem ipoteza de nul daca valoarea lui D este mai mare decat valoarea lui D derivate din tabel atunci respingem ipoteza de nul .
Pe scurt : cerintele de aplicare ale testului si avantajele acestuia sunt - variabila sa fie ordinala ,proportia membrilor din fiecare categorie trebuie cumulata.cele doua esantioane sa fie independente ,nu se fac presupuneri privind distributia variabilei in cele doua populatii poate fi folosit pt ipotezele directionale si nondirectionale .Testul are o eficienta de 85-90% in compaaratie cu testul T.
Compararea a doua esantioane de variabile ordinale dependente
Testul Wilcoxon
Acest test este utilizat pt a vedea daca doua esantioane reprezinta doua populatii similare ( cele doua esantioane pot fi pereche sau poate fi acelasi esantion dar inainte si dupa)Testul se bazeaza pe acordarea de ranguri diferentelor intre masurile de interval ale celor doua grupuri . Utilitatea testului este data si de faptul ca tine cont de marimea diferentei dintre rangurile date din moment ce acestea se bazeaza pe marimea diferentei dintr masurile de interval. Testul se bazeaza pe valoarea lui T ,T fiind egal cu semnul rangului cu cea mai mica suma. .Probabilitatea lui T este raportul dintre diferenta valorilor asteptate si a celor observate .Putem testa atat ipoteze directionate cat si nondirectionate . Regula de interpretare : daca valoara lui T este mai mica sau egala cu valoarea asociata in tabel atunci respingem ipoteza de nul si acceptam ipoteza alternativa .
Pe scurt : testul are o putere de 95% ,este utilizat pt doua grupuri dependente ,masura originala se presupune ca este o masura de interval dar testul se bazeaza pe ierarhizarea diferentelor dintre scorurile de interval , sepot testa ambele tipuri de ipoteze,este sensibil la marimea diferentei dintre ranguri.
VARIBILE NOMINALE
Comparand doua variabile nominale independente
1)Testul chi-square
Este preferat acest test deoarece evalueaza nivelul de contingenta intre doua variabile nominale. Contingenta se poate referi fie la doua populatii fie la doua variabile nominale . Testul se bazeaza pe diferenta dintre frecventele observate si cele asteptate in celulele tabelului de contingenta. .Putem testa ipoteze nondirectionale dar in cazul variabilelor dihotomice putem evalua si ipoteze directionate prin examinarea valorilor inscrise in celulele aflate in diagonala. Gradele de libertate ale tabelelor de contingenta se calculeaza de regula ca fiind nr de coloane -1 inmultit cu nr de linii -1 .
Testul tinde sa supra estimeze asociatia in tebele de tipul 2*2 atunci cand numarul exemplelor este mai mic de 75 de aceea se aplica o corectie Yates pt continuitate ( reducerea diferentei valorile observate si cele asteptate din fiecare celula cu 5 ) .Ipoteza de nul se respinge daca are o val mai mare deat cea din tabel .
Pe scurt : testul este f. des utilizat nefiind alte teste pt a evalua acest gen de variabile . Caracteristicile majore sunt : testeaza relatia dintre doua variabile nominale ; pleaca de la premisa independentei celor doua variabile ,nu sunt necesare anumite conditii priind distributia ,pt un tabel de genul 2*3 nici o celula nu trebuie sa aiba mai putin de 5 cazuri ,corectcia Yates trebuie folosita mereu in cazul in care n=75,intr-un tabel de tipul n*n nu mai mult de 20% dintr celule nu trebuie sa aiba sub 5 cazuri ,cand n este mai mare decat 250 atunci testul supra estimeaza intinderea relatiei.
Comparand doua varibile nominale dependente
Testul McNamara
Testul este folosit pt a evalua compatibilitatea a doua esantioane dependente din punctul de vedere al unei variabile dihotomice ( cel mai adesea este aplicat in cazul masuratorilor inainte si dupa ) ; accentul cade pe celule care sufera modificari .Se testeaza explicit o ipoteza directionata deoarece ofera informatii directed despre modificarile din celulele a si d ( dintr-un tabel de tipul 2*2 )
Testul este restrictionat la esantioanele mai mari de 5 ;chiar si cu un esantion de 6 este insa eficient . ! La un grad de libertate ,radical din chi-square este egal cu scorul Z . Testul este alternativa testului de proportii pt esantioanele dependente ,nu tine cont de forma distributiei ,este folosit cand neste mai mare sau egal cu 5 .
Pe scurt in acest capitol au fost prezentate teste pt urmatoarele situatii :
Pt variabile ordinale - independente : Mann-Whitney U test si K-S test
- dependente : testul Wilcoxon.
Pt variabilele nominale - independente : testul chi-square pt doua esantioane
- dependente : testul chi-square al lui McNamara.
CAPITOLUL XI
COMPARAREA A MAI MULT DE DOUA MASURI ,ANALIZA VARIANTEI
Analizele de varianta(ANOVA) sunt folosite pt a compara mai multe grupuri .Modelele de ANOVA sunt construite astfel incat criteriul de diferentiere dintre esantioane sa reprezinte variabila independnta iar ceea ce se masoara sa fie variabila dependenta . ( vrem sa vedem /masuram cum variaza alcoolismul in 4 grupuri etnice ) .
Tehnicile ANOVA pot fi folosite in multiple cazuri teoretice pt a vedea realatia dintre variabile dependente si cele independente.
TESTELE PARAMETRICE :
ANOVA cu o directie : testul F
Testul F se bazeaza pe aceeasi logica ca si testul T ;diferentele multiplelor medii de grupuri sunt comparate cu variatia variabilei in interiorul esantionului. ! tehnicile de comparare a variatiei mai multor grupuri se bazeaza pe masuri ale variatiei nu pe cele ale abaterii standard.
Scopul ANOVA este sa faca deosebirea intre diferente intre grupuri si diferente in acelasi grup din totalul diferentelor de variatie . Diferentele dintre grupuri sunt explicate prin influenta unei variabile asupra celeilalte pe cand variabilele din interiorul grupului sunt considerate ca fiind inexplicabile .
Diferenta totala a variatiilor = variatia intre grupuri + variatia in interiorul grupurilor .
Estimarea lui F= raportul dintre diferentele variatiei intergrupale si variatiile intragrupale
Distributia lui F este o familie de distributii cu grade diferite de libertate -valorile necasare respingerii ipotezei de nul la pragurile de semnificatie 0,05 si 0,01 sunt trecute intr-un tabel
Distributia lui F pleaca de la premisa ca variabila dependenta este o variabila de interval si ca esantioanele au fost selectate independent . Mai mult , distributia trebuie sa fie normala
Homoscedasticitate= presupunerea unor variatii egale .
Ipoteza de nul = mediile din populatii sunt egale .Daca ipoteza de nul se adevereste atunci diferentele dintre grupuri vor fi aproximativ egale cu diferentele din grupuri . Daca respingem ipoteza de nul atunci acceptam ca diferenta dintre grupuri este raspunzatoare pt variatia variabilei dependente
Regula de interpretare : ipoteza de nul este respinsa daca valoarea lui F observata este mai mare sau egala cu valoarea din tabel .
Pe scurt : scopul testului este de a verifica daca variabila independenta este raspunzatoare pt variatia variabilei dependente .Conditii de aplicare : varibila independenta sa fie de interval , esantioanele sa fie independente , variabila dependenta sa fie normal distribuita in populatiile din care au fost extrase esantioanele ,variatia esantioanelor sa fie aproximativ aceeasi.
ANOVA cu doua directii
Ca testul de mai sus ,si acest test urmareste sa diefentieze intre sursele de variatie ale variabilei dependente . Modelul cu doua directii examineaza efectul a doua variabile independente asupra variabilei independente.
Notiuni noi ( pt a intelege modelul ANOVA cu doua directii )
Modelul este numit model factorial si variabbilele independente sunt numiti factori sau efecte principale dat fiind ca este influenta lor asupra veriabilei dependente cea care il intereseaza pe cercetator .
Introducerea celei de-a doua variabila independenta complica lucrurile in sensul ca : diferentele dintre grupuri trebuie despartite in diferente datorate unei variabile si diferente datorate altei variabile . Mai mult este posibila o a treia sursa de vsariatie datorata interactiunii dintre cele doua variabile .Interactiunea apare cand efectele uneia dintre variabilele independente este influentat de categoriile celeilalte variabile .
! Tastam ipoteza de nul pt fiecare dintre efectele principale si pt efectul interactiunii. Ipoteza de nul se admite daca valoarea obtinuta este mai mica decat valoarea inscrisa in tabel ( in functie de nivelul de semnificatie ,de gradele de libertate) .Dupa ce admitem /respingem ipotea de nul in cazul unuia dintre efectele principale ,trecem la urmatorea ipoteza . Daca una dintre ipotezele de nul este acceptata iar cealalta este respinsa atunci justificam variatia variabilei dependente prin una dintre variabilele independente ( cea pt careipoteza de nul a fost respipnsa ) . De regula ,atunci cand introducem o varaibila independenta in plus -variatia intragrupala scade mult.De asemenea trebuie tinut cont de interactiunea dintre cele doua variabile independente ,mai ales daca aceasta este semnificativa .Cercetatorii spera ca aceasta interactiune sa fie minima .
Pe scurt : conditiile ce trebuie satisfacute pt a aplica tesul ANOVA cu doua directii sunt aceleasi ca in cazul ANOVA cu o directie ;singurul element suplimentar este premisa ca cei doi factori sunt independenti iar aceasta este explicitata cu termenul interactional.
ALTERNATIVE PT SITUATIA IN CARE VARIABILA DEPENDENTA ESTE ORDINALA SI TESTELE PARAMETRICE ANOVA NU POT FI APLICATE
Testul Kruskal-Wallis
- este folosit pt a determina daca trei sau mai multe grupuri independente difera referitor la o variabila ordinala. Ca si la testul F ,diferentele de grup reprezinta categorii ale variabilei independente. Tesula analizzeaza distributia rangurilor variabilei dependente de-a lungul grupurilor varibilei independente.
Ipoteza de nul este : grupurile nu difera in ceea ce priveste suma rangurilor lor . Testul necesita sa grupurile sa fie independente si ca variabila independenta sa fie ordinala .
Testul este interpretat folosind distributia valorilor lui chi-square .Ipoteza de nul este respinsa daca valoarea calculata este mai mare decat valoarea inscrisa in tabel .
Pe scurt : testul Kruskal-Wallis este o alternativa la testul F pt variabilele dependente ordinale ;testul are o eficienta de 95% ;premisele de la care pleaca sunt : observatiile pot fi asezate in ranguri de-a lungul categoriilor 'grupurile sunt independente si variabila dependenta este ordinala. Apare si aici problema scorurilor stranse ( daca acestea sunt mai mult de 25% testul nu poate fi aplicat ) .
Testul lui Friedman
-compara doua grupuri dependente pe a variabila independenta ierarhizata .Testul se bazeaza pe o distributie chi-square.Ipoteaza de nul : nu este nici o doferenta intre rangurile atribuite grupurilor pereche .Daca valoarea calculata este mai mica decat valoarea din tabel atunci nu putem respinge ipoteza de nul
Pe scurt : testul Friedman poate fi utilizat pt a compara esantioane multiple pe o scala ordinala cand esantioanele sunt dependente. Se bazeaza pe premisele : grupurile de comparatie sunt dependente ,variabila pe baza careia se face comparatia este ordinala .
P.S Mi-a zis Ionela ca tabelele care cuprind diferitele valori sunt cele din Rotariu .
Copyright © 2025 - Toate drepturile rezervate
Sociologie | |||
|
|||
| |||
| |||
|
|||