Alpinism | Arta cultura | Diverse | Divertisment | Film | Fotografie | |
Muzica | Pescuit | Sport |
Prelucrarea statistica a datelor experimentale |
Insusirea unor notiuni referitoare la: principalele tipuri de prelucrari statistice efectuate asupra esantioanelor de valori provenite din masurari experimentale sau din operatii de achizitie de date, domeniil de aplicabilitate ale respectivelor prelucrari, algoritmii si modurile de lucru corespunzatoare.
Aplicarea testelor statistice prezentate in lucrare asupra unui esantion de date experimentale si enuntarea concluziilor corespunzatoare.
In situatiile in care se urmareste determinarea valorii unei variabile dintr-un anumit proces, atunci cand se doreste eliminarea sau reducerea efectelor datorate diverselor tipuri de erori, valorile experimentale obtinute sunt supuse unor teste ce evalueaza influentele induse de catre factorii generatori de erori de masurare.
Principalele categorii de teste statistice aplicabile unui esantion de valori experimentale sunt dedicate identificarii si eventual eliminarii unor influente datorate celor trei tipuri de erori ce pot conduce la diferente intre valorile masurate si cele reale ale variabilei ce se doreste a fi determinata:
erori aberante (grosolane), cauzate de functionarea defectuoasa a sistemului de masurare sau provenite din nerespectarea de catre operatorul uman a metodologiei adecvate de masurare;
erori sistematice,
cauzate in general de configurarea (reglarea) incorecta a sistemului de
masurare sau de influenta unor factori exteriori de valoare
erori aleatoare, prezente in majoritatea activitatilor de masurare, datorate caracterului stochastic al oricarui proces natural, inclusiv al procesului studiat si al celui in urma caruia se obtin valorile experimentale.
In continuare vor fi prezentate o serie de teste pentru identificarea celor trei tipuri de erori enumerate mai sus. Daca identificarea valorilor experimentale afectate de erori aberante poate fi urmata de eliminarea valorilor respective din esantionul de date experimentale, prezenta erorilor sistematice nu poate fi perceputa decat prin influenta sa asupra intregului esantion de valori experimentale. Reducerea efectelor induse de catre erorile sistematice nu poate fi realizata decat prin compararea rezultatelor prelucrarii mai multor esantioane de valori experimentale. Deoarece erorile aleatoare apar in majoritatea esantioanelor de valori experimentale (exceptie facand unele determinari precise ale unor variabile de natura discreta), testele statistice nu urmaresc in acest caz decat evidentierea gradului in care aceste erori au afectat esantionul respectiv, indicand daca densitatea de probabilitate a acestuia mai coincide ca forma generala cu aceea a variabilei reale ce a fost masurata.
Fiind dat un sir de valori experimentale , se considera ca valoarea xi este afectata de erori aberante daca este verificata conditia (criteriul Chauvenet)
|
(1.1) |
unde si s reprezinta media aritmetica, respectiv abaterea standard a sirului de valori experimentale, iar marimea z se alege din tabelul 1.1 in functie de numarul n de valori din sir (cunoscut si ca dimensiunea sirului sau volumul esantionului).
Tabelul 1.1
n |
z |
n |
z |
n |
z |
5 |
1,64 |
14 |
2,10 |
27 - 29 |
2,37 |
6 |
1,73 |
15 |
2,12 |
30 - 33 |
2,41 |
7 |
1,80 |
16 |
2,14 |
34 - 38 |
2,46 |
8 |
1,87 |
17 |
2,17 |
39 - 45 |
2,51 |
9 |
1,91 |
18 |
2,20 |
46 - 55 |
2,58 |
10 |
1,96 |
19 |
2,23 |
56 - 71 |
2,65 |
11 |
2,00 |
20 - 21 |
2,26 |
72 - 100 |
2,75 |
12 |
2,04 |
22 - 23 |
2,29 |
101 - 166 |
2,88 |
13 |
2,07 |
24 - 26 |
2,33 |
167 - 500 |
3,09 |
Din motive evidente, este suficient ca verificarea relatiei (1.1) sa fie efectuata doar pentru valorile extreme (minima si maxima) din cadrul esantionului.
Valoarea abaterii standard a sirului de valori experimentale este determinata in acest caz cu expresia
|
(1.2) |
Valoarea z din tabelul 1.1 poate fi determinata si cu ajutorul relatiei
|
(1.3) |
unde
|
(1.4) |
Daca, in urma aplicarii testului, rezulta ca una dintre valorile testate este afectata de erori aberante, valoarea respectiva este eliminata din cadrul esantionului, se recalculeaza valorile mediei si abaterii standard pentru valorile ramase si se reia verificarea conditiei (1.1), algoritmul aplicandu-se pana cand conditia respectiva nu mai este verificata pentru nici una dintre cele doua valori extreme ale esantionului.
Unul dintre testele cele mai utilizate pentru verificarea caracterului aleator al unui esantion de valori experimentale este testul Young, descris prin algoritmul de mai jos.
Pasul 1: Fiind dat un sir de valori experimentale , se calculeaza marimea
|
(1.5) |
si marimea
|
(1.6) |
Pasul 2: Se compara marimea M cu valorile VCI (valoare critica inferioara) si VCS (valoare critica superioara), alese din tabelul 1.2, si se considera ca sirul de valori experimentale are un caracter aleator, cu probabilitatea a, daca este indeplinita conditia
VCI < M < VCS |
(1.7) |
Tabelul 1.2
VCI |
VCS |
|||
n |
a = 0,95 |
a = 0,99 |
a = 0,95 |
a = 0,99 |
4 |
0,78 |
0,53 |
3,22 |
3,47 |
5 |
0,82 |
0,54 |
3,18 |
3,46 |
6 |
0,89 |
0,56 |
3,11 |
3,44 |
7 |
0,94 |
0,61 |
3,06 |
3,39 |
8 |
0,98 |
0,66 |
3,02 |
3,34 |
9 |
1,02 |
0,71 |
2,98 |
3,29 |
10 |
1,06 |
0,75 |
2,94 |
3,25 |
11 |
1,10 |
0,79 |
2,90 |
3,21 |
12 |
1,13 |
0,83 |
2,87 |
3,17 |
15 |
1,21 |
0,92 |
2,79 |
3,08 |
20 |
1,30 |
1,04 |
2,70 |
2,96 |
25 |
1,37 |
1,13 |
2,63 |
2,87 |
Se poate observa ca testul nu poate fi aplicat decat pentru esantioane continand cel mult 25 de valori experimentale.
Parametrul a din tabelul 1.2 are semnificatia unui coeficient de incredere si poate fi ales orientativ, in functie de volumul esantionului, din tabelul 1.3.
Tabelul 1.3
n |
5 |
6 |
7 |
8 |
9 |
10 |
12 |
14 |
a |
0,960 |
0,970 |
0,976 |
0,980 |
0,983 |
0,985 |
0,988 |
0,990 |
n |
16 |
18 |
20 |
25 |
30 |
50 |
100 |
150 |
a |
0,991 |
0,992 |
0,993 |
0,994 |
0,995 |
0,996 |
0,997 |
0,9973 |
Daca volumul esantionului se afla intre doua valori din tabelul 1.3, este indicat sa se aleaga valoarea a corespunzatoare unui volum mai mic al esantionului.
Alegerea coeficientului de incredere din tabelul 1.3 poate fi inlocuita de determinarea acestuia cu ajutorul relatiei
|
(1.8) |
Daca valoarea aleasa sau calculata a coeficientului de incredere se afla intre valorile disponibile in tabelul 1.2, este indicat sa se aleaga valoarea disponibila inferioara.
Alegerea valorilor VCI si VCS din tabelul 1.2 poate fi inlocuita cu determinarea acestora cu ajutorul relatiilor
|
(1.9) |
|
(1.10) |
Ipoteza ca valorile experimentale din cadrul unui esantion sunt repartizate dupa o lege de distributie normala (Gauss) poate fi testata, intr-o prima aproximare, prin verificarea urmatoarelor criterii:
histograma esantionului de valori experimentale sa aiba un singur varf (punct de maxim);
diferenta dintre media teoretica a esantionului si valoarea mediana a acestuia sa fie nula, unde valoarea mediana poate fi determinata cu relatia
|
(1.11) |
unde indicii superiori, intre paranteze rotunde, semnifica pozitia in cadrul sirului ordonat crescator;
diferenta dintre media teoretica a esantionului si modulul acestuia sa fie nula (conditie echivalenta cu cea anterioara), unde modulul poate fi determinat cu relatia
|
(1.12) |
sa fie satisfacuta urmatoarea conditie referitoare la coeficientul de boltire :
|
(1.13) |
unde reprezinta momentul centrat de ordinul 4, determinat cu relatia
|
(1.14) |
iar abaterea standard s este determinata de aceasta data din relatia
|
(1.15) |
sa fie satisfacuta urmatoarea conditie (echivalenta cu cea anterioara) referitoare la valoarea excesului E al esantionului de valori experimentale:
|
(1.16) |
Daca verificarea criteriilor prezentate mai sus nu conduce la rezultate elocvente, pentru verificarea ipotezei referitoare la distributia normala a valorilor din esantionul experimental se poate apela la unul din testele Massey sau , alegerea unuia sau altuia dintre cele doua teste facandu-se in functie de valoarea volumului esantionului de date experimentale.
Testul poate fi aplicat pentru valori ale volumului esantionului in intervalul si consta din urmatorii pasi:
Pasul 1: Se calculeaza valorile
|
(1.17) |
Pasul 2: Se determina valorile
|
(1.18) |
unde
|
(1.19) |
Pasul 3: Se calculeaza frecventele relative cumulate
|
(1.20) |
unde reprezinta numarul de valori y mai mici sau egale cu valoarea .
Pasul 4: Se determina valorile
|
(1.21) |
si se alege valoarea .
Pasul 5: Se compara valoarea cu valoarea aleasa din tabelul 1.4 (in functie de volumul esantionului si de un coeficient de incredere a ales conform celor prezentate anterior) si se considera ca esantionul de valori experimentale are o distributie normala (Gauss) daca este indeplinita conditia
|
(1.22) |
Tabelul 1.4
|
|
|
||||||
n |
|
|
n |
|
|
n |
|
|
8 |
0,140 |
0,163 |
16 |
0,125 |
0,144 |
24 |
0,110 |
0,126 |
9 |
0,134 |
0,158 |
17 |
0,124 |
0,142 |
25 |
0,109 |
0,124 |
10 |
0,130 |
0,156 |
18 |
0,122 |
0,138 |
26 |
0,108 |
0,121 |
11 |
0,129 |
0,155 |
19 |
0,120 |
0,136 |
27 |
0,107 |
0,120 |
12 |
0,128 |
0,154 |
20 |
0,117 |
0,133 |
28 |
0,105 |
0,118 |
13 |
0,128 |
0,153 |
21 |
0,115 |
0,131 |
29 |
0,104 |
0,116 |
14 |
0,128 |
0,151 |
22 |
0,113 |
0,129 |
30 |
0,102 |
0,114 |
15 |
0,127 |
0,148 |
23 |
0,112 |
0,128 |
31 |
0,099 |
0,111 |
Valorile din tabelul 1.4 pot fi aproximate prin calcul utilizand expresiile
|
(1.23) |
Testul poate fi aplicat pentru esantioane de cel putin 50 de valori experimentale si consta din urmatorii pasi:
Pasul 1: Fiind dat un sir de valori experimentale , se ordoneaza sirul crescator si se imparte in k clase, unde
|
(1.24) |
si
|
(1.25) |
Pasul 2: Se comaseaza clasele extreme, daca este cazul, astfel incat fiecare clasa sa aiba cel putin cate 5 valori, si se considera numarul de grade de libertate al sirului de date
n = numarul de noi clase (comasate) - 1 |
(1.26) |
Pasul 3: Se calculeaza pentru fiecare clasa valoarea
|
(1.27) |
unde reprezinta limita superioara a clasei i (la ultima clasa se considera x(n+1) = ¥).
Pasul 4: Se calculeaza valorile
|
(1.28) |
unde
|
(1.29) |
unde
|
(1.30) |
|
(1.31) |
Pasul 5: Se calculeaza valoarea
|
(1.32) |
unde reprezinta numarul de valori din clasa i.
Pasul 6: Se compara c2 cu din tabelul 1.5, in functie de coeficientul de incredere a si se considera ca repartitia este normala daca
|
(1.33) |
Tabelul 1.5
n |
a |
|||||||
0,80 |
0,90 |
0,95 |
0,98 |
0,99 |
0,995 |
0,998 |
0,999 |
|
4 |
5,99 |
7,78 |
9,49 |
11,67 |
13,3 |
14,9 |
16,9 |
18,5 |
5 |
7,29 |
9,24 |
11,1 |
13,39 |
15,1 |
16,7 |
18,9 |
20,5 |
6 |
8,56 |
10,6 |
12,6 |
15,03 |
16,8 |
18,5 |
20,7 |
22,5 |
7 |
9,80 |
12,0 |
14,1 |
16,6 |
18,5 |
20,3 |
22,6 |
24,3 |
8 |
11,0 |
13,4 |
15,5 |
18,2 |
20,1 |
22,0 |
24,3 |
26,1 |
9 |
12,2 |
14,7 |
16,9 |
19,7 |
21,7 |
23,6 |
26,1 |
27,9 |
10 |
13,4 |
16,0 |
18,3 |
21,2 |
23,2 |
25,2 |
27,7 |
29,6 |
11 |
14,6 |
17,3 |
19,7 |
22,6 |
24,7 |
26,8 |
29,4 |
31,3 |
12 |
15,8 |
18,5 |
21,0 |
24,1 |
26,2 |
28,3 |
31,0 |
32,9 |
13 |
17,0 |
19,8 |
22,4 |
25,5 |
27,7 |
29,8 |
32,5 |
34,5 |
14 |
18,2 |
21,1 |
23,7 |
26,9 |
29,1 |
31,3 |
34,0 |
36,1 |
15 |
19,3 |
22,3 |
25,0 |
28,3 |
30,6 |
32,8 |
35,6 |
37,7 |
16 |
20,5 |
23,5 |
26,3 |
29,6 |
32,0 |
34,3 |
37,1 |
39,3 |
17 |
21,6 |
24,8 |
27,6 |
31,0 |
33,4 |
35,7 |
38,6 |
40,8 |
18 |
22,8 |
26,0 |
28,9 |
32,3 |
34,8 |
37,2 |
40,1 |
42,3 |
19 |
23,9 |
27,2 |
30,1 |
33,7 |
36,2 |
38,6 |
41,6 |
43,8 |
20 |
25,0 |
28,4 |
31,4 |
35,0 |
37,6 |
40,0 |
43,1 |
45,3 |
Valorile din tabelul 1.5 pot fi determinate prin calcul utilizand relatia
|
(1.34) |
unde parametrii a, b, c si d depind de coeficientul de incredere a conform celor prezentate in tabelul 1.6.
Tabelul 1.6
a |
a |
b |
c |
d |
0,80 |
0,46418 |
1,48892 |
-0,032088 |
0,0015968 |
0,90 |
1,4172 |
1,72353 |
-0,039225 |
0,0014982 |
0,95 |
2,49661 |
1,93494 |
-0,054008 |
0,0022594 |
0,98 |
4,25874 |
2,00109 |
-0,040796 |
0,0011185 |
0,99 |
5,2267 |
2,24028 |
-0,064354 |
0,0023769 |
0,995 |
6,43404 |
2,33645 |
-0,065893 |
0,0023355 |
0,998 |
8,32969 |
2,31312 |
-0,045275 |
0,0007687 |
0,999 |
9,30127 |
2,57235 |
-0,079616 |
0,003011 |
Parametrii a, b, c si d pot fi de asemenea exprimati in functie de coeficientul de incredere a utilizand relatiile de mai jos, functiile de regresie respective oferind insa coeficienti de corelatie relativ departati de unitate.
|
(1.35) |
|
(1.36) |
|
(1.37) |
|
(1.38) |
Pe parcursul realizarii unui model de simulare a functionarii unui sistem de productie, se urmareste determinarea functiei de repartitie a numarului de piese prelucrate de catre o masina - unealta pe parcursul unei zile de lucru.
Pentru aceasta, pe parcursul a sase saptamani, se inregistreaza cantitatile prelucrate de catre respectiva masina - unealta, obtinandu-se rezultatele din tabelul 1.7.
Se cere:
a. Sa se verifice existenta in esantionul de date a valorilor afectate de erori aberante;
b. Sa se verifice caracterul aleator al esantionului de date;
c. Sa se verifice faptul ca esantionul de date urmeaza o lege de distributie normala.
Tabelul 1.7
Sapt |
L |
Ma |
Mi |
J |
V |
Sapt |
L |
Ma |
Mi |
J |
V |
I |
32 |
39 |
33 |
38 |
40 |
IV |
39 |
41 |
33 |
33 |
37 |
II |
32 |
41 |
41 |
39 |
41 |
V |
38 |
40 |
41 |
33 |
35 |
III |
33 |
33 |
33 |
34 |
37 |
VI |
40 |
40 |
32 |
38 |
32 |
Pasul 1: Se calculeaza media aritmetica a celor n = 30 valori (6 saptamani x 5 zile / saptamana) din tabelul 1.7:
|
(1.39) |
Pasul 2: Se calculeaza, utilizand expresia (1.2), abaterea standard a celor 30 de valori:
|
(1.40) |
Pasul 3: Se alege din tabelul 1.1 valoarea z = 2,41 (pentru n = 30).
In mod evident, dintre datele apartinand unui esantion experimental, cele suspecte de a fi afectate de erori aberante sunt valorile extreme ale sirului datelor ordonate crescator sau descrescator. Ordonand crescator cele n = 30 de valori ale esantionului studiat, se va efectua verificarea influentei erorilor aberante pentru valoarea minima x(1) = 32 si pentru valoarea maxima x(30) = 41, unde indicii dintre paranteze reprezinta pozitia in cadrul sirului ordonat. Rezulta, aplicand relatia (1.1):
|
(1.41) |
si
|
(1.42) |
concluzia fiind aceea ca nici una dintre valorile extreme nu este afectata de erori aberante.
Daca in urma aplicarii testului ar fi rezultat ca o valoare este afectata de erori aberante, aceasta ar fi trebuit exclusa din esantionul experimental, iar testul ar fi trebuit aplicat din nou valorilor ramase, recalculand parametrii , s si z.
Pasul 1: Folosind relatia (1.5), se calculeaza valoarea
|
(1.43) |
si folosind relatia (1.6) se calculeaza marimea
|
(1.44) |
Pasul 2: Din tabelul 1.2 se aleg valorile VCI = 1,13 si VCS = 2,87, corespunzatoare unui coeficient de incredere a = 0,99 si unui volum al esantinului experimental n = 25.
Valoarea coeficientului de incredere a fost aleasa astfel incat sa fie cat mai apropiata de valoarea recomandata in tabelul 1.3. Limitele VCI si VCS au fost alese corespunzator valorii n = 25 deoarece in tabelul 1.2 nu exista valori disponibile pentru un volum al esantionului n = 30. O extrapolare a valorilor din tabelul 1.2 ar putea fi permisa in acest caz, observand tendintele asimptotice ale functiilor (1.9) si (1.10) care descriu variatia limitelor VCI si VCS, cantitatile cu care acestea se modifica la o variatie unitara a volumului esantionului si pozitia in care valoarea M se incadreaza intre cele doua limite.
Deoarece este indeplinita conditia (1.7), se trage concluzia ca esantionul de date experimentale are un caracter aleator.
Dupa cum se poate observa in continuare, criteriile prezentate la inceputul subcapitolului 2.3 nu ofera rezultate pozitive privind caracterul normal al distributiei valorilor din esantionul experimental. Astfel:
histograma esantionului (figura 1.1) are o forma diferita de curba Gauss;
valoarea mediana, determinata cu relatia (1.11) este Me = 37,5, diferita de media aritmetica a esantionului = 36,6;
calculand, cu ajutorul relatiei (1.14), momentul centrat de ordinul 4 ( = 184,622), se determina din relatia (1.13) valoarea coeficientului de boltire = 1,347, acesta fiind mult departat de valoarea 3.
In consecinta, tinand seama de valoarea volumului esantionului experimental, se decide aplicarea testului Massey pentru verificarea caracterului normal al distributiei. Valorile rezultate din aplicarea pasilor 1, , 4 ai testului (relatiile (1.17), , (1.21)) sunt prezentate in tabelul 1.8. Valoarea dmax = 0,233 este mai mare decat valoarea dcritic = 0,102 aleasa din tabelul 1.4 (pentru n = 30 si a = 0,95). Conditia (1.22) nefiind indeplinita, |
Figura 1.1: Histograma esantionului de valori experimentale din Tabelul 1.7 |
testul Massey confirma presupunerea anterioara: cu probabilitatea 0,95 se poate estima ca esantionul studiat nu are o distributie normala.
Tabelul 1.8
xi |
yi |
ti |
ji |
ni |
Fi |
di |
Tabelul 1.8 (continuare)
xi |
yi |
ti |
ji |
ni |
Fi |
di |
| ||||||
Fiind dat esantionul de 60 de valori experimentale din tabelul 1.9, se va exemplifica in continuare aplicarea asupra acestuia a testului pentru verificarea normalitatii.
Tabelul 1.9
Pasul 1: Utilizand relatia (1.24) se determina numarul de clase k = 7, iar conform recomandarii (1.25) se alege k = 10.
Valorile extreme (minima si maxima) ale esantionului fiind xmin = 1 si xmax = 99, se determina latimea unei clase
|
(1.45) |
Limitele inferioara si superioara ale fiecarei clase, precum si numarul de valori experimentale din esantion din fiecare clasa, sunt prezentate in tabelul 1.10.
Tabelul 1.10
Clasa |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
Limita inferioara |
- ¥ |
10,8 |
20,6 |
30,4 |
40,2 |
50 |
59,8 |
69,6 |
79,4 |
89,2 |
Limita superioara |
10,8 |
20,6 |
30,4 |
40,2 |
50 |
59,8 |
69,6 |
79,4 |
89,2 |
¥ |
Numarul de valori |
3 |
10 |
8 |
7 |
7 |
6 |
5 |
4 |
4 |
6 |
Pasul 2: Deoarece prima clasa nu contine cel putin cinci valori, se comaseaza primele doua clase, obtinandu-se situatia din tabelul 1.11.
Tabelul 1.11
Clasa |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
Limita inferioara |
- ¥ |
20,6 |
30,4 |
40,2 |
50 |
59,8 |
69,6 |
79,4 |
89,2 |
Limita superioara |
20,6 |
30,4 |
40,2 |
50 |
59,8 |
69,6 |
79,4 |
89,2 |
¥ |
Numarul de valori |
13 |
8 |
7 |
7 |
6 |
5 |
4 |
4 |
6 |
Conform relatiei (1.26), se considera numarul de grade de libertate n = 8.
Pasii 3 si 4: Determinand valorile mediei aritmetice si abaterii standard ale sirului de date experimentale ( si ), se calculeaza, conform relatiilor (1.27), , (1.31), valorile prezentate in tabelul 1.12.
Tabelul 1.12
Clasa |
9 |
||||||||
xi |
¥ |
||||||||
ti |
¥ |
||||||||
ai | |||||||||
f(ti) | |||||||||
pi |
Pentru calculul valorii p0 s-a considerat f(t0) = f ¥
Pasul 5: Utilizand relatia (1.32), se determina valoarea c
Pasul 6: Alegand din tabelul 1.3 un coeficient de incredere recomandat a = 0,996, se alege din tabelul 1.5 (pentru a = 0,995 si n = 8) valoarea = 22.
Deoarece conditia (1.33) nu este satisfacuta, se trage concluzia ca esantionul de valori experimentale din tabelul 1.9 nu are o functie de repartitie normala (Gauss).
Pentru unul dintre esantioanele de valori experimentale din Anexa 1, sa se studieze:
existenta unor valori afectate de erori aberante;
caracterul aleator al esantionului de date;
incadrarea valorilor din esantion intr-o distributie normala (Gauss).
Copyright © 2024 - Toate drepturile rezervate