![]() | Biologie | Chimie | Didactica | Fizica | Geografie | Informatica |
Istorie | Literatura | Matematica | Psihologie |
Elemente de Statistica si Prelucrarea Datelor
Cerinta:
In sectiunea barata a unui curs de apa s-au inregistrat debitele medii lunare pe durata a 100 de ani de observatii, ca in tabelul de date primit pentru luna de analizat.
a) Sa se ordoneze crescator datele de esantion si sa se calculeze frecventa empirica folosind relatia
|
pentru data de rang r din sirul ordonat.
b) Sa se claseze datele intr-un numar convenabil de clase de ecart egal, calculand frecventele absoluta, relativa si cumulata.
c) Sa se reprezinte grafic histograma, frecventa relativa si frecventa cumulata.
d) Sa se calculeze statisticile de esantion (medie, mediana, moda, abaterea medie absoluta, varianta, abatere standard, coeficient de variatie, cuartile, coeficient de asimetrie, coeficient de boltire).
e) Presupunand ca lacul alimenteaza o
|
unde
kg/m3, g =
9,81 m/s2, H (in m) sunt constante, Qi este debitul mediu
(m3/s) in clasa i, fi este frecventa relativa a clasei i, iar n
- numarul de clase.
f) Admitand ca randamentul global pe amenajare este si ca intreg stocul
lunar afluent este uzinat, sa se afle productia
medie lunara de energie
|
unde
z este numarul de zile ale lunii si sa
se gaseasca numarul mediu de ore de turbinare la debitul instalat mc/s.
g) Daca functia de densitate de probabilitate pentru debitul mediu lunar afluent este de tip Gamma cu 2 parametrii, adica
|
sa se gaseasca parametrii a si b
cu metoda
verosimilitatii maxime, unde este functia
de parametru b
|
h) Sa se evalueze puterea hidraulica bruta lunara cu modelul probabilist
|
folosind functia de densitate f(Q) gasita anterior, precum si energia medie lunara corespunzatoare.
i) Utilizati testul hi - patrat pentru a verifica ipoteza nula ca functia de densitate gasita reda setul de date masurate, la nivel de semnificatie α = 0,005.
j) Care este riscul de respingere a lui H0, ea fiind adevarata ?
Rezolvare:
a) Operatiunea de ordonare a datelor de esantion se poate face in ordinea
crescatoare sau descrescatoare a valorilor lor numerice, in functie de scopul urmarit in analiza.
In proiect ordonarea s-a facut in ordine crescatoare, pentru a determina distributiile de frecventa de la subpunctele urmatoare.
Pentru calculul asigurarii empirice este necesara ordonarea lor descrescatoare
Numarul de ordine al unei date oarecare din sirul ordonat poarte denumirea de rang.
Cind doua date au valori identice, rangurile lor se precizeaza arbitrar fie la rangul mediu (identic pentru ambele), fie la rangul corespunzator ordinii initiale din seria originala.
Valoarea de rang r din sirul ordonat se va nota . Pentru un sir ordonat crescator
=
si
=
.
Prin ordonare apare una dintre caracteristicile descriptive ale seriei de date si anume plaja (sau domeniul) in care se plaseaza valorile ei.
La ordonarea crescatoare, aceasta rezulta egala cu .
Cu sirul de date ordonat crescator si valoarea
variabilei de rang r in sirul respectiv, exista diverse formule propuse pentru
a evalua ceea ce se numeste frecventa empirica (in fapt frecventa cumulata)
corespunzatoare valorii
, care se pot
exprima prin relatia generala:
.
Tabel 1. Datele de intrare (debitele masurate pe luna septembrie):
Tabel 2. Ordonarea crescatoare a debitelor si calculul frecventei empirice:
Rang |
Q[mc/s] |
F(xr) |
Rang |
Q[mc/s] |
F(xr) |
|
Rang |
Q[mc/s] |
F(xr) |
Rang |
Q[mc/s] |
F(xr) |
|
b) La alegerea numarului de clase, K, trebuie ca acesta sa nu fie prea mic (pierzand astfel multe informatii asupra formei distributiei), dar totusi suficient de mic pentru a permite o viziune sintetica asupra datelor analizate.
In functie de talia esantionului, se aleg intre 5 si 15 clase, dupa una din relatiile:
sau
Notand prin "k" indicele de clasa (k = l, 2,,K), apar urmatoarele definitii si relatii:
ecartul (sau amplitudinea) clasei hk ;
limita inferioara ak;
limita superioara bk si
valoarea centrala ck si
frecventa absoluta (numarul de aparitii) a clasei nk :
frecventa relativa a clasei f k :
frecventa cumulata pana la clasa k inclusiv Fk : ,iar
. Frecventele
se exprima uneori in procente.
De regula se prefera gruparea in clase de ecart constant si avand
limitele de clasa alese cu valori convenabile (multiplii de 2, 5, 10, 100
etc.).
De asemenea limita inferioara si respectiv
superioara
(pentru clasele
extreme) se fixeaza tinand seama:
de valorile extreme din sirul ordonat crescator,
de numarul de clase K si
de ecartul rezultat.
In proiect numarul de clase s-a ales ca fiind egal cu 8, astfel:
s-a calculat plaja = xmax - xmin = Qmax - Qmin = 15,03-1,71 = 13,32
s-a calculat ecartul: ecart = plaja/k= 13,32/8 = 1,68
In tabelele urmatoare se prezinta datele calculate la punctual b astfel:
o tabel cu determinarea numarului de clase de ecart egale, limita inferioara si limita superioara fiecarei clase.
a1 = Qmin-0,07; b1 = a1 + ecart
a2 = b1; b2= a2 + ecart
o tabel cu determinarea frecventei absolute, relative si cumulate.
Tabel 3. Determinarea plajei
k | |
plaja | |
ecart |
Tabel 4. Determinarea numarului de clase de ecart egale
Interval |
ai |
bi |
ci |
nr. |
[m3/s] |
[m3/s] |
[m3/s] |
Tabel 5. Determinarea frecventelor cumulate, relative si absolute:
Interval |
ai |
bi |
ci |
ci |
nk |
fk |
Fk |
nr. |
[m3/s] |
[m3/s] |
[m3/s] |
[m3/s] | |||
| |||||||
c) Reprezentarea tabelara a distributiei de frecventa este utila pentru identificarea caracteristicilor unei colectii mari de date, dar adesea se prefera evidentierea acestor caracteristici prin reprezentari grafice.
Exista doua categorii importante de grafice si anume:
o histogramele - realizate prin construirea unor dreptunghiuri succesive;
o poligoanele - care se obtin unind puncte succesive prin segmente de linii drepte.
In cazul histogramelor, pe abcisa se reprezinta plaja de valori in care se incadreaza datele din sir, iar pe ordonata apare fie frecventa absoluta (numarul de aparitii) din fiecare clasa, fie frecventa relativa (normalizata sau exprimata in procente).
Ca regula generala , suprafata dreptunghiului corespunzator fiecarei clase trebuie sa fie proportionala cu efectivul (sau frecventa) ei. Din acest motiv la clasarea cu h constant, inaltimile dreptunghiurilor din histograma vor fi proportionale cu frecventele claselor.
In continuare sunt prezentate graficele frecventelor cumulate, absolute si relative, histograma cu clase de ecart egale si tabelele cu marimile necesare reprezentarilor grafice.
Fig 1. Graficul frecventei relative
Fig 2. Graficul frecventei absolute ( histograma)
Fig. 3. Graficul frecventei cumulate
d) Masuri ale tendintei (pozitiei) centrale:
Media aritmetica (numita prescurtat media) unui set de date se noteaza cu
si este data de:
.
Mediana - notata - este definita
ca valoarea fata de care jumatate dintre observatiile seriei de date sunt mai
mari si respectiv cealalta jumatate sunt mai mici.
Se mai numeste si valoare echiprobabila sau cuartila de ordin 2.
Pentru un sir de date ordonate:
daca talia sirului N este numar impar, atunci mediana va fi egala cu data
de rang , adica:
iar daca N este numar par, mediana se admite egala cu media datelor de
ranguri N/2si respectiv N/2+1, adica:
Moda - notata - se defineste ca
fiind valoarea care apare cel mai frecvent printre datele observate.
Se mai numeste si valoare dominanta, valoarea cea mai probabila sau valoare modala.
Moda poate sa nu fie unica intr-un set de date observate sau chiar poate sa nu existe.
Distributiile care au o singura valoare modala (cea mai frecventa) se numesc unimodale.
Daca insa doua valori numerice diferite se regasesc de acelasi numar de ori (cel mai mare) printre observatiile din set, este vorba despre o distributie bimodala.
Cand toate datele observate sunt diferite intre ele, in mod evident moda nu poate fi definita.
Daca setul de observatii este grupat pe clase, atunci se vorbeste de una sau mai multe clase modale.
Relatia intre medie, mediana si moda
Se presupune ca:
numarul de date din sir, N, este foarte mare
a fost posibila o clasare cu
ecart foarte mic (astfel incat poligonul
frecventelor poate fi aproximat printr-o curba continua si unimodala) relatia intre
si
depinde de alura
distributiei de frecventa.
a.
b.
c.
Pentru oricare dintre tipurile de distributie
a), b) sau c) mediana este plasata
astfel incat verticala prin
imparte suprafata
de sub graficul de frecventa in doua parti de suprafete egale (A1 =
A2).
Moda corespunde
abscisei pentru care frecventa relativa inregistreaza un maxim.
Cu aceste precizari:
pentru cazul a): <
<
si se spune
ca distributia are asimetrie pozitiva;
pentru cazul b):
si se spune
ca distributia este simetrica;
pentru cazul c): >
>
si se spune
ca distributia are asimetrie negativa.
Abaterea medie absoluta - notata AMA- este definita ca media diferentelor absolute dintre fiecare
data a sirului si media lui, adica:
Varianta - notata - este definita
ca media patratelor diferentelor dintre fiecare data a sirului si media lui,
adica:
Abaterea standard (sau abaterea patratica medie sau abaterea tip) se noteaza cu s si este
egala cu radacina patrata din varianta, adica:
Deoarece abaterea standard are aceeasi dimensiune ca si variabila observata, ea este mult mai utila in practica in raport cu varianta si reprezinta caracteristica de dispersie cea mai sugestiva.
Coeficientul de variatie - notat cu - este definit ca raportul dintre abaterea
standard si media sirului, adica:
Este o caracteristica adimensionala si poate fi utilizat la comparatii efectuate asupra unor serii diferite de date.
Intervalele intercuantile:
Se numesc cuantile de ordin k - cele k-1 valori care impart datele seriei in k clase de aceeasi frecventa (clase echiprobabile).
Cele 99 percentile impart seria in 100
clase de efectiv N/100
Cele 9 decile impart seria in 10 clase de efectiv
N/10
Cele 3 cuartile si
impart seria in 4 clase de efectiv N/4
De regula, cuantilelele se estimeaza pe baza ogivei frecventelor cumulate (cum s-a explicat in legatura cu mediana - care este in fond cuartila de ordinul doi).
Intervalul intercuartile se obtine ca diferenta si este o masura a dispersiei mai putin sensibila la
fluctuatiile de esantion decat amplitudinea (sau plaja).
Semnificatia percentilei - reprezinta valoarea sub care se plaseaza 70% dintre
datele observate.
Decila este valoarea
sub care se plaseaza 40% dintre datele sirului, iar cuartila
corespunde
valorii sub care se regasesc 25% dintre date.
Caracteristica de asimetrie a unei distributii
de frecventa se evalueaza prin coeficientul de asimetrie propus de
Fisher:
Se mai poate
scrie si:, iar daca se adimensionalizeaza datele seriei in
raport cu media si se introduce variabila modul
, i=1,
2, . .N, atunci
devine:
.
Alta masura a asimetriei, propusa de Pearson, este coeficientul
Pearsonian de asimetrie dat de:
iar Yule propune coeficientul cuartil de simetrie
definit prin: in care evident
.
Coeficientii si
sunt mai putin
sensibili la fluctuatii de esantion.
O alta caracteristica de forma se refera la boltirea (sau aplatisarea) graficului distributiei de frecventa.
Dupa Pearson coeficientul de boltire este definit
prin : ,iar dupa Fisher prin relatia:
, in care
pentru distributia
normala (se va detalia in alt capitol).
Pentru aceeasi caracteristica, Kelly propune un coeficient
calculat pe baza cuartilelor, cu relatia:, unde d1 si d9 sunt decilele corespunzatoare.
Tabel 6. Calculul statisticilor de esantion
Media aritmetica | |||
Mediana | |||
Moda | |||
AMA | |||
Varianta | |||
Abaterea standard | |||
Coef. de variatie | |||
q1 | |||
q2 | |||
q3 | |||
m3 | |||
s^3 | |||
Cs |
asimetrie Fisher |
||
a2 |
asimetrie Pearson |
||
a3 |
asimetrie Yule |
||
m4 | |||
b1 |
boltire Pearson |
||
b2 |
boltire Fisher |
e) Se doreste determinarea puterii brute lunare empirice, pentu o cadere H= 465m.
Puterea bruta se
calculeaza cu realatia: P = [mw], unde:
P - puterea ce se doreste a fi determinate [MW]
ρ - densitatea apei [kg/mc]
H - inaltimea bruta [m]
Qi - debitul mediu calculate pe fiecare clasa de ecart
g - accelearatia gravitational [m/s2]
n - numarul de clase.
Tabel 7. Debitele medii calculate pe fiecare clasa de ecart si puterea bruta lunara
Interval |
ci |
P |
nr. |
[m3/s] |
[MW] |
P = 31,0484 [MW]
f) Se cere determinarea productie medie de energie lunara pentru un randament η= 88%, in conditia turbinarii totale a debitului mediu afluent.
E = 24ZPη [MWh], unde:
E - energia [MWh]
Z - numarul de zile din luna de calcul (30 - luna septembrie)
P - puterea determinata la punctul anterior [MW]
η - randamentul global [%].
E = 19672,28 [MWh]
Se mai cere sa se gaseasca numarul de ore mediu de turbinare pentru un debit instalat Qinst = 40 [m3/s].
t = (24 * Z * Qafl)/Qinst;
Qafl = (ci*fk)/100 ;
Interval |
ci |
fk |
Qafl |
nr. |
[m3/s] |
[m3/s] |
|
t = (24*30*6,8064)/40 = 122,5152 ore
g)
Metoda verosimilitati maxime: este una dintre cele mai frecvent folosite
metode de estimare a parametrilor ai unei legi de
probabilitate de forma generala
, pornind de la observatiile unui esantion de n valori
care sunt realizari
ale V.A. X si pentru care se urmareste particularizarea expresiei lui
.
Se numeste functie de verosimilitate si se noteaza prin L produsul:
, care reprezinta
densitatea de repartitie comuna a variabilelor de selectie.
Exemple de aplicare a metodei verosimilitatii maxime:
Legea Poisson
Legea binomiala
Legea de distributie normala
Legea log-normala de parametri a si b cu functia de densitate:
,procedand
ca mai sus, se gasesc estimatorii de verosimilitate maxima:
si
In cadrul prezentului proiect s-a utilizat pentru rezolvarea acestei cerinte un limbaj de programare ( Turbo Pascal) cu care s-au aflat cei doi parametri "a" si "b".
a = 0,839
b = 5,675
Tabel 8. Calculul functiei de densitate de probabilitate
Q |
f(Q) |
Q |
f(Q) |
|
| ||||
h) Se cere determinarea puterii hidraulice brute si energiei medii corespunzatoare folosind functia de densitate f(Q) determinata la punctul "g".
P = 10-6 ρgQH∙f(Q)∙dQ
Determinarea puterii si a energiei brute s-a realizat tot cu ajutorul limbajului de programare Turbo Pascal, folosindu-ne de parametrii "a" si "b" obtinuti anterior.
Astfel a rezultat:
Pb = 30,86 MW
n = 30 zile
El = 19549,74 MWh
Interval |
ai |
bi |
ci |
fr |
ft |
i) Testul hi-patrat - se poate aplica atat V.A. continue, cat si discrete, fiind adecvat in urmatoarele situatii:
Cand ipoteza nula precizeaza complet legea teoretica de probabilitate si se compara frecventele cumulate observate cu cele date de modelul teoretic (utilizare ca test de conformitate);
Cand ipoteza nula precizeaza doar forma
legii teoretice in timp ce estimarile parametrilor ei trebuie obtinute separat, atat pentru executarea
testului, cat si pentru utilizarea ulterioara a distributiei, daca este acceptata
(test de ajustare sau de concordanta).
Dezavantajul lui major - pentru a fi edificator este necesar ca talia N a esantionului de date observate sa fie suficient de mare.
Principiul testului se bazeaza pe
comparatia, pentru o clasa data de valori, a numarului de aparitii observate, , cu numarul de aparitii corespunzator functiei
teoretice testate, pentru clasa respectiva, notat
.
In cadrul lui se verifica daca suma patratelor diferentelor dintre si
ramane in limite
rezonabile, de ordinul de marime al fluctuatiilor de esantionare
plauzibile.Pentru N suficient de mare, estimatorul de test notat prin
si dat de relatia:
este o V.A. de lege
cu
grade de
libertate, K fiind numarul de clase utilizate in testare.
Numarul gradelor de libertate,, depinde de tipul testului:
Daca
valorile parametrilor ai legii
teoretice
sunt cunoscute cu
precizie (test de conformitate), atunci
.
Daca
se folosesc estimari ale parametrilor
(test de concordanta), atunci
, cu p - numarul de parametri.
Puterea testului este maxima daca numerele de aparitie teoretice, sunt egale
pentru toate clasele si, in plus,
.
Pasii concreti ai procedurii de testare sunt urmatorii:
efectiv) prin ;
cu
relatia . In acest caz, expresia lui
se modifica de
la forma (8.1) la
,
domeniul
pe care se intind datele de esantion. De ex. - , pentru
, vor fi cuantilele
pentru care
. Evident ca
, iar
si
, cu
si
valorile extreme
din setul de date observate;
clasa
si se calculeaza cu relatia
(8.3);
tipul testului;
Se calculeaza cuantila pentru nivelul
de semnificatie α ales sau se calculeaza probabilitatea critica
- egala cu
riscul de a gresi prin respingerea ipotezei nule
.
Programul Test_hi2 efectueza testul de concordanta pentru legi teoretice cu
doi parametri - de forma generala - si anume:
legea normala
, legea log-normala
, legea Gamma
si legea Weibull
.
Testul hi-patrat se poate aplica si folosind clase de ecart egal dupa X , in
locul claselor echiprobabile ca frecventa. In programul Test_hi2 nu se prevede
aceasta varianta (gasirea valorii
numerice a lui fiind mai
complicata).
Procedura de testare hi-patrat se poate folosi si pentru a testa ipoteza independentei a doua variabile aleatoare.
Pentru efectuarea testului se aleg esantioane aleatoare independente de
talii din cele k populatii si se aranjeaza datele ca frecvente
observate.
In proiectul nostru verificarea cu testul hi-patrat se face cu ajutorul limbajului de programare Turbo Pascal.
Tabel 9. Limite de clase si numar de aparitii
clasa |
ai = xinf |
b = xsup |
ci |
nk |
fk |
Fk |
j) Pentru pragul α = 0,05, a rezultat cu ajutorul programului de calcul Turbo Pascal
Hiobs= 14
Hicrit = 27,588
Asadar ipoteza se accepta.
Risc asumat daca refuz Ho: 66.71 %
Copyright © 2025 - Toate drepturile rezervate
Statistica | |||
|
|||
| |||
| |||
|
|||
|
|||