Scrigroup - Documente si articole

     

HomeDocumenteUploadResurseAlte limbi doc
AccessAdobe photoshopAlgoritmiAutocadBaze de dateC
C sharpCalculatoareCorel drawDot netExcelFox pro
FrontpageHardwareHtmlInternetJavaLinux
MatlabMs dosPascalPhpPower pointRetele calculatoare
SqlTutorialsWebdesignWindowsWordXml

Principalele tipuri de distributii statistice - Biostatistica

calculatoare



+ Font mai mare | - Font mai mic



Principalele tipuri de distributii statistice - Biostatistica

1. Distributia binomiala

Experienta dublei extrageri



Avem un sac care contine o bila alba si doua negre si vedem ce se intampla probabilistic atunci cand procedam la doua extrageri succesive.

Presupunem ca bila trasa prima data este repusa in urna in asa fel incat componenta acesteia sa nu se schimbe in timpul celei de-a doua extrageri.

In aceste conditii, la a doua extragere, la fel ca si la prima, exista probabilitatea p=1/3 de a extrage o bila alba, si probabilitatea q=2/3 de a extrage o bila neagra. Ceea ce ne intereseaza este probabilitatea combinatiilor care pot rezulta din a doua tragere.

In timpul acestei experiente, fiecare din cele 3 bile susceptibile de a fi extrase la prima extragere, poate fi asociata cu fiecare dintre cele 3 bile susceptibile de a fi extrase a doua oara. Exista un total de 3 3 = 9 combinatii posibile de cate doua bile:

o combinatie A+A

2 combinatii A+N

2 combinatii N+A

4 combinatii N+N

Probabilitatile acestor combinatii diferite sunt:

1/9 (adica p2) pentru combinatiile A+A;

2/9 (adica p q) pentru combinatiile A+N;

2/9 (adica p q) pentru combinatiile N+A;

4/9 (adica q2 ) pentru combinatiile N+N.

Daca nu se tine cont de ordinea in care se prezinta bilele (ceea ce poate fi realizat efectuand o tragere de 2 bile odata dintr-un sac cu aceeasi compozitie, adica avand aceeasi proportie de bile albe si negre, dar continand un numar mare de bile) vedem ca avem 3 posibilitati:

combinatia A+A, cu probabilitatea p2

combinatia A+N (sau N+A), cu probabilitatea p q + p q = 2p q

combinatia N+N, cu probabilitatea q2

Aceste diverse combinatii de bile care comporta respectiv notatiile 0, 1 si 2 bile negre, au deci probabilitatile egale respectiv cu p2 , 2p q, q2, adica termenii succesivi din dezvoltarea bine- cunoscuta:

Extrageri multiple; distributia binomiala

Judecand in aceeasi maniera si plecand de la datele precedente, se va gasi ca in cazul tragerilor triple, adica extragerea a 3 bile simultan, exista 3+1=4 combinatii posibile de 3 bile albe si negre, comportand respectiv 0, 1, 2, si 3 bile negre, deci probabilitatile sunt reprezentate de termenii succesivi ai dezvoltarii: , asa cum reiese si din tabelul

Pentru p=1/3 si q=2/3, se obtin pentru acesti termeni valorile 1/27, 6/27, 12/27, 8/27, care sunt reprezentate in Figura 8.12.

Figura 8.12. Probabilitatile triplei extrageri

Se arata ca in urma realizarii a n trageri succesive ( daca plecam de la o urna binara cu aceeasi structura, adica aceeasi proportie de bile albe si negre, dar continand un numar mare de bile, si extragem de fiecare data un esantion de n bile) se obtin (n+1) combinatii de bile albe si negre, continand respectiv 0, 1, 2, 3, ., n bile negre. Probabilitatea acestor combinatii diferite este data de termenii succesivi din dezvoltarea binomului (p+q)n , p si q fiind probabilitatile elementare de a extrage o bila alba si respectiv de a extrage o bila neagra.

Comb. dublei extrageri

A 3-a extragere

Comb. celei de a 3-a extrageri

Probabilit.  coresp.

Probabilit.

finale

Nr. bile

negre

AA

(p2)

A(p)

AAA

p3

N(q)

AAN

AN(NA)

(pq)

A(p)

ANA (NAA)

2pqp=2p2q

N(q)

ANN (NAN)

2pqq=2pq2

NN

(q2)

A(p)

NNA

N(q)

NNN

q3

Tabelul 8.7: Probabilitatile triplei extrageri

Luand ca variabila aleatoare numarul r de bile negre continute in esantionul de n bile, r poate lua toate valorile discrete (intregi) de la 0 la n; se obtine o distributie unde probabilitatile diferitelor valori ale variabilelor aleatoare sunt date de termenii succesivi din dezvoltarea binomului (p+q)n, de unde numele "binomiala", dat acestei distributii particulare a probabilitatilor.

Expresia termenului de rang r

Dezvoltarea (p+q)n comporta n+1 termeni calculati, de la stanga la dreapta.

Termenul de rang 0 (cel mai din stanga) va fi intotdeauna pn , iar termenul de rang n (cel mai din dreapta) va fi qn.

Termenul de rang r (r variind de la 0 la n) este dat de expresia . Tinand cont de formula de calcul al combinarilor, , expresia generala a termenului de rang r din descompunerea (p+q)n , notata cu Pr, va fi:

Semnificatia distributiei binomiale

Intr-o distributie binomiala, termenul de rang r, adica acela care corespunde unui esantion de r bile negre, are o probabilitate data de valoarea termenului de rang r in dezvoltarea (p+q)n , adica de Pr.

Pr indica deci probabilitatea de a exista o tragere, plecand de la o urna binara, a unui esantion comportand r bile negre din cele n bile ale esantionului.

Se defineste evenimentul favorabil (succes), ca fiind extragerea unei bile negre; prin urmare, extragerea unei bile albe este un esec sau o non-realizare a evenimentului favorabil. Putem spune ca Pr reprezinta probabilitatea de a avea r succese din n experiente succesive. Termenii respectivi ai distributiei binomiale, vor reprezenta deci in ordine probabilitatile de a avea 0, 1, 2, 3, ., r, . succese din n experiente repetate (Figura 8.13).

Figura 8.13. Distributie binomiala

 

Distributia binomiala simetrica

Sa presupunem ca p=q. Expresia generala a termenului de rang r, facand abstractie de coeficientul corespunzator combinarilor, devine: .

Toti termenii dezvoltarii sunt atunci de forma pn iar ei difera unul de altul numai prin valoarea coeficientului corespunzator combinarilor C. Din expresia coeficientului C rezulta ca doi termeni situati la egala distanta de extremitati sunt identici.

Daca un termen are rangul r, "simetricul" sau va avea rangul (n - r). Coeficientul termenului de rang (n - r) va fi obtinut inlocuind r cu (n - r) in expresia , deci termenii sunt identici.

Rezulta asadar ca, daca p=q, termenii situati la egala distanta de extremitatile binomului sunt egali intre ei; distributia binomiala obtinuta se numeste "simetrica" (Figura 8.14).

Figura 8.14. Distributie binomiala simetrica

 

Distributia binomiala asimetrica

Daca p¹q, distributia binomiala este numita "asimetrica", iar aspectul ei va fi diferit dupa cum p < q sau q < p (distributia fiind deplasata oblic stanga sau dreapta, Figurile 8.15, 8.16).

Figura 8.15. Distributie binomiala asimetrica deplasata dreapta (p < q)

 

Figura 8.16. Distributie binomiala asimetrica deplasata stanga (q < p)

 

Figura 8.17. Distributia binomiala asimetrica

(p = 0.9, q = 0.1)

pentru diferite valori ale lui n

 

In aceasta situatie, p ¹ q, iar asimetria distributiei tinde sa se estompeze daca n creste; pentru valori suficient de mari ale lui n, distributia poate fi considerata practic simetrica, chiar daca p ¹ q (Figura 8.17). 

Rangul termenului cel mai probabil

Diagramele arata ca, indiferent de forma simetrica sau asimetrica a distributiei, diferitii termeni ai acesteia vor creste pana la o valoare maxima, pentru a descreste apoi. Exista deci totdeauna un termen al carui probabilitate este cea mai mare.

Studierea rangului termenului care corespunde probabilitatii maxime revine la a determina componenta cea mai probabila a esantionului de n bile extrase plecand de la o urna binara de componenta data.

Fie o urna continand, 100 bile, dintre care 30 albe si 70 negre. Extragem din mai multe incercari un esantion de 10 bile. Stim ca exista 10 + 1 = 11 combinatii posibile ale acestor bile bile albe si negre, comportand respectiv 0, 1, 2, . 10 bile negre. Nu are importanta ce combinatie din cele 11 posibile a iesit.

Intuitiv, stim ca avem sanse mai mari de a extrage un esantion continand 3 bile albe si 7 bile negre, avand aceeasi proportie (pastrand compozitia) cu urna insasi. Se demonstreaza ca este de asemeni bine sa stim ca n este suficient de mare si ca p si q nu trebuie sa fie prea apropiate de 0 sau de 1.

In aceste conditii devine facil sa calculam rangul termenului corespunzator probabilitatii maxime: va fi rangul r corespunzator numarului de bile negre continut in combinatia respectiva.

Daca q este proportia de bile negre, numarul r de bile negre in esantionul de n bile va fi:

In aceste conditii precizate (n mare, p si q nu prea apropiate de 0 sau 1), rangul termenului cel mai probabil este dat de expresia: , care corespunde unui esantion avand aceeasi compozitie ca urna binara din care s-a facut extragerea.

Media distributiei binomiale

Se arata ca termenul cel mai probabil, , reprezinta in acelasi timp si media distributiei binomiale, care va fi prin urmare

si, atata timp cat conditiile precizate sunt realizate, aceasta medie corespunde termenului de rang cel mai probabil.

Aceasta vrea sa spuna ca intr-o serie de n experiente, a caror probabilitate constand din succese este q, numarul de succese la care trebuie sa ne asteptam este .

Varianta; abaterea tip

Daca media este , abaterea de la medie pentru o valoare oarecare xi va fi (xi nq) Varianta va fi: .

Se arata ca aceasta expresie este egala cu .

Varianta unei distributii binomiale este deci data de formula:

Prin urmare, deviatia standard a distributiei binomiale va deveni:

Exemplu de distributie binomiala

Repartitia sexelor la nastere ofera un exemplu clasic de distributie binomiala. Se poate considera intr-adevar ca exista pentru fiecare nastere o probabilitate constanta egala cu 1/2 de a avea o fiica, egala cu cea de a avea un baiat. Determinarea sexului poate fi simulata printr-un experiment de extragere dintr-o urna binara continand un numar egal de bile albe si negre. Prin urmare, probabilitatea de a extrage o bila alba este egala cu 1/2, fiind identica cu probabilitatea de a extrage o bila neagra.

In realitate, probabilitatea de a se naste un baiat este putin superioara celei de a se naste o fata, prin urmare urna binara reprezentativa ar trebui sa contina 105 bile corespunzatoare numarului de baieti (negre) si 100 bile corespunzatoare numarului de fete (albe). Pentru 6 nasteri, de exemplu, avem 6+1=7 combinatii posibile, corespunzatoare unui numar de 0, 1, 2, 3, 4, 5, 6 nou-nascuti baieti; probabilitatile vor fi date de termenii corespunzatori dezvoltarii (p+q)6, unde p=1/2 si q=1/2.

Figura 8.18. Diagrama corespunzatoare distributiei binomiale

pentru diferite valori ale lui n

 

Prin urmare, probabilitatile vor fi (Figura 8.18):

p6=1/64=0.016=1.6% pentru situatia 0 baieti, 6 fete;

6p6=6/64=0.094=9.4% pentru situatia 1 baiat, 5 fete;

15p6=15/64=0.234=23.4% pentru situatia 2 baieti, 4 fete;

20p6=20/64=0.312=31.2% pentru situatia 3 baieti, 3 fete;

15p6=15/64=0.234=23.4% pentru situatia 4 baieti, 2 fete;

6p6=6/64=0.094=9.4% pentru situatia 5 baieti, 1 fata;

p6=1/64=0.016=1.6% pentru situatia 6 baieti, 0 fete.

Media distributiei este m = n q = 6 1/2 = 3 si corespunde eventualitatii de a se naste 3 baieti si 3 fete (eventualitatea cea mai probabila - Figura 8.19).

Figura 8.19. Exemplu de distributie binomiala

pentru diferite valori ale lui n

 

Vom vedea in cele ce urmeaza cum poate fi exploatata distributia binomiala pentru unele probleme statistice, in particular pentru comparatia procentuala a doua evenimente care se exclud mutual. Una dintre utilitatile esentiale ale distributiei binomiale este aceea ca ea sta la baza unor alte distributii teoretice, si in particular a distributiei "normale".

Distributia procentuala

Daca se considera in locul numarului r, proportia r/n (numita "procentuala") de bile negre continute in esantion, distributia acestor valori pentru diferite combinatii posibile ale esantionului este de asemeni o distributie binomiala, dar in care avem procentaje 0/n, 1/n, . , r/n care iau valori intre 0 si 100 (Figura 8.20).

Figura 8.20. Distributia procentuala

 

Media mq a acestei distributii procentuale se obtine din media distributiei binomiale corespunzatoare prin divizare la n:

Media distributiei procentuale este deci mq = q. Semnificatia acestui fapt este aceea ca proportia cea mai probabila este in mod precis, cea care corespunde urnei binare.

2. Distributia normala

Definitie: Distributia normala este o distributie binomiala simetrica in care p = q =1/2.

Sa studiem ceea ce se intampla cand n ¥. In aceste conditii, distributia valorilor fiind de la 0 la +¥, numarul termenilor distributiei, adica numarul dreptunghiurilor diagramei devine infinit. Baza fiecarui dreptunghi se micsoreaza prin urmare foarte mult, iar la limita, marginea superioara a diagramei se transforma intr-o linie continua curba, care este curba de densitate de probabilitate corespunzatoare (Figura 8.21).

Curba astfel obtinuta este perfect definita pe plan matematic - curba Gauss-Laplace, care permite caracterizarea unei forme de distributie teoretica de importanta fundamentala: distributia normala (gaussiana).

Aceasta distributie corespunde unei distributii binomiale simetrice, reprezentata la limita; prin urmare este in mod fortat simetrica, ca o distributie binomiala de origine, imprejurul mediei sale (termenul cu probabilitatea cea mai mare). Pe de alta parte, termenii extremi, situati la egala distanta de axa de simetrie a distributiei, sunt de forma pn, unde p este o fractie a unitatii - deci devine rapid foarte mic, pe masura ce n creste. Curba se va inilta astfel rapid si de o maniera simetrica de o parte si de alta a mediei pe axa absciselor, ceea ce ii confera un aspect "in clopot" foarte caracteristic.

Figura 8.21. Curba Gauss-Laplace si distributia normala

 

Importanta legii normale:

sa poata servi modelele matematice pentru reprezentarea unui mare numar de distributii experimentale;

sa poata fi exploatata, pentru a rezolva un mare numar de probleme de interpretare statistica.

Ecuatia curbei Gauss

In conditiile de mai sus, n ¥ si p, q sunt egale (nefiind apropiate de 0 sau 1). se arata, folosind formula lui Stirling (pentru n suficient de mare, putem aproxima ) ca expresia , care da valoarea termenului de rang r in distributia binomiala, tinde catre expresia:

(1)

Cum, in plus, intr-o distributie binomiala media este m=n q, iar varianta este , expresia precedenta poate fi scrisa sub forma:

(2)

La limita, dreptunghiul de rang r, a carui inaltime este data de probabilitatea acestui termen, Pr, se reduce la o ordonata liniara y a carei abscisa x este chiar r (Figura 8.22).

Valoarea lui y se obtine inlocuind r cu x in expresia lui Pr; prin urmare se obtine:

(3)

ecuatie cunoscuta sub numele de "ecuatia curbei Gauss".

Figura 8.22. Dreptunghiul de rang r in curba Gauss-Laplace

 

Curba Centrata

Expresia (3) corespunde unei curbe in care originea coordonatelor este plasata, ca pentru distributia binomiala, la una dintre extremitatile distributiei (Figura 8.23).

Figura 8.23. Curba Gauss, cu originea plasata la una dintre extremitati

 

Exista insa interesul de a exprima ecuatia curbei in raport cu axa de simetrie a acesteia, care este de fapt abscisa mediei m. Aceasta revine la a lua noi valori pentru abscisele punctelor de pe curba, si anume abaterile de la medie ale acestora,

X = x m

Figura 8.24. Curba centrata

 

Ecuatia curbei devine atunci:

(4), unde X = abaterea de la medie.

Obtinem astfel ecuatia curbei Gauss raportata la axa sa de simetrie, numita "ecuatia curbei centrate", care are pentru medie valoarea 0 (Figura 8.24).

Abaterea redusa

Exista interesul de a opera transformari si asupra abaterii . Intr-adevar, abaterea de la medie X si abaterea tip fiind exprimate in aceeasi ecuatie dimensionala, raportul

= abatere redusa,

este un numar independent de unitatea de masura, ceea ce permite sa comparam intre ele curbe diferite.

Expresia lui y devine atunci

(5)

unde .

Curba redusa

Pentru a da o portabilitate mai generala a ecuatiei curbei Gauss, si a obtine un aspect unic al curbei reprezentative, se ia s ca unitate de masura a abaterilor, ceea ce revine la a face s = 1 in ecuatia (5). Se obtine atunci:

(6)

relatie cunoscuta sub numele de "ecuatia redusa a curbei" (Figura 8.25).

Se observa ca factorul aproximeaza de fapt ecuatia , a unei curbe in clopot clasice (pe care am studiat-o).

Figura 8.25. Curba redusa

 

Morfologia curbei Gauss

Datele anterioare ne vor permite sa precizam morfologia curbei Gauss, a carei forma "in clopot" este deja cunoscuta.

Din ecuatia curbei, , se deduce ca aceasta prezinta doua puncte de inflexiune simetrice, pentru x = 1 si x = 1. Curba redusa va prezenta prin urmare de asemeni doua puncte de inflexiune simetrice, pentru t = 1 si t = 1, care corespund lui X = s, respectiv X = s pe curba centrata (dar neredusa) si lui x = m s pe curba necentrata (Figura 8.26).

Figura 8.26. Punctele de inflexiune pe cele trei curbe

 

In toate cazurile curba descreste de o parte si de alta a maximului, la inceput mai incet, apoi mai rapid, pana la punctul de inflexiune, si apoi iarasi mai incet de la acest punct in jos, pana devine asimptotica la axa absciselor. Este clar ca forma curbei va fi determinata de valorile lui s: cu cat s este mai mic, cu atat punctele de inflexiune sunt mai apropiate de axa ordonatelor, iar curba va fi mai stransa in jurul valorii medii, si invers.

Figura 8.27. Morfologia curbei Gauss functie de diferite valori ale lui s

 

De altfel, ordonata in origine (unde avem valoarea medie) se obtine facand x = m in ecuatia (3), X = 0 in ecuatia (4) sau t = 0 in ecuatia (5). Termenul in e devine e0 = 1, si prin urmare obtinem:

Aceasta valoare este invers proportionala cu s; deci, cu cat s este mai mic, cu atat curba este mai stramta si mai inalta, si cu cat s este mai mare, cu atat curba este mai joasa si mai intinsa (Figura 8.27).

Se poate vedea importanta covarsitoare a lui s, care da morfologia curbei Gauss; asociata cu media, care da pozitia axei de simetrie a curbei, aceasta marime este suficienta pentru a caracteriza curba Gauss. Prin urmare, curba Gauss nu depinde decat de doi parametri: media si s. Acesta este unul dintre motivele care justifica interesul acordat studiului acestor doi parametri in statistica.

Semnificatia probabilistica a curbei Gauss

Cand se tinde la infinit, fiecare dreptunghi al diagramei distributiei binomiale se reduce la o ordonata liniara y a curbei Gauss, care masoara densitatea de probabilitate a valorii x corespunzatoare. Curba Gauss are deci semnificatia unei functii de densitate de probabilitate, si ea indica pentru fiecare valoare a variabilei aleatoare x, probabilitatea y care ii corespunde (Figura 8.22).

In timp ce in distributia binomiala variabila aleatoare nu poate lua decat un anumit numar de valori discrete (si intregi), in cazul distributiei normale variabila aleatoare este continua si poate lua toate valorile intre 0 si +¥ (Figura 8.23).

Cand se trece la curba centrata, se inlocuieste variabila x cu abaterea de la medie X = x - m, care poate fi pozitiva sau negativa. Noua variabila aleatoare X acopera deci tot domeniul de valori intre ¥ si 0 pe de o parte, si 0 si +¥ pe de alta parte (Figura 8.28).

Figura 8.28. Domeniul de valori pentru x si X

 

Curba indica atunci probabilitatea de a intalni o anumita abatere de la medie a unei valori date. Se vede ca media, a carei abatere este nula, este valoarea a carei probabilitate este cea mai mare. Mai mult, daca este advarat ca valoarea poate fi observata, toate valorile nu sunt egal probabile. Din forma in clopot a curbei rezulta ca probabilitatea de a observa o valoare data este cu atat mai mica, cu cat ea se abate mai mult de la medie, de o parte si de alta a acesteia. Probabilitatea se diminueaza foarte clar atunci cand abaterea depaseste 1 s, dupa cum indica aria marcata a curbei de la punctele sale de inflexiune (Figura 8.26). Aceasta notiune foarte importanta, care arata caracterul reprezentativ al mediei in distributia normala, este una din notiunile de baza, utila in exploatarea statistica a curbei Gauss.

Probabilitatile cumulate ale distributiei normale

Cand n ¥, distributia binomiala tinde catre curba Gauss, iar diagrama probabilitatilor cumulate care ii corespunde tinde catre functia de repartitie corespunzatoare, adica integrala curbei Gauss, care este, curba integrala in S studiata anterior, multiplicata prin factorul (Figura 8.29).

Figura 8.29. Diagrama cumulata a distributiei normale

 


Probabilitatea cumulata a distributiei gaussiene va fi deci obtinuta din integrala corespunzatoare curbei Gauss. Astfel, probabilitatea cumulata a tuturor valorilor cuprinse intre ¥ si o valoare particulara x1 , adica probabilitatea tuturor valorilor inferioare lui x1, care corespund suprafetei cuprinse sub curba Gauss, din extremitatea stanga si pana la ordonata corespunzatoare lui x1 va fi data de integrala curbei Gauss, cuprinsa intre ¥ si x1 :

Aceasta masoara ordonata Y1 = F(x1), corespunzatoare curbei integrale (Figura 8.30).

Figura 8.30. Probabilitatea cumulata a valorilor intre ¥ si x1

 


Aceeasi probabilitate cumulata a tuturor valorilor lui x cuprinse intre doua valori particulare x1 si x2, care corespunde suprafetei de sub curba Gauss, cuprinsa intre ordonatele corespunzatoare celor 2 valori x1 si x2 va fi data de integrala curbei Gauss, cuprinsa intre limitele x1 si x2 si calculata cu formula:

care masoara diferenta Y2-Y1 intre ordonatele corespunzatoare curbei integrale (Figura 8.31).

Figura 8.31. Probabilitatea cumulata a valorilor intre x1 si x2

 

Cand se calculeaza probabilitatea cumulata a tuturor valorilor distributiei, care este prin definitie egala cu 1, aceasta va corespunde intregii suprafete de sub curba lui Gauss, fiind integrala curbei Gauss, cuprinsa intre ¥ si ¥, si calculandu-se cu formula:

(Figura 8.32).

Figura 8.32. Probabilitatea cumulata a valorilor intre ¥ si ¥

 


Tabelele curbei normale

In practica, nu este necesar sa calculam de fiecare data aceste integrale. Plecand de la caracterizarea numerica a curbei Gauss, s-au stabilit tabelele curbei normale (in anexa), care ne permit sa rezolvam cu usurinta aceste probleme. Tabelele sunt completate pentru curba redusa, care are ca abscisa  si ca ordonata . Aceste tabele indica pentru fiecare valoare t1 a lui t:

Valoarea ordonatei y1 a curbei reduse care ii corespunde (Figura 8.33).

Figura 8.33. Ordonata y1 si suprafata F(t1) pe curba redusa

Valoarea suprafetei , cuprinsa intre ordonata de origine si ordonata lui t1 , sub curba redusa (Figura 8.33), si care masoara probabilitatea cumulata a tuturor valorilor cuprinse intre 0 si t1.

Figura 8.34. Suprafata 2F(t1) pe curba redusa

3. Suprafata cuprinsa sub curba redusa, intre ordonatele punctelor -t1 si +t1 (Figura 8.34), care masoara probabilitatea cumulata a tuturor valorilor cuprinse intre -t1 si +t1. In aceste conditii, suprafata va masura probabilitatile cumulate ale tuturor valorilor exterioare acestui interval.

4. Suprafata (Figura 8.35) cuprinsa sub curba redusa intre - ¥ si t1 si complementul sau fata de 1, , care masoara probabilitatea cumulata a valorilor inferioare si respectiv, a valorilor superioare lui t1.

Figura 8.35. Suprafetele si   pe curba redusa

Exemplu: Pentru t1 = 1/2 se gaseste in tabel:

y1

F(t1) = 0.1915

F(t1) = 0.3830

F(t1) = 0.6170

P(t1) = 0.6915

P(t1) = 0.3085

Se poare calcula astfel, plecand de la aceste date, probabilitatea tuturor valorilor cuprinse intre doua valori t1 si t2 , care este egala cu , sau cu daca t1 si t2 sunt de acelasi semn (Figura 8.36), si cu daca t1 si t2 sunt de semne contrare (Figura 8.37).

Figura 8.36. Suprafata pe curba redusa

Exemplu: Pentru t1 = 1/2 si t2 = 7/10 se obtine:

F(t1) = 0.1915; F(t2) = 0.2580

Þ F(t2) F(t1) = 0.0665

Acest tabel permite sa se obtina pentru toate valorile lui x ale unei distributii normale probabilitatile corespunzatoare.

Figura 8.37. Suprafata pe curba redusa

Observatie:

Tabelele sunt calculate pentru curba redusa; prin urmare, trebuie calculat mai intai t, plecand de la valorile considerate x, folosind formula . In tabel este de asemeni precizata ordonata redusa y; pentru a reveni la ordonata neredusa, notata Y, folosim relatia .

Pentru valoarea x = 6 a unei distributii normale de medie m = 5 si se obtine ca:

Pentru t = 1/2 se gaseste in tabel y = 0.3521

Þ

Prin urmare, probabilitatea valorii x este deci 0.1760, sau 17.6%.

Determinarea probabilitatilor este considerabil mai usoara decat in cazul distributiei binomiale, unde este necesar sa se calculeze separat diferitii termeni ai distributiei. Distributia normala oferind valori continue, are o portabilitate mai generala decat distributia binomiala, pe care am studiat-o si care nu ofera decat valori discrete.

Suprafetele importante ale curbei Gauss

Datele anterioare ne permit sa intelegem valoarea abaterii t corespunzatoare valorii determinate de aria 2F(t), deci aria de sub curba neredusa. Aceste valori ale ariei 2F(t) sunt cele care corespund valorilor abaterii in raport cu s

Se arata in Figura 8.38 ca:

Aria 2F(t) care corespunde unei abateri t = 1, adica x = s, deci aria cuprinsa sub curba neredusa intre abscisele x = (m s) si x = (m+s), reprezinta 68.3% (mai exact 63.28% - din tablul curbei Gauss) din suprafata totala de sub curba.

Aria 2F(t) care corespunde abaterii t = 2, adica x = s, deci aria cuprinsa sub curba neredusa intre abscisele x = (m s) si x = (m+2s), reprezinta 95.5% din suprafata totala de sub curba.

Aria 2F(t) care corespunde abaterii t = 2.6, adica x = s, deci aria cuprinsa sub curba neredusa intre abscisele x = (m s) si x = (m+2.6s), reprezinta 99% din suprafata totala de sub curba.

Figura 8.38. Suprafetele importante ale curbei Gauss

 

Suprafata totala inglobata sub curba Gauss corespunde probabilitatii cumulate a tuturor valorilor, adica 100% din cazurile distributiei.

Suprafata 2F(t) mentionata mai sus corespunde deci probabilitatilot cumulate de 68.3%, 95.5%, 99% ale cazurilor distributiei. Daca se considera probabilitatile valorilor lui x exterioare intervalelor de mai sus, se poate deduce:

Intervalul exterior lui [m s, m+s], care va ingloba 100 68.3 = 31.7% din cazurile distributiei (Figura 8.39);

Figura 8.39. Intervalul exterior lui [m s, m+s

pe curba redusa

 

Intervalul exterior lui [m s, m+2s], care va ingloba 100 95.5% = 4.5% din cazurile distributiei (Figura 8.40);

Figura 8.40. Intervalul exterior lui [m s, m+2s

pe curba redusa

 

Intervalul exterior lui [m s, m+2.6s], care va ingloba 100 99% = 1% din cazurile distributiei (Figura 8.41);

Figura 8.41. Intervalul exterior lui

[m s, m+2.6s

pe curba redusa

 

Prin urmare, intr-o distributie normala exista numai:

31.7 sanse din 100 de a observa o abatere a mediei superioara lui s

4.5 sanse din 100 de a observa o abatere a mediei superioara lui 2s

1 sansa din 100 de a observa o abatere a mediei superioara lui 2.6s

Ariile curbei Gauss permit sa determinam probabilitatea de a observa intr-o distributie gaussiana o abatere redusa superioara unei valori date. Aceasta proprietate fundamentala este exploatata pentru a reyolva un mare numar de probleme de interpretare statistica.

3. Distributia Poisson

Este o distributie teoretica care poate fi dedusa din distributia binomiala: ea corespunde unei distributii binomiale in care una dintre eventualitati are o probabilitate foarte mica.

Exemplu introductiv:

Presupunem ca avem o urna binara continand 999 bile albe si 1 bila neagra. Se stie ca bila neagra unica are o foarte mica sansa sa fie extrasa, adica 1/1000=0.1%. Probabilitatea acestui eveniment este deci foarte mica, dar totusi nenula. Daca efectuam 1000 de extrageri, de exemplu, putem spera ca vom extrage o data bila neagra. De fapt, in aceste 1000 extrageri bila neagra are mai multe sanse de a iesi; nu este exclus sa iasa de 2, 3 sau chiar de mai multe ori.

Distributia Poisson reprezinta limita unei distributii binomiale in care termenii q (de exemplu) devin foarte mici (practic <0.03%), ceea ce da o distributie foarte asimetrica, atunci cand n creste la infinit. In aceste conditii se arata ca expresia:

care da probabilitatea termenului de rang r, tinde catre expresia:

Media distributiei Poisson este . Prin urmare, expresia (1) devine:

Daca tinem cont de faptul ca:

Deci, suma probabilitatilor este egala cu 1.

Proprietatile caracteristice distributiei Poisson

Expresia matematica a distributiei Poisson arata ca diferitii termeni ai acestei distributii nu depind decat de parametrul m:

termenul de rang 0 este intotdeauna e-m;

daca m < 1, e-m este cel mai mare termen al seriei; distributia descreste atunci constant de la acest termen de rang 0 si tinde spre 0, avand un aspect de J intors;

pentru m = 1, termenul de rang 0, ; termenul de rang 1 este ; cei doi termeni reprezinta valoarea maximala a distributiei;

pentru m > 1, exista doua valori maximale, numite modale, corespunzatoare lui r = m si r = m - 1. termenii succesivi ai distributiei vor creste pana la dublul maxim, si apoi vor descreste catre 0 cand r creste. Distributia are un aspect in clopot asimetric cu intindere (etalare, coada) spre dreapta; acest aspect asimetric se atenueaza rapid cand m creste.

Se arata ca varianta (dispersia) distributiei Poisson este egala cu m:

Cand q 0, ultima expresie din ecuatiile anterioare tinde spre m. Prin urmare,

Distributia Poisson este deci in intregime determinata de singurul parametru m:

Figura 8.42. Reprezentarea grafica a legii Poisson

pentru diferite valori ale lui m

 

Aplicatii ale distributiei Poisson: Distributia Poisson, numita legea probabilitatilor mici, se poate aplica in cazul in care evenimentele au probabilitati mici: accidente mortale, accidente de avion, maladii exceptionale, sinucideri, etc.

Figura 8.43. Distributii Poisson pentru diferite valori ale lui m

 

Diferite aspecte ale legii Poisson

Aceasta distributie are o portabilitate mai generala. Expresia sa matematica arata inrudirea sa cu functia exponentiala. Se constata ca, atunci cand evenimentele se succed in timp variabil (la intamplare, datorate hazardului) repartitiile lor in transe (intervale) de timp egale se fac urmand o distributie Poisson.

Exemple:

Numarul de atomi care se dezintegreaza intr-un interval de timp determinat;

Controlul industrial al fabricatiei cand procentajul obiectelor defecte este mic.

Interpretare statistica

Ceea ce intereseaza pe observator nu este esantionul pe care il studiaza, ci populatia originala din care a fost extras esantionul si inducerea in populatia originala a rezultatelor obtinute pe esantion.

Totdeauna, metodele statistice permit sa determinam limitele intre care se pot estima, cu un grad de credibilitate dat, valorile parametrului vis-à-vis de populatia de origine, adica ceea ce se numeste determinarea intervalului de incredere al parametrului. Pentru aceasta vom introduce alte cateva notiuni, prezentate in cele ce urmeaza.

4.Distributia mediilor

Fie o populatie statistica N (N foarte mare), pe care o consideram ca avand o distributie normala.

Vom extrage un esantion de efectiv n.

Fie m1, m2, m3 . mediile gasite pentru diverse esantioane.

Se studiaza fluctuatia statistica a mediilor esantioanelor extrase intre ele, si egal repartizate fata de media M a populatiei de origine. Se constata ca mediile sunt mai putin dispersate fata de M, media globala a populatiei, decat valorile individuale din populatie (Figura 8.44).

Distributia nou-obtinuta in acest mod se numeste distributia mediilor.

Abaterea tip a acestei distributii de medii se numeste abaterea standard a mediei, si se noteaza Sm.

Figura 8.44. Distributia mediilor in jurul mediei globale a populatiei,

in comparatie cu distributia valorilor individuale

 

Distributia mediilor fiind mai putin dispersata, abaterea tip Sm este totdeauna mai mica decat abaterea tip S a populatiei de origine; intre cele doua marimi exista relatia:

Multimea mediilor care se pot gasi pentru diverse esantioane avand acelasi numar de observatii, extrase la intamplare dintr-o populatie de medie M si abatere standard S, formeaza asadar o distributie gaussiana de valoare medie M, si avand abaterea tip Sm.

Intervalul de incredere al mediei

Intervalul corespunzator distributiei mediilor, (M - 2Sm, M + 2Sm), cuprinzand 95.5% din valorile pe care le poate lua media m a esantionului din multimea fluctuatiilor intamplatoare, se numeste interval de confidenta al mediei cu un coeficient de securitate de 95.5% (Figura 8.45).

Figura 8.45. Intervalul de confidenta al mediei

cu un coeficient de securitate de 95.5%

 

Analog se defineste intervalul de confidenta al mediei cu un coeficient de securitate de 99% (Figura 8.46), ca fiind intervalul (M - 2.6 Sm, M + 2.6 Sm) - ne spune ca avem 99 sanse din 100 ca media unui esantion ales sa cada in acel interval.

Figura 8.46. Intervalul de confidenta al mediei

cu un coeficient de securitate de 99%

 

Determinarea intervalului de confidenta al mediei

Dorim sa studiem la un esantion intervalul de incredere al mediei observate, m0. Nu cunoastem nici media M, nici Sm , dar presupunem ca stim abaterea tip S a populatiei de origine.

Cateodata, experienta ne arata ca in practica, oricat de mic ar fi esantionul, dar suficient de important, distributiile de esantionaj sunt distributii sensibil normale. In aceste conditii, valoarea m0 gasita pentru m reprezinta valoarea a carei probabilitate este cea mai mare. In consecinta, este logic sa consideram ca cea mai buna estimare pe care o luam va fi media M, si sa o substituim in intervalul de confidenta.

De altfel, abaterea s a esantionului reprezinta o estimare a abaterii tip S a populatiei de origine si se considera substitutia lui S cu Sm rezultat din calcul. Abaterea s a esantionului va fi o estimare putin mai mica decat S. Pentru a estima corect S trebuie sa luam o valoare putin mai mare decat s al esantionului. Calculul arata efectiv ca cea mai buna estimare a lui S, pe care o vom nota cu Ss, este putin mai mare decat s, fiind definita de formula:

Se poate deci utiliza aceasta valoare pentru a calcula Sm , care va fi:

Plecand de la valorile estimate ale lui M si Sm, se va putea exprima intervalul de confidenta al mediei, care va fi in final:

m0 2Sm , cu un coeficient de securitate de 95%;

m0 2.6Sm , cu un coeficient de securitate de 99%.

cu .

Exemplu: Se dozeaza corticoizii urinari intr-un grup de 253 femei cu greutate normala. Se gaseste media m = 4.50 mg/24h si abaterea tip s=1.50. Sa se gaseasca intervalul de incredere.

Avem:

Intervalul de incredere al mediei este deci:

m0 2Sm

Þ (4.30 , 4.70) cu un coeficient de securitate de 95%;

m0 2.6Sm

Þ (4.24 , 4.76) cu un coeficient de securitate de 99%.

5. Cazul esantioanelor mici. Distributia Student

Rationamemtele anterioare sunt valabile pentru esantioane continand minim 30 observatii.

Daca nu este asa, distributia mediilor nu este normala iar estimarile precedente ale mediei si abaterea tip nu sunt acceptate.

Problema a fost rezolvata de matematicianul englez Gosset.

Pentru a intelege principiul acestei solutii, trebuie sa notam de la inceput ca distributia mediilor poate fi considerata ca o distributie a abaterilor (m - M) intre mediile gasite m si media M a populatiei de origine, distributie care in cazul unui esantion suficient de important, este o distributie normala de medie 0 si abatere tip Sm (Figura 8.47).

Figura 8.47. Distributia normala de medie 0 si abatere tip Sm

 

Gosset a studiat aceasta distributie ca o distributie a abaterilor (m - M), in cazul esantioanelor cu efectiv mic.

Mai precis, Gosset a studiat distributia raportului:

= parametrul t a lui Student

= abaterea redusa a mediei, adica raportata la abaterea tip Sm a mediei.

In cazul esantioanelor de efectiv important, distributia abaterilor medii (din populatie) fiind normala, este chiar cea a abaterilor reduse.

Figura 8.48. Abaterea Sm

 

Figura 8.49. Legea normala si legea Student

 


Prin urmare abaterea Sm , egala cu de doua ori abaterea tip, si care corespunde valorii t = 2 a abaterii reduse, inglobeaza 95% din valorile mediei (Figura 8.48).

In cazul esantioanelor cu efectiv mic apar diferente. Gosset a aratat ca, in acest caz, valorile parametrului t obtinute pentru diferite esantioane cu acelasi numar de observatii n < 30, se distribuie urmand o lege numita "distributia Student", care difera de curba normala. Curba reprezentativa a acestei distributii, pentru o valoare data n < 30, este aproximativ o curba in clopot, simetrica, dar mai aplatizata decat curba Gauss. Rezulta ca abaterea tip este putin mai mare decat cea a curbei normale: aceasta curba este numita "hipernormala" (Figura 8.49).

Prin urmare, intervalul care inglobeaza 95% din valorile acestei distributii, si care corespunde la dublul abaterii tip, este atins pentru o valoare a lui t, notata t0.05, superioara valorii 2 (Figura 8.49).

Intervalul de incredere al mediei (cu un coeficient de securitate de 95%) va fi atunci nu numai m0 Sm , ci m0 t0.05 Sm, cu t0.05 >2.

Nu exista o singura distributie t, ci o familie de distributii t corespunzatoare diferitelor valori posibile pentru cele n observatii, cu n<30, ale esantionului studiat.

Curbele reprezentative ale acestor distributii t sunt din ce in ce mai aplatizate, si prin urmare valorile parametrului t sunt cu atat mai mari, cu cat numarul de observatii este mai redus (Figura 8.50).

Figura 8.50. Curbele pentru diferite valori ale parametrului t

 

Parametrul t variaza deci in functie de n, si este cu atat mai mic cu cat marimea esantionului se apropie de efectivul limita n = 30. Plecand de la aceasta valoare a lui n, distributia parametrului t se confunda practic cu o curba Gauss, si t0.05 devine in consecinta t0.05 = 2 (Figura 8.50).

Figura 8.51. Intervalele de incredere corespunzatoare lui t0.05 si t0.01

 

Exista tabele speciale care dau, in functie de marimea esantionului studiat (mai precis, in functie de numarul gradelor de libertate, care va fi aici n - 1), valorile limita ale parametrilor t care au numai 5 sanse din 100 (t0.05 in Figura 8.51), si respectiv numai o sansa din 100 (t0.01 in Figura 8.51), de a fi depasite sub influenta fluctuatiilor aleatoare. Se va deduce astfel intervalul de confidenta corespunzator, si anume:

m0 t0.05 Sm , cu un coeficient de securitate de 95%;

m0 t0.01 Sm , cu un coeficient de securitate de 99%.

Exemple:

Presupunem ca media m = 4.50 din exemplul precedent a fost obtinuta pe un esantion de 6 observatii. Care este intervalul de incredere?

Tabelele lui t arata ca pentru un esantion de 6 observatii avem:

v = n - 1 = 5;

valoarea limita a parametrului t care are numai 5 sanse din 100 de a fi depasita este t0.05 = 2.57;

valoarea limita a parametrului t care are numai o sansa din 100 de a fi depasita este t0.01 = 4.03.

Intervalul de confidenta cautat va fi deci:

m0 t0.05 Sm

Þ (2.78, 6.22) , cu un coeficient de securitate de 95%;

m0 t0.01 Sm

Þ (1.80, 7.20), cu un coeficient de securitate de 99%.

Dupa cum se poate vedea din compararea valorilor obtinute, marimea mica a esantionului duce la un interval de incredere al mediei mai mare.

6. Normalitatea biologica

Dupa cum se stie, nu exista pentru o constanta biologica data (de exemplu, glicemia sau tensiunea arteriala) o valoare normala unica, ci o serie de valori pe care le putem considera ca normale; aceasta multime de valori constituie ceea ce se numeste "zona de variatie normala".

O problema importanta pentru biologie este de a determina limitele acestei zone de normalitate, si de unde incepe "patologicul". Trebuie stabilit din ce moment putem considera ca o valoare nu este normala, ci patologica.

Exemplu:

Daca valoarea glicemiei medii este 1g/l, nu vom ezita sa consideram valoarea 1.05 g/l ca fiind normala. O valoare de 2 g/l va fi cu siguranta patologica. Ce putem spune insa despre valori ca 1.15 g/l, sau 1.20g/l ?

Problema consta in a cauta care este abaterea maxima (abaterea "limita"). Zona de variatie normala va fi prin urmare intervalul de confidenta al mediei.

Valorile scazute ale glicemiei duc la hipoglicemie, cele crescute duc la diabet. Se observa ca valorile observate confruntate cu cele ale subiectilor normali, se distribuie sub forma unei curbe gaussiene. Aceasta este in definitiv corelatia dintre o abatere statistic semnificativa si o stare patologica data, care confera simptomului (cifrabil) valoarea sa deosebita (semiologica): ceea ce se numeste "criteriul psihopatologic", indispensabil alaturi de notiunile statistice pentru definirea domeniului de variatie patologica in biologie.

7. Distributia procentajelor

Estimarea unui procentaj

In urma unui tratament aplicat unui grup de n bolnavi, n = 120, se observa 36 cazuri mai grave (r = 36).

Se obtine proportia:

Ca si in cazul mediei, ramane de cercetat pana la ce limita variatiile procentajului pot fi puse pe seama fluctuatiilor fortuite, adica sa se determine intervalul de incredere al procentajului observat.

Distributia procentajelor

Pentru a rezolva problema enuntata mai sus, se va face o analogie cu intervalul de incredere al mediei, cautand cum se distribuie diferite procente q1, q2, .qn, corespunzatoare numerelor r1, r2, .rn de cazuri grave observate intr-un mare numar de experiente pe diferite esantioane cu acelasi efectiv n, plecand de la o populatie teoretica infinita, avand aceeasi compozitie (structura), adica comportand o proportie identica q de cazuri grave si p = 1 - q de cazuri non-grave.

Consideram o urna binara comportand aceeasi proportie q de bile negre corespunzatoare unei boli grave si aceeasi proportie p = 1 - q de bile albe corespunzatoare bolilor usoare.

Problema revine la a cauta cum se distribuie diferite proportii 0/n, 1/n, 2/n,.n/n de bile negre in toate combinatiile posibile ale esantioanelor identice de efectiv n care pot fi extrase din aceasta urna.

Aceasta distributie, dupa cum stim, este o distributie binomiala: distributia binomiala a procentajelor, ai carei termeni corespund dezvoltarii binomului (p + q)n . Esantionul cel mai probabil al acestei distributii are aceeasi proportie de bile albe (p) si de bile negre (q) ca si urna binara.

Media va fi:

Abaterea standard va fi:

Diferitele procentaje posibile pentru esantioane de acelasi efectiv n formeaza o distributie binomiala de medie q si abatere tip Sq.

Intervalul de confidenta al procentajului va fi prin urmare:

q Sq pentru un coeficient de securitate de 95%;

q Sq pentru un coeficient de securitate de 99%,

unde:

In cazul esantioanelor mici, estimarea proportiei devine foarte imprecisa.

8. Distributia diferentelor dintre medii

Compararea a doua medii

Se pune adesea problema de a confrunta rezultatele obtinute pe o serie cu cele obtinute pe alte serii.

Problema este de a sti daca diferentele constatate intre seriile comparate se explica prin fluctuatia de esantionaj, legata de caracterul limitat al efectivului studiat, caz in care diferentele observate nu trebuiesc luate in considerare. Daca, dimpotriva, diferentele observate sunt prea importante pentru a fi puse pe seama fluctuatiei de esantionaj, ele sunt "semnificative" si ne conduc la necesitatea de a admite ca seriile statistice studiate apartin unor "populatii de origine" diferite.

Metodele statistice nu pot rezolva cu certitudine acest fel de probleme. Ele pot doar sa ne indice daca, pe baza diferentelor observate, putem admite - si cu ce grad de securitate - ipoteza conform careia seriile studiate provin din populatii diferite.

Punerea problemei:

Intr-un grup de 253 femei de greutate normala se gaseste valoarea medie a corticoizilor in urina 4.5mg/24h. Aceeasi cercetare, facuta intr-un alt grup de 100 femei prezentand obezitate, a dat o valoare medie de 6.3mg/24h.

Se pune intrebarea daca se poate afirma ca valoarea mediei corticoizilor urinari la femeile obeze este superioara celei din grupul de femei normale, asa cum pare la prima vedere. Diferenta constatata intre cele 2 medii traduce o diferenta reala in natura populatiei studiate, sau este legata doar de fluctuatia de esantionaj?

In general, se lucreaza cu esantioane de volume diferite, n1, n2; se gasesc doua medii corespunzatoare m1, m2. Trebuie determinat daca diferenta observata intre cele doua medii este datorata unei fluctuatii sau corespunde unei diferente reale, in natura celor doua esantioane, fiind "semnificativa".

Ipoteza nula

Pentru a putea rezolva aceasta problema, se poate studia intervalul de confidenta al mediei in fiecare esantion. Daca intervalele de confidenta se suprapun mult, toate valorile care cad in zona de suprapunere pot apartine atat unei distributii, cat si celeilelte, iar diferenta observata poate fi datorata variatiei de esantionaj (hazardului) - Figura 8.52.

Figura 8.52. Intervalele de confidenta se suprapun mult

(diferenta datorata hazardului)

 

Dimpotriva, daca intervalele de confidenta ale celor doua distributii sunt distincte (Figura 8.53), putem deduce ca esantioanele apartin la doua populatii diferite, iar diferenta observata este semnificativa.

Figura 8.53. Intervalele de confidenta sunt distincte

(diferenta semnificativa)

 

Dar nu putem spune nimic in cazul in care intervalele de confidenta se suprapun putin (Figura 8.54).

Figura 8.54. Intervalele de confidenta se suprapun putin

 

Sa cautam rezolvarea directa pentru o astfel de problema. Pentru aceasta, vom face ipoteza (numita "ipoteza nula, caci ea presupune ca parametrul studiat nu variaza de la un esantion la altul) ca cele doua esantioane apartin aceleiasi populatii de origine si vom cauta care va fi in acest caz abaterea maxima si abaterea limita care pot fi observate intre cele doua medii considerate, sub influenta fluctuatiilor statistice. Ne ramane sa studiem cum se distribuie diferentele intre mediile celor doua esantioane de efective n1, n2 prelevate de un numar mare de ori, plecand de la aceeasi populatie de origine.

Distributia diferentelor dintre medii

Plecam de la aceeasi populatie cu un efectiv N foarte mare, teoretic infinit, si extragem un esantion de efectiv n1; valoarea cea mai probabila pentru media m1 a acestui esantion va fi M, media populatiei originale (globale). Daca se extrage un alt esantion de efectiv n2 , valoarea cea mai probabila pentru media m2 va fi tot M, aceasta probabilitate fiind cu atat mai mare cu cat efectivul esantionului in discutie este mai mare. Prin urmare, daca studiem diferenta (m1 - m2) va trebui sa ne asteptam, intuitiv, ca valoarea sa sa fie cel mai probabil zero.

Se arata efectiv ca daca dintr-o populatie de efectiv N foarte mare se extrag la intamplare esantioane de efective diferite n1, n2, avand respectiv pentru medie valorile m1, m2 si ca s-au facut un numar mare de astfel de experiente, diferentele (m1 m2) se repartizeaza urmand o distributie normala in jurul valorii zero (reprezentata in eventualitatea m1=m2=M).

Distributia diferentelor mediilor este deci in acest caz o distributie normala care are pentru medie valoarea 0 (Figura 8.55).

Se arata ca varianta (dispersia) acestei distributii, notata cu Sd2, este egala cu suma variantelor distributiilor mediilor din fiecare esantion.

Figura 8.55. Distributia mediilor

 

Daca n1 si n2 sunt suficient de mari, relatia devine:

Prin urmare, abaterea standard Sd a distributiei diferentelor va fi:

Diferenta semnificativa intre doua medii

Daca facem referire la proprietatile distributiei normale, putem spune ca pentru esantioane diferite plecand de la o aceeasi populatie de origine, o diferenta d = (m1 - m2) superioara lui 2 Sd nu se va observa decat in putine situatii - cel mult 5 cazuri din 100 (Figura 8.56).

Figura 8.56. Intervalul de confidenta [ Sd , +2 Sd ]

 

Daca am determinat ca aceasta diferenta este superioara lui 2 Sd, mai curand decat sa acceptam o eventualitate care nu are decat 5 sanse din 100 de a se realiza, vom admite (cu 5 sanse din 100 de a ne insela) ca ipoteza initiala fusese falsa si ca cele doua esantioane apartin in realitate la populatii diferite; vom spune atunci ca diferenta observata este semnificativa cu un prag de probabilitate de 5%.

O diferenta va fi deci considerata ca semnificativa cu un prag de semnificatie de 5% daca este superioara lui 2 Sd: d > 2 Sd

In acelasi mod, vom spune ca o diferenta intre doua medii este semnificativa cu un prag de semnificatie de 1% daca este superioara lui 2.6 Sd: d > 2.6 Sd

Pentru a putea sti daca o diferenta intre doua medii este sau nu semnificativa, este deci suficient sa calculam, plecand de la abaterile tip s si s ale fiecarui esantion, abaterea standard a diferentei, Sd, si sa vedem daca diferenta constatata d este sau nu superioara lui 2 Sd sau 2.6 Sd, urmatorul grad de securitate gasit.

Exemplu:

Reluam problema valorii mediilor pentru corticoizii urinari.

m2 = 6.3 mg/24h : esantionul de 100 femei obeze;

m1 = 4.5 mg/24h : esantionul de 253 femei cu greutate normala.

Abaterile tip sunt:

s = 1.7 : esantionul de 100 femei obeze;

s = 1.5 : esantionul de 253 femei cu greutate normala.

Avem:

n1 = 100 : esantionul de 100 femei obeze;

n2 = 253 : esantionul de 253 femei cu greutate normala.

d = m1 - m2 = 1.8


Se calculeaza:

Þ Sd Sd

Diferenta d intre medii, 1.8, este deci superioara lui 2 Sd si chiar lui 2.6 Sd. Probabilitatea ca o astfel de diferenta sa fie pur fortuita (datorata intamplarii) este deci inferioara lui 1%. Prin urmare, diferenta este semnificativa, si putem concluziona ca corticoizii urinari sunt mult mai ridicati la obeze in conditiile studiate.

Cazul esantioanelor mici

Pentru a putea fi considerata semnificativa cu un prag de probabilitate de 95%, diferenta va trebui deci sa fie superioara nu numai lui 2 Sd, ci lui t0.05 Sd, unde t0.05 > 2.

De altfel, expresia dispersiei standard este diferita. Intr-adevar, estimarile dispersiei furnizate separat pentru fiecare esantion devin imprecise, astfel incat formula de estimare a dispersiei devine:

unde variatiile estimate ale fiecarui esantion sunt: .

Expresia dispersiei standard a diferentei devine atunci:

de unde: .

In tabele speciale sunt date, in functie de efectivele n1 si n2 ale fiecarui esantion, si mai precis in functie de numarul g de grade de libertate, g = n1 + n2 - 2 (se pierde un grad de libertate pentru fiecare esantion), valorile limita t0.05 si t0.01 ale parametrului t care au respectiv 5 si o sansa din 100 de a fi depasite de o fluctuatie fortuita.

Se pot calcula atunci produsele t0.05 Sd si t0.01 Sd, care permit sa verificam daca diferenta constatata este sau nu semnificativa cu pragul de probabilitate corespunzator.

Exemplu:


Reluam exemplul precedent; presupunem ca in primul grup avem 6 observatii, iar in al doilea 8 observatii. Se calculeaza la inceput dispersia estimata:

Pentru 12 grade de libertate, din tabelele valorilor t se obtine:

t0.05 = 2.18; t0.01 = 3.06.

Þ t0.05 Sd 0.94 = 2.05 si

t0.01 Sd

Diferenta dintre cele doua medii fiind 1.8, este inferioara lui t0.05 Sd. Deci aceasta diferenta nu poate fi considerata semnificativa, chiar la pragul de probabilitate de 0.05.



Politica de confidentialitate | Termeni si conditii de utilizare



DISTRIBUIE DOCUMENTUL

Comentarii


Vizualizari: 7923
Importanta: rank

Comenteaza documentul:

Te rugam sa te autentifici sau sa iti faci cont pentru a putea comenta

Creaza cont nou

Termeni si conditii de utilizare | Contact
© SCRIGROUP 2024 . All rights reserved