Scrigroup - Documente si articole

     

HomeDocumenteUploadResurseAlte limbi doc
AstronomieBiofizicaBiologieBotanicaCartiChimieCopii
Educatie civicaFabule ghicitoriFizicaGramaticaJocLiteratura romanaLogica
MatematicaPoeziiPsihologie psihiatrieSociologie


ANALIZA SERIILOR DE REPARTITIE (DISTRIBUTIE) UNIDIMENSIONALE

Fizica



+ Font mai mare | - Font mai mic



ANALIZA SERIILOR DE REPARTITIE (DISTRIBUTIE) UNIDIMENSIONALE

Indicatori de nivel si de frecvente,



Indicatori ai tendintei centrale si ai mediilor de structura (pozitie);

Rezultatul gruparii si clasificarii unitatilor colectivitatii observate in functie de caracteristici atributive cantitative sau calitative se prezinta sub forma seriilor de repartitie (distributie) empirica. Ele se mai numesc simplu repartitii sau distributii statistice.

Gruparile simple (dupa o singura caracteristica) conduc la serii statistice independente sau unidimensionale, iar cele combinate la serii statistice conditionate sau multidimensionale.

La calculul si analiza indicatorilor (parametrilor) distributiilor empirice trebuie avute in vedere o serie de proprietati, care se pot intalni in toate cazurile, dar cu forme specifice fiecarei serii.

Principalele proprietati ale unei serii de repartitie sunt:

q         variabilitatea,

q         omogenitatea,

q         independenta

q         concentrarea sau dispersia

Variabilitatea termenilor unei serii statistice de repartitie este determinata de faptul ca fenomenele de masa apar ca rezultat al actiunii combinate a mai multor cauze, unele cu caracter esential, altele cu caracter intamplator, care se manifesta, de regula, in conditii individuale diferite. Cu cat actiunea cauzelor aleatoare este mai puternica, cu atat variabilitatea termenilor este mai mare iar gradul de omogenitate este mai mic.

Omogenitatea termenilor unei serii de repartitie se explica prin faptul ca toate valorile au acelasi continut, depinzand de acelasi factor esential.

Daca in urma analizei statistice se constata ca seria nu prezinta omogenitate, se trage concluzia ca aceasta colectivitate este formata din mai multe tipuri calitative si deci, seria respectiva trebuie separata in doua sau mai multe serii componente. Se vor folosi si in acest scop indicatori medii de variatie si asimetrie partiali si totali (vor fi prezentati in subcapitolele urmatoare).

Independenta termenilor unei serii de repartitie de frecvente provine din faptul ca fiecare valoare individuala se inregistreaza pentru o unitate statistica ce reprezinta un element distinct si obiectiv al unei colectivitati statistice. Aceasta independenta este relativa deoarece unitatile statistice apartinand aceleiasi colectivitati se supun acelorasi legi care se manifesta sub forma de tendinta. Fata de aceasta tendinta exista abateri intr-un sens sau altul, care pentru un numar mare de cazuri, se compenseaza reciproc. De aceea, este necesar ca prin metode statistice corespunzatoare, sa se afle trasaturile esentiale si comune care leaga aceste valori individuale relativ independente, dar care apartin aceleasi structuri calitative si care in statistica este cunoscuta sub denumirea de ,,legea de repartitie a seriei ".

Concentrarea sau dispersia fata de una sau mai multe valori ale seriei apare ca rezultat al intensitatii cu care influenteaza cauzele (esentiale si intamplatoare) la nivelul fiecarei unitati si care prin centralizare se determina frecventele de aparitie.

De cele mai multe ori, intensitatea factorilor de influenta este diferita si atunci frecventele de aparitie se concentreaza fie catre un singur capat al seriei (caz in care pe grafic se descriu repartitii in forma de 'j'), fie catre valoarea centrala a seriei (caz in care pe grafic se descrie o repartitie normala (simetrica)[1], fie catre ambele capete ale seriei (caz in care pe grafic se obtine o repartitie in forma de 'u'.

Multitudinea situatiilor intalnite in practica demonstreaza necesitatea caracterizarii tendintelor de concentrare/diversificare a valorilor unei serii de repartitie de frecvente cu ajutorul unor metode statistice specifice. Aceste metode conduc la obtinerea uneia sau a mai multor valori reprezentative, fie pentru intreaga serie, fie pe intervale de variatie a valorilor individuale.

Sistemul de indicatori al unei repartitii empirice este format din:

indicatori de nivel si de frecvente,

indicatori ai tendintei centrale si ai mediilor de structura (pozitie);

indicatori de variatie;

indicatori de asimetrie;

indicatori de concentrare.

Acesti indicatori se pot stabili in intregime pentru seriile de variabile cantitative (numerice). In cazul celor cu variabile calitative, numarul indicatorilor calculati este mai restrans. In continuare acesti indicatori se vor prezenta pe exemplul seriilor de variabile numerice si in masura in care ei se pot aplica si pentru seriile de variabile calitative vor fi mentionati separat.

1. Indicatori de nivel si de frecvente ai seriilor de repartitie

Caracterizarea statistica a unui fenomen de masa intr-o colectivitate statistica presupune luarea in consideratie atat a valorilor individuale cat si a frecventelor de aparitie a acestora.

Indicatorii de nivel ai seriei pot fi exprimati in cazul variabilelor numerice prin variante in cazul gruparii pe variante. In cazul intervalelor de variatie se utilizeaza ca indicator de nivel centrul (mijlocul) intervalului de grupare.

In grupa indicatorilor de frecventa deosebim: frecvente absolute, frecvente relative si frecvente cumulate.

Frecventele absolute notate in unele lucrari cu 'fi' sau 'ni ' in altele, reprezinta numarul de unitati care corespunde grupelor de unitati (variante sau intervale de valori) obtinut ca rezultat al centralizarii statistice. Frecventele absolute se exprima in unitati concrete (numar de salariati, numar de agenti comerciali, numar de unitati turistice, etc.). Frecventele absolute stau la baza calculului frecventelor relative.

Frecventele relative permit analiza structurii unei serii de distributie in functie de una sau mai multe variabile (caracteristici) si compararea repartitiilor empirice cu cele teoretice.

Frecventele relative notate cu ,, fi* "sau ,, ni * "denumite si ponderi, greutati specifice sau probabilitati de aparitie se obtin ca marimi relative de structura raportand frecventa fiecarei grupe (ni , fi ) la totalul frecventelor () dupa relatia:

Avand caracter de marimi relative se pot exprima sub forma de coeficienti sau in procente

In cercetarea statistica calculul frecventelor relative prezinta interes la determinarea altor indicatori statistici ce permit aprofundarea analizei seriilor de repartitie sau cand ne intereseaza structura seriei.

Frecventele cumulate se noteaza cu Fi sau F'i in functie de felul frecventelor incluse in calcul (absolute sau relative). Cumularea se face succesiv pornind de la ambele capete ale seriei, obtinand astfel pentru fiecare valoare a seriei frecvente cumulate crescator si descrescator

De exemplu, daca avem o serie de repartitie pe intervale (vezi tabelul 1.) se pot calcula atat frecventele relative (coloana 2) cat si frecventele cumulate crescator si descrescator (coloanele 3-6).

Tabelul 1

Calculul indicatorilor de frecventa intr-o serie cu intervale

Grupe de

salariati dupa venituri (mil lei)

Numarul muncitorilor

(fi)

Frecvente relative %

(fi*)

Frecvente      cumulate

absolute

relative

crescator

descrescator

crescator

descrescator

A

Sub 2

14 peste

Total

Frecventele cumulate sunt comparabile intre ele indiferent de felul de intervalului de grupare. De asemenea ele stau la baza stabilirii medianei si a celorlalte medii de structura sau pozitie - indicatori care vor fi prezentati intr-un subcapitol din acest capitol.

2. Indicatorii tendintei centrale

Analiza statistica a trasaturilor esentiale ale fenomenelor de masa, stabilirea tendintelor ce apar in producerea lor necesita calcularea anumitor valori sintetice cu continut de valori tipice, care sa fie reprezentative pentru intreaga serie studiata.

In functie de gradul de variabilitate a valorilor individuale, de sursele de date de care dispunem si de nevoile de cunoastere, in teoria si practica statistica se utilizeaza ca principali indicatori ai tendintei centrale:

2.1. marimile medii;

2.2. mediana;

2.3. modul (dominanta) seriei.

2.1. Marimile medii

Media in statistica reprezinta principalul indicator sintetic cu care se caracterizeaza un numar mare de valori individuale diferite ca forme de manifestare dar avand acelasi continut.

In consecinta, marimile medii sunt utilizate ca instrumente principale de cunoastere a fenomenelor de masa, deoarece numai pe baza lor se poate exprima ceea ce este comun si general in forma de manifestare a acestor fenomene, in fiecare etapa data, prin eliminarea a ceea ce este intamplator si neesential in producerea lor.

Media sintetizeaza deci, intr-o singura expresie numerica toate valorile individuale punand in evidenta ceea ce este esential si comun tuturor unitatilor.

De cele mai multe ori, valoarea mediei nu coincide cu nici una din valorile individuale din care s-a calculat.

Pentru a asigura un continut cat mai real mediilor calculate este necesar ca valorile individuale din care se calculeaza sa fie cat mai apropiate ca marime ceea ce corespunde conceptului de omogenitate statistica, semnificand faptul ca exista o valoare in jurul careia se concentreaza cele mai multe valori individuale.

Calculul mediei este recomandabil sa se bazeze pe folosirea unui numar mare de cazuri individuale diferite sub care s-a inregistrat caracteristica, a caror variatie sa poata fi considerata ca intamplatoare in raport cu intreaga masa de valori inregistrate.

In cazurile in care nu dispunem de date dintr-o observare totala, care ar permite evidentierea tuturor factorilor esentiali si intamplatori care determina variatia caracteristicii studiate, se pot utiliza si date provenite dintr-o observare partiala. In acest caz, mediile calculate pot fi considerate semnificative si pentru intregul ansamblu numai daca esantionul indeplineste conditia de reprezentativitate.

Media este semnificativa numai in cazul unei colectivitati cu grad ridicat de omogenitate. In cazul in care colectivitatea este eterogena se va proceda la impartirea colectivitatii in grupe folosind si serii conditionate pentru care se vor calcula mediile partiale corespunzatoare iar media pe total colectivitate va fi in acelasi timp si o sinteza a mediilor de grupe.

Pentru ca marimea medie sa aiba un continut obiectiv, este necesar ca alegerea formei de medie sa se faca in functie de forma de variatie si de sursele de informatie cu privire la caracteristica studiata.

In analiza seriilor de repartitie de frecvente se pot calcula urmatoarele tipuri de medii:

q        media aritmetica ( sau daca nu se mai foloseste si alta medie simpla);

q        media armonica ( );

q        media patratica ();

q        media geometrica ().

Fiecare poate fi calculata ca medie simpla si ca medie ponderata.

Mediile simple se folosesc in cazul datelor negrupate sau cand repartitiile au intervale cu frecvente egale intre ele si deci se pot simplifica.

Mediile ponderate se utilizeaza pentru repartitiile in care fiecarei valori a caracteristicii i se ataseaza o frecventa care difera de la caz la caz.

In statistica social-economica , cel mai frecvent se foloseste media aritmetica.

2.1.1.Media aritmetica

Media aritmetica este rezultatul sintetizarii intr-un singura expresie numerica a tuturor nivelurilor individuale observate, obtinuta prin raportarea valorii totalizate a caracteristicii la numarul total al unitatilor.

In sens statistic, media aritmetica calculata pentru colectivitate statistica este valoarea care s-ar fi inregistrat daca toti factorii ar fi influentat in mod constant in toate cazurile inregistrate. In acest sens, poate fi folosit in statistica termenul de "speranta" matematica catre care tind valorile individuale ale unei variabile statistice inregistrate intr-o observare empirica.

Media aritmetica simpla se calculeaza ca raport intre suma nivelurilor individuale sub care s-a inregistrat caracteristica si numarul cazurilor individuale luate in observare. Media se poate calcula raportand valoarea totalizata a caracteristicii la numarul total al unitatilor la care s-a facut centralizarea. Se foloseste relatia:

unde:

reprezinta nivelurile individuale ale variabilei;

reprezinta nivelul centralizat al variabilei;

n reprezinta numarul unitatilor observate.

Intr-o colectivitate statistica se intalnesc foarte rar cazuri in care numarul variantelor coincide cu numarul unitatilor. De regula, fenomenele de masa sunt numeroase si aceeasi valoare individuala (varianta) poate fi intalnita de mai multe ori. In acest caz, pentru a putea cuprinde in calcul toate valorile individuale trebuie sa se tina seama si de frecventa 1or de aparitie iar media se va calcula ca o medie ponderata utilizand formula:

in care k reprezinta numarul de grupe deci k < n

De retinut: Daca repartitia de      frecvente se prezinta pe intervale de variatie, xi reprezinta centrul de interval corespunzator.

Media aritmetica are anumite proprietati care au utilitate practica pentru calculul si interpretarea valorii ei.

Enuntam principalele proprietati:

intr-un sir de valori egale, media acestora este egala cu fiecare dintre ele:

x1 = x2 = .= xi = . = xn = xc ;

2.) marimea mediei aritmetice este intotdeauna o valoare cuprinsa in intervalul de variatie al variabilei:

xmin< < xmax

In cazul seriilor de repartitie pe intervale de variatie

3) in cazul unei serii de distributie cu frecvente, media se incadreaza intre valorile extreme ale variabilei osciland in jurul termenului cu frecventa cea mai mare.

4) suma abaterilor nivelurilor individuale ale variabilei aleatoare de la media lor este egala cu zero:

- pentru o serie simpla:

deci avem relatia

- pentru o serie de frecvente:

deci avem relatia .

Proprietatile 2) si 3) servesc pentru controlul logic, iar proprietate 4) permite verificare exactitatii calculelor, deci serveste pentru controlul aritmetic.

5) Intr-o serie statistice daca se micsoreaza sau se maresc toti termeni cu o constanta "a", media calculata din termeni modificati va fi mai mica sau mai mare decat media termenilor reali cu constant "a".

(in cazul unei serii simple);

(in cazul unei serii de frecvente).

Deci, unde:

- media termenilor initiali;

- media termenilor micsorati sau mariti cu "a".

Daca vrem sa ajungem la media seriei initiale se face operatia in sens invers adica: ().

6 ) intr-o serie statistica daca se impart sau se inmultesc toti termenii seriei cu un factor constant h si se face media noilor termeni, media astfel obtinuta va fi de h ori mai mica, respectiv mai mare decat media seriei initiale.

Pentru cazul in care toti termii se impart la o constanta h:

(pentru o serie simpla);

si:

(pentru o serie cu frecvente).

Daca vrem sa ajungem la media seriilor initiale

In mod analog se poate prezenta si cazul cand termenii se inmultesc cu acelasi coeficient.

Aplicarea formulelor de calcul ale mediei aritmetice si a proprietatilor ei se face diferentiat in raport cu modul de sistematizare a datelor statistice.

Calculul mediei pentru o repartitiei pe variante

Tabelul .1

Repartitia muncitorilor unei formatii de lucru dupa productia obtinuta (buc.)

Productia (buc.)xi

Numarul muncitorilor

ni

Frecvente relative

ni*

xi ni

xi ni(%)*

Total

Fiind o serie de repartitie de frecvente trebuie sa folosim formula mediei aritmetice ponderate. In cazul prezentat, variabila X este marimea productiei, iar ponderea este numarul de muncitori corespunzatori fiecarei variante.

media cu frecventei absolute este:

buc./munc.

media cu frecventei relative este:

buc./munc.

Calculul mediei pentru repartitiei pe intervale de variatiei egale.

In acest scop vom folosi seria de intervale din tabelul 5.3 si pentru modul de calcul vom folosi tabelul 5.2.

Fiind o serie de repartitie de frecvente vom folosi tot formula mediei aritmetice ponderate.

In cazul prezentat, variabila X este vechimea, iar ponderea este numarul de muncitori corespunzatori fiecarui interval si care este exprimata atat in marimi absolute (ni), cat si in marimi relative (ni* %).

Pentru a calcula valoarea mediei este necesar sa se stabileasca in prealabil vechimea medie corespunzatoare fiecarui interval (centrul sau mijlocul intervalului de grupare).

Tabelul 2

Calcului mediei aritmetice ponderate pentru o serie de intervale egale.

Grupe de muncitori

dupa vechime

(ani)

Centrul intervalului

(xi)

Numarul muncitorilor

Produse de frecvente

absolut

(ni)

(ni*%)

xi ni

xi ni*%

A



Total

Pentru calculul mediei seriei se efectueaza produsele de frecvente (xi ni) si (xi ni*)

- utilizand frecventele absolute se obtine:

sau 18,2 ani vechime / mc;

utilizand frecventele relative se obtine se obtine aceeasi valoare pentru media:

18,2 ani vechime / mc.

Media se exprima in unitati de masura ale variabilei luata in calcul.

In cazul unei serii perfect simetrice cu un numar impar de variante sau grupe media este egala cu varianta de la mijlocul seriei sau cu mijlocul intervalului central cu frecventa cea mai mare.

Media este mai exacta cand o calculam direct din valorile sub care s-a inregistrat caracteristica. Este o medie aproximativa cand o calculam pentru seriile pe intervale de variatie deoarece in acest caz determinarea ei se bazeaza pe ipoteza repartizarii uniforme a frecventelor in cadrul fiecarui interval ceea ce, de regula nu corespunde realitatii.

5.2.2.Alte tipuri de medii utilizate in analiza seriilor de repartitie

Una din conditiile de aplicare a valorilor medii este aceea de a gasi criterii de alegere corecta a tipului de medii folosit.

In general este recomandabil sa alegem media aritmetica atunci cand fenomenul supus cercetarii inregistreaza modificari aproximativ in progresia aritmetica.

In teoria si practica statistica cel mai frecvent se foloseste media aritmetica.

De aceea cand nu se precizeaza media folosita se presupune ca s-a calculat media aritmetica care este considerat principalul parametru al tendintei centrale.

Cand fenomenul inregistreaza modificari in progresia aritmetica, sau intentionam sa dam o importanta mai mare termenilor mai mici sau mai mari ai seriei, calculam alte tipuri de medii si anume:

media armonica (xh)

media geometrica (xg ),

media patratica (xp)

2.2.1. Media armonica

Media armonica se defineste ca fiind egala cu valoarea inversa a mediei aritmetice calculata din valorile inverse ale termenilor aceleiasi serii.

Desi deriva din media aritmetica ponderata, in practica se intalnesc doua variante ale mediei armonice, simpla si ponderata.

Se folosesc relatiile de calcul:

- pentru o serie simpla

- pentru o serie de repartitie de frecvente

Comparand formula mediei armonice cu aceea a mediei aritmetice se pot stabili anumite relatii care pot fi utile in practica statistica:

1) daca termenii seriei sunt pozitivi, media armonica este intotdeauna mai mica decat media aritmetica calculata pe baza acelorasi valori.

2) in cazul in care intre doua variabile interdependente exista un raport de inversa proportionalitate, acest raport se pastreaza si in cazul mediilor calculate. Astfel, daca pentru calculul nivelului mediu al uneia dintre cele doua variabile se foloseste media aritmetica pentru cealalta se foloseste obligatoriu media armonica.

3) daca se folosesc sisteme de ponderare diferite si anume la media aritmetica frecventele absolute (ni), iar la media armonica produsele de frecvente(xini) se obtine aceeasi valoare a mediei. Practic media aritmetica poate fi substituita cu media armonica ponderata cu produsele de frecventele (xini).

De cele mai multe ori din evidente nu rezulta frecventele absolute (ni) ci numai variantele caracteristicii (xi) si respectiv produsele de frecventa (xini). In acest caz vom folosi urmatoarea formula pentru calculul mediei armonice ponderate:

Se observa ca in aceasta forma de ponderare media armonica este o forma transformata a mediei aritmetice.

In cazul distributiilor de frecvente media armonica este indicat a fi folosita cand predomina valorile mici ale seriei, seria prezentand deci o asimetrie catre valorile minime ale caracteristicii. In acest caz se foloseste formula mediei armonice ponderate clasice.

Pentru exemplificare vom folosi seria de repartitie prezentata la calculul mediei aritmetice (vezi tabelul .1).

=13,1 ani/muncitor.

Am calculat si acest tip de medie deoarece se observa ca predomina valorile mici ale seriei .

Se observa ca .

2.2.2.Media patratica

Media patratica este acea valoare care inlocuind termenii seriei ridicati la patrat nu modifica suma patratelor lor.

Media patratica este folosita, de obicei, atunci cand nivelurile variabilei aleatoare prezinta cresteri din ce in ce mai mari sau cand intr-o repartitie predomina frecventele valorilor ridicate ale variabilei si dorim sa le dam acestora o importanta mai mare. Si aceasta medie, in cazul seriilor de repartitie de frecvente se foloseste complementar mediei aritmetice care ramane principalul parametru al tendintei centrale.

Bazandu-se pe ridicarea la patrat ea se poate folosi si in cazul in care termenii seriei au valori pozitive si negative.

Media patratica corespunde relatiei:

.

Daca se inlocuieste in relatia de mai sus fiecare termen cu media patratica obtinem:

     

Aceasta formula se foloseste in cazul unei serii simple.

In cazul unei distributii de frecvente se vor efectua mai intai produsele dintre fiecare termen ridicat la patrat si ponderea sa si pe baza acestora utilizand un rationament analog cu cel descris anterior se obtine formula mediei patratice ponderate:

     

De retinut faptul ca media patratica este intotdeauna mai mare decat media aritmetica a acelorasi termeni, indiferent de semnul pe care il au, deoarece prin ridicare la patrat toti termenii devin pozitivi, iar patratul creste pe masura ce cresc valorile termenilor.

Media patratica sta la baza calculului abaterii medii patratice care este unul din cei mai utilizati indicatori de variatie.

5.2.2.3 Media geometrica

Spre deosebire de celelalte medii prezentate pana aici, care se bazeaza pe relatii de insumare intre termenii seriei, media geometrica se bazeaza pe relatia de produs dintre ei.

Media geometrica reprezinta acea valoare cu care, daca se inlocuiesc toti termenii seriei si se face produsul lor, valoarea la care se ajunge este egala cu produsul termenilor reali, adica     

; ;

de unde,

     

unde este semnul produsului

In cazul unei serii de distributie de frecvente, fiecare termen trebuie sa fie luat in functie de frecventa sa. Deci vom avea:

.

Inlocuind fiecare valoare cu obtinem:

.

Restrangand obtinem: si formula devine:

De retinut faptul ca media geometrica devine incalculabila daca cel putin un termen al seriei este egal cu zero sau negativ.

Media geometrica se foloseste cel mai frecvent in cazul seriilor cronologice, la calculul mediilor din marimile relative ale dinamicii, respectiv la determinarea indicelui mediu de dinamica.

In cazul seriilor de distributie de frecvente, media geometrica se foloseste mai rar. Este recomandabil sa se foloseasca acest tip de medie atunci cand seria prezinta variatii foarte mari intre termeni sau un pronuntat caracter de asimetrie. Prin 1ogaritmare, abaterile dintre termenii seriei se micsoreaza si se obtine un grad mai mare de concentrare a frecventelor.

De asemenea, cand predomina valorile mai mici, folosind media geometrica, li se acorda acestora o mai mare importanta, media geometrica fiind mai mica decat media aritmetica a acelorasi termeni.

Intre mediile prezentate exista urmatoarea relatie de ordine:

In concluzie la calculul nivelului mediu al unei repartitii unidimensionale se foloseste pentru masurarea nivelului mediu media aritmetica si complementar celelalte tipuri de medii prezentate, daca seria prezinta anumite particularitati, sau in scopul aprofundarii analizei.

2.3. Valori medii de pozitie sau de structura

Pentru completarea analizei seriilor de distributie este necesar sa se calculeze anumite valori medii de pozitie sau medii de structura, care sa evidentieze si forma de repartitie a frecventelor. Dintre acestea, mediana si modul sunt cel mai frecvent utilizate, fiind considerate tot ca indicatori ai tendintei centrale.

Mediana (Me) reprezinta valoarea centrala a unei serii statistice, ordonate crescator sau descrescator, care imparte termenii seriei in doua parti egale.

Indiferent de tipul seriei (simpla sau cu frecvente) la calculul medianei se cer rezolvate doua aspecte:

- aflarea locului medianei

- calculul valorii medianei

In cazul seriilor simple 1ocul medianei se afla dupa relatia: 1ocul Me = unde n reprezinta numarul termenilor seriei.

Determinarea medianei necesita ordonarea prealabila crescatoare sau descrescatoare a termenilor seriei.

Daca numarul termenilor este impar (n=2p+l), mediana este termenul de rang p+1 (valoarea termenului central).

Fie de exemplu, o serie formata din urmatorii noua termeni: 8, 8 , 9 , 9 , 9 , 10, 13, 14. In acest caz mediana este a cincia valoare, Me = 9, adica valoarea termenului indicat de 1ocul medianei .

Daca numarul termenilor este par, adica n=2p, orice valoare cuprinsa intre termenul de rang p si termenul de rang p+1 poate fi considerata ca o mediana, deci mediana se gaseste intr-un interval de valori.

De exemplu, daca se considera o serie formata din valorile: 8, 9, 9,10,12, 13, 13,14,15,16 mediana este situata intre termenii de rang cinci si sase si este egala cu media aritmetica simpla a celor doi termeni, adica Me =.

Daca datele sunt grupate pe intervale (clase) de valori ele isi pierd individualitatea si la determinarea medianei trebuie sa se tina seama de relatiile dintre grupele de valori si frecventele acestora.

Tabelul 4

Gruparea agentilor economici dupa marimea profitului

Agenti ec. dupa marimea profitului

(mil. lei)

Numarul agentilor economici

Frecvente cumulate

Centru de interval

xi

Produse de frecvente

xini

Crescator

Descrescator

TOTAL

Locul medianei in cazul datelor grupate locul .

Efectivul total fiind 200, locul.

Deci mediana este situata intre valorile unitatilor de rang 100 si 101. Coloana frecventelor cumulate ne indica apartenenta acestor valori la intervalul 32 - 36. Cum in acest interval sunt situate 60 de unitati este necesar sa repartizam proportional aceste 60 de unitati in intervalul de variatie si sa identificam a 100-a si 101-a valoare. Cu alte cuvinte, este necesar sa procedam in continuare la calculul valorii medianei.

Determinarea valorii se poate realiza in doua moduri:

q         prin calcul algebric;

q         prin calcul grafic.

Calculul algebric al medianei presupune utilizarea urmatoarei formule de calcul:

     

unde:

x0 - limita inferioara a intervalului median (primul interval a carui frecventa cumulata este mai mare sau egala cu ;

h - marimea intervalului median;

m - indexul intervalului median;

- frecventa cumulata a intervalului care precede intervalul median;

nm - frecventa absoluta a intervalului median.

Mediana seriei este deci:

mil lei profit/agent. ec..

Calculul grafic al medianei se poate realiza in doua moduri:

Se traseaza poligonul frecventelor cumulate crescator si descrescator. Din punctul de intersectie al celor doua curbe se traseaza perpendiculara pe axa absciselor si se citeste valoarea medianei pe Ox (vezi fig.6.1.); Me=32,375 milioane lei.

Se traseaza numai poligonul frecventelor cumulate crescator. De pe axa ordonatelor din punctul corespunzator locului medianei (in cazul nostru 100,5) se duce o paralela la Ox ce intalneste poligonul in punctul m. Din acest punct se coboara perpendiculara pe Ox si se obtine astfel valoarea medianei.

Figura .1

Figura .2

Mentionam in continuare cateva proprietati ale medianei. Mediana depinde de locul valorilor in serie, nu de marimea acestor valori. In felul acesta ea nu este supusa influentei asa-ziselor valori aberante (anormal de mari sau anormal de mici) care sunt lasate in afara seriei prin deschiderea intervalelor marginale.

Din punct de vedere grafic precizam ca verticala corespunzand medianei imparte histograma seriei in doua parti de aceeasi suprafata, deoarece ariile coloanelor      care constituie histograma sunt prin definitie proportionale ca inaltime cu frecventele absolute corespunzatore, iar ca baze cu marimea intervalului de grupare.

Daca sistematizarea datelor s-a facut pe intervale neegale, calculele privind locul si valoarea medianei se fac dupa aceleasi ipoteze si formule.

Mediana are o larga aplicabilitate in practica: la studiul mortalitatii, la determinarea duratei medii de viata, etc fiind alaturi de media aritmetica si de mod, principalii indicatori ai tendintei centrale.

Cand seria empirica analizata prezinta o tendinta de repartitie normala (simetrica), mediana poate sa inlocuiasca valoarea medie, fiind mai usor de calculat.

Cu cat seria este mai apropiata de distributia normala, cu atat abaterea dintre media aritmetica si mediana este mai mica, deci proprietatea de compensare a abaterilor fata de medie se realizeaza si in cazul medianei, doar pentru o serie perfect simetrica. Se poate aprecia ca mediana este un indicator semnificativ al tendintei centrale daca se obtine o minimizare a abaterilor tuturor termenilor de la mediana, adica:

, pentru datele negrupate,

, pentru datele grupate.

Moda[2] (modul, dominanta)

Modul (Mo) este valoarea cea mai frecvent intalnita, motiv pentru care mai este cunoscut in literatura de specialitate si sub denumirea de dominanta seriei.

Pentru serii simple (date negupate) modul se calculeaza daca intalnim o valoare a variabilei care se repeta de mai multe ori.

Astfel, in seria (4, 5, 6, 6, 7, 7, 8, 8, 8, 9, 9, 10), valoarea 8 apare cel mai frecvent; modul este deci Mo=8.

Modul se poate calcula cu certitudine pentru orice serie de distributie de frecventa, indiferent de modul ei de prezentare (pe variante sau pe intervale de variatie).

Modul se poate calcula fie pe cale algebrica fie prin metoda grafica.

In cazul unei serii de distributie pe variante modul este usor de reperat. In tabelul statistic in care este prezentata seria pe variante analizata, modul este varianta xi corespunzatoare frecventei maxime.

Determinarea grafica a modului presupune utilizarea diagramei prin bastoane. In acest caz Mo este acea valoare de pe abscisa care are ordonata maxima si corespunde frecventei acelei marimi (vezi fig. 3).

Figura 4

Daca seria prezinta doua frecvente maxime identice alaturate se defineste un interval modal (vezi fig. 5.4) fara a putea preciza valoarea exacta a modului.

Figura 5.

Pentru o serie de distributie pe intervale egale valoarea modului trebuie calculata. Intervalul modal se considera intervalul care are frecventa cea mai mare.

In seria prezentata pentru calculul medianei intervalul modal este cuprins intre 32-36 milioane lei profit, deoarece aici frecventa este maxima (60). Cu aceste precizari se poate proceda la calculul algebric si grafic.

a) Calculul algebric al modului se bazeaza pe relatia:

in care:

x0 - reprezinta limita inferioara a intervalului modal;

h - marimea intervalului modal;

- diferenta dintre frecventa intervalului modal si a celui precedent

- diferenta dintre frecventa intervalului modal si a celui urmator

In seria prezentata:

miloane lei profit/agent.ec.

Modul prezinta o abatere fata de medie de 1,81 milioane lei (31,86-33,67=-1,81). Fiind negativa aceasta abatere arata ca frecventele termenilor mai mici sunt mai numeroase, in comparatie cu frecventele termenilor mai mari. Media s-a calculat utilizand formula:

miloane lei profit/agent. ec

b) Pe grafic, valoarea modala se poate determina si cu ajutorul histogramei formata din dreptunghiurile corespunzatoare fiecarei grupe (clase) de valori..

Se procedeaza astfel: se construieste histograma (vezi figura 6.5). Din intersectia segmentelor de dreapta care unesc varfurile superioare ale dreptunghiului aferent modului cu frecventele de incidenta ale acestuia cu dreptunghiurile adiacente, se coboara o perpendiculara pe abscisa. Punctul gasit indica valoarea modului. De pe grafic rezulta o valoare apropiata de cea obtinuta prin calcul algebric (Mo=33,7).

Figura 6.

c) In cazul distributiilor moderat asimetrice Mo se mai poate determina si pornind de la conditia care trebuie sa fie indeplinita in acest caz:

In cazul prezentat prin utilizarea acestei relatii de calcul se obtine:

milioane lei profit/agent. ec.

Se observa ca valoarea modului nu difera semnificativ fata cea obtinuta prin calculul algebric in cazul nostru.

De precizat faptul ca modul este o valoare foarte instabila. Simpla deplasare cu cateva unitati (deci reluarea gruparii) poate sa modifice sensibil valoarea modului.

Observam ca in cazul distributiei studiate       (31,86<32,37<33,67) aspect de care se va tine seama in aprecierea tipului seriei.

Daca seria prezinta doua sau mai multe frecvente maxime nealaturate si nu ne aparat egale, spunem ca seria este bimodala, trimodala etc.

Mediana si modul se exprima in aceleasi unitati de masura ca si variabilele pentru care se determina si prezinta avantajul ca valoarea lor nu se modifica daca se inchid in mod conventional intervalele deschise.

Cu toate inconvenientele, modul are o larga aplicabilitate practica (mai ales in comert) si sta la baza calculului si interpretarii gradului de asimetrie a repartitiei.

Modul prezinta avantajul ca se poate stabili si pentru o variabila calitativa. De exemplu, in analizele de marketing se poate stabili culoarea cea mai frecvent solicitata la articolele de imbracaminte sau incaltaminte.

La seriile cu un grad mare de variatie, unde pot aparea si mai multe valori modale este necesar sa se separe seria pe serii componente si sa se calculeze si valori medii partiale pe zone de variatie.

Folosirea modului se impune atunci cand o valoare domina clar seria de distributie fata de toate celelalte valori si deci poate fi substituita celorlalte doua valori ale tendintei centrale (media si valoarea mediana) fara sa se produca abateri semnificative.

In acelasi timp utilizarea modului trebuie sa se faca cu prudenta

In cazul in care frecventele se distribuie relativ uniform, valoarea modala este doar mai frecventa decat celelalte valori ale seriei. Daca celelalte valori sunt insa aproape tot asa de frecvente ca valoarea modala, s-ar putea ca o valoare sa devina dominanta din intamplare, si ea s-ar deplasa, daca intervalele de grupare s-ar schimba. Deci, modul este semnificativ ca valoare tipica, numai daca o valoare domina in seria de distributie.

Pentru seriile cu un pronuntat caracter de asimetrie, valoarea dominanta nu are sens sa fie folosita pentru a caracteriza tendinta centrala. In acest caz, se recomanda sa se foloseasca grupari combinate care sa separe colectivitatea inregistrata pe mai multe grupe de variatie, apartinand unor structuri diferite.

Pentru seriile de distributie cu tendinta pronuntata de asimetrie, caracterizate printr-o amplitudine mare a variatiei, se calculeaza si alti indicatori de pozitie cum sunt: cuartilele, decilele, centilele, percentilele etc.

Cuartilele sunt acele valori ale caracteristicii, care separa seria in patru parti egale:

cuartila inferioara, notata cu Q1, este mai mare sau egala de 25% din termenii seriei si mai mica sau egala de 75% dintre ei;

cuartila a doua Q2 coincide cu Me si separa seria in doua parti egale ca efectiv;

cuartila superioara Q3       este mai mare sau egala de 75% din numarul termenilor si mai mica sau egala de 25% din numarul lor.

Analog cu mediana pentru cuartile obtinem:

Locul cuartilei

Valoarea cuartilei

in care:

si reprezinta suma frecventelor intervalelor precedente locului pe care-l ocupa Q1 si Q3

reprezinta frecventele intervalelor care contin cuartilele respective.

In cazul in care se calculeaza decilele, seria se divide in zece parti egale folosind in acest scop noua decile. Se calculeaza utilizand relatiile din tabel.

Locul decilei

Valoarea decilei

loc

loc

loc

Notatiile au semnificatiile prezentate la cuartile. Se poate observa cu usurinta ca formele de calcul pentru cuartilele si decilele nu sunt altceva decat ajustari ale formulei medianei, la locul pe care cuartilele sau decilele il ocupa in serie.

In cazuri mai rare se pot folosi si centilele care impart seria in 100 de parti egale, deci vom obtine 99 de centile.

Cuartilele, decilele si centilele se pot determina si grafic folosind poligonul frecventelor cumulate si reprezinta punctele corespunzatoare pe axa Ox (vezi calculul grafic al medianei).

Cuantilele se folosesc, de regula, daca suntem interesati sa structuram seria pe grupe egale sau sa analizam numai un anumit segment al seriei, de exemplu, numai o parte a valorilor variabilei care se situeaza in mijlocul seriei de repartitie. Astfel, daca intereseaza 50% din valorile din mijlocul seriei, se va recurge la cuartile si se poate forma o noua serie cu variabile cuprinse intre Q1 si Q3. Daca urmarim sa ne oprim la 80% din totalul valorilor din mijlocul seriei, ne oprim la decilele D1 si D9.

Cuantilele, impreuna cu modul si cu mediile calculate ca sinteza a tuturor valorilor individuale ale seriei pot fi considerate ca valori tipice pentru masurarea nivelul variabilei studiate. Pentru a putea fi considerate ca atare trebuie sa li se verifice semnificatia lor fata de toate si fata de o parte din valorile inregistrate.

Pe baza mediilor calculate din totalitatea valorilor individuale si a mediilor de structura (Me, cuartile, decile, Mo) se pot calcula in continuare indicatori de variatie si asimetrie care permit realizarea analizei seriilor de repartitie.



Legea normala a repartitiei este numita si curba normala Gauss-Laplace si graficul ei 'clopotul lui Gauss'.

Mod sau moda vine de la termenul frantuzesc "la mode" cu sensul de moda




Politica de confidentialitate | Termeni si conditii de utilizare



DISTRIBUIE DOCUMENTUL

Comentarii


Vizualizari: 4114
Importanta: rank

Comenteaza documentul:

Te rugam sa te autentifici sau sa iti faci cont pentru a putea comenta

Creaza cont nou

Termeni si conditii de utilizare | Contact
© SCRIGROUP 2024 . All rights reserved