Scrigroup - Documente si articole

Username / Parola inexistente      

Home Documente Upload Resurse Alte limbi doc  

 
CATEGORII DOCUMENTE
AstronomieBiofizicaBiologieBotanicaCartiChimieCopii
Educatie civicaFabule ghicitoriFizicaGramaticaJocLiteratura romanaLogica
MatematicaPoeziiPsihologie psihiatrieSociologie


REGRESIE SI CORELATIE - Metode elementare de studiere a legaturilor dintre fenomene

Matematica

+ Font mai mare | - Font mai mic


DOCUMENTE SIMILARE

Trimite pe Messenger
FISA DE LUCRU - TRIUNGHIUL SI PATRULATERE
Siruri de variabile aleatoare. Legea numerilor mari - Teoreme limita
Tabel de integrale nedefinite
Serii de timp cu doua componente
CALCULUL ELEMENTELOR IN POLIGOANE REGULATE - CERCUL - CLASA: a VII-a A
Derivabilitate (Gateaux) si diferentiabilitate (Fréchet) de ordinul I
INTEGRAREA NUMERICA A FUNTIILOR
TEME SI TESTE Matematica-Informatica Clasele V-VI
APROXIMAREA FUNCTIILOR
REGULILE ALGEBREI

TERMENI importanti pentru acest document

: metoda regresiei : metoda corelatiei : ecuatii de regresie : :

REGRESIE SI CORELATIE

Notiunea, importanta si felul legaturilor dintre fenomene

Metode elementare de studiere a legaturilor dintre fenomene

Metode analitice de studiere a legaturilor dintre fenomene

Corelatia neparametrica

Notiunea, importanta si felul legaturilor dintre fenomene

In statistica, legaturile care se stabilesc in mod necesar intre diferite fenomene colective sau intre caracteristici diferite ale aceluiasi fenomen colectiv se numesc corelatii.

In viata sociala, corelatia inseamna o relatie sau o legatura de forme diferite intre doua sau mai multe variabile privind un fenomen sau diferite fenomene colective.

In notiunea de corelatie se includ legaturi de conditionare reciproca, de cauzalitate, de subordonare, de influenta reciproca intre diferite fenomene colective. Procedeele de cercetare statistica a acestor legaturi se numesc tot corelatie.

Legaturile in viata fenomenelor sociale se numesc legaturi stochastice  sau statistice. Aceste legaturi se caracterizeaza prin faptul ca o caracteristica exercita o anumita influenta asupra altei caracteristici, ii determina intr-o anumita masura variatia, insa asupra acesteia mai actioneaza si alte caracteristici, care, din punct de vedere al legaturii, se considera intamplatoare.

Legatura statistica dintre doua sau mai multe caracteristici exprimate numeric poarta denumirea de corelatie.

Intre doua sau mai multe fenomene exista corelatie daca intre ele este o anumita legatura logica.

Studiul corelatiei este indreptat spre:

- identificarea existentei legaturii;

- stabilirea sensului si formei legaturii;

- determinarea gradului de intensitate a legaturii.

Multimea legaturilor statistice se poate grupa dupa mai multe criterii:

·                     Dupa numarul caracteristicilor corelate, legaturile dintre fenomene pot fi:

-          legaturi simple – exprima variatia variabilei rezultative y in functie de o singura variabila factoriala x.

-          legaturi multiple - exprima variatia variabilei rezultative y in functie de variatia simultana a mai multor variabile factoriale x1, x2, , xn.

·                     Dupa sensul sau directia legaturii, acestea pot fi:

-          legaturi directe – exprima modificarea lui y in acelasi sens cu variabila x.

-          legaturi inverse - exprima modificarea lui y in sens contrar variabilei x.

·                     Dupa forma legaturilor, intalnim:

-          legaturi rectilinii

-          legaturi curbilinii.

Analiza legaturilor statistice vizeaza estimarea modelului de regresie si masurarea intensitatii legaturii dintre variabile.

Pentru acesta se utilizeaza un ansamblu de metode elementare si metode analitice.

Metodele elementare ofera informatii asupra naturii si caracteristicilor legaturii cercetate, permitand cunoasterea formei si directiei legaturii.

Metodele analitice sunt precise si concrete, permitand masurarea si caracterizarea cifrica a gradului de legatura, a intensitatii acesteia.

 

Metode elementare de studiere a legaturilor dintre fenomene

Sunt urmatoarele:

  1. metoda seriilor paralele interdependente
  2. metoda gruparilor statistice
  3. metoda grafica.

A. Metoda seriilor paralele interdependente

            Consta in stabilirea legaturii dintre fenomene pe baza compararii indicatorilor proveniti din doua serii paralele, din care una reprezinta variatia variabilei factoriale x si cealalta variabila rezultativa y. In comparatie se cuprind serii care privesc variatia fenomenelor in timp, in teritoriu sau calitative.

            Daca se compara serii de timp, termenii acestora se ordoneaza cronologic, iar daca se compara serii teritoriale sau calitative, termenii lor se ordoneaza in ordine crescatoare sau descrescatoare a variabilei factoriale x. In paralel se inscriu termenii corespunzatori ai variabilei rezultative y.

            Prin compararea seriilor interdependente se poate evidentia existenta si directia legaturii.

            Astfel, daca ambele variabile comparate variaza in acelasi sens, exista o legatura directa. Daca variatia lor este de sens diferit, corelatia este inversa.

            Daca cele doua variabile variaza in mod independent sau una variaza si cealalta ramane constanta, nu exista legatura.

            Aceasta metoda se aplica in cazul seriilor cu un nr. relativ mic de variante, cand exista corespondenta de la valoare la valoare (xi, yi).

B. Metoda gruparilor statistice

            Se aplica in cazul cand cele doua variabile corelate prezinta un nr. mare de variante.

            Aceasta metoda consta in impartirea unitatilor statistice dupa variatia variabilei factoriale si calcularea indicatorilor sintetici ai caracteristicii rezultative pentru fiecare grupa in care a fost impartita colectivitatea.

            Metoda ofera posibilitatea aprecierii existentei legaturii si a sensului ei, dar nu masoara intensitatea legaturii.

            In cazul legaturilor simple se utilizeaza grupari simple, iar in cazul legaturilor multiple si vor utiliza gruparile combinate.

            O forma mai dezvoltata a acestei metode este metoda tabelului de corelatie care se utilizeaza atunci cand nr. perechilor de valori ale variabilelor corelate este foarte mare. In cadrul tabelului de corelatie gruparea se face concomitent dupa ambele variabile x si y. Se recomanda ca nr. intervalelor de variatie sa fie acelasi pentru ambele variabile.

            Cu ajutorul tabelului de corelatie se poate stabili existenta legaturii dintre variabile, directia si intensitatea ei. Daca frecventele sunt dispersate uniform in intreg spatiul tabelului, atunci intre variabile nu exista nici un fel de legatura. Daca frecventele se concentreaza in jurul unei drepte sau a unei curbe de un anumit tip, inseamna ca intre variabile exista o legatura a carei forma este data de dreapta sau curba respectiva. Cu cat concentrarea frecventelor in jurul dreptei sau curbei este mai mare, cu atat se poate aprecia ca intensitatea legaturii dintre variabile este mai mare, si invers.

C.    Metoda grafica

Permite prezentarea intr-o forma geometrica, expresiva si vizuala a legaturii dintre doua variabile. Se bazeaza pe sistemul de axe rectangulare, variabila factoriala se fixeaza pe abscisa, iar cea rezultativa pe ordonata. Perechile de valori corelate se reprezinta prin cate un punct in cadrul graficului. Reprezentarea acestor puncte in grafic ofera imaginea campului de corelatie, asemanatoarea cu un nor de puncte.

Dupa modul de distribuire a acestor puncte in spatiul graficului, se poate aprecia existenta, forma, directia si intensitatea legaturii dintre cele doua variabile. Concentrarea punctelor in jurul anumitor drepte sau curbe ne va indica faptul ca intre variabile exista o legatura, iar dreapta sau curba respectiva va indica forma legaturii.

y

 
Daca punctele se disperseaza uniform pe intreg spatiul graficului sau se concentreaza in jurul unei drepte paralele cu una din axe, atunci intre variabile nu exista legatura.

y

 

y

 


x

 

7.1           Metode analitice de studiere a legaturilor dintre fenomene

Cercetarea concreta a legaturii dintre fenomene numai pe baza metodelor elementare este insuficienta. Informatiile obtinute pe baza lor se completeaza cu metodele analitice.

Metodele analitice permit exprimarea matematica a formei legaturii si masurarea numerica a intensitatii legaturii. Sunt cunoscute sub denumirea de metode de regresie si corelatie.

Modelele de regresie au ca scop reprezentarea alurii distributiei a doua variabile corelate. Prin curbele de regresie se prezinta corespondenta intre perechile de valori (xi,yi).

Cele mai utilizate modele de regresie in studiul fenomenelor si proceselor social-economice sunt:

A.    regresie si corelatie liniara

B.     regresie si corelatie curbilinie

C.     regresie si corelatie multipla

Stabilirea si analiza modelului de regresie pp. efectuarea urmatorilor pasi:

-construirea corelogramei, respectiv a norului de puncte;

-aproximarea, pe baza ajustarii corelogramei, a formei legaturii printr-un model teoretic si formularea ecuatiei corespunzatoare modelului de regresie ales;

-estimarea parametrilor ecuatiei de regresie si interpretarea regresiei in functie de semnul si valoarea lor;

-testarea semnificatiei parametrilor de regresie.

A.        Regresie si corelatie liniara

Cazul cel mai simplu al legaturii dintre doua variabile x si y este cel al regresiei liniare de forma:

y = a + bx

Aceasta relatie se numeste ecuatie de regresie si se reprezinta grafic printr-o dreapta definita de parametrii de regresie, si anume:

a = ordonata la origine si arata valoarea variabilei y cand x = 0. Poate lua atat valori pozitive, cat si negative.

b = panta dreptei, se mai numeste si coeficient de regresie. Semnul parametrului b indica directia legaturii dintre cele doua variabile corelate, astfel:

            -daca b>0, indica o legatura directa

-daca b=0, nu exista legatura

-daca b<0, indica o legatura inversa.

Valoarea acestui parametru arata gradul de dependenta dintre variabile, respectiv cu cat creste sau scade y la o crestere sau la o scadere a variabilei x cu o unitate.

Determinarea parametrilor dreptei de regresie se poate face prin diverse metode, cea mai utilizata fiind metoda celor mai mici patrate.

Principiul de baza al acestei metode este ca suma patratelor diferentelor dintre valorile reale ale lui y si valorile teoretice date de ecuatia de regresie sa fie minima.

minim,   respectiv

minim.

Rezolvarea problemei de minim impune doua conditii:

-          anularea derivatelor partiale de ordinul I ale sumei in raport cu a si b;

-          matricea derivatelor partiale de ordinul II sa fie pozitiv definita.

Aplicand conditia ca derivatele partiale ale sumei in raport cu a si b sa fie nule, obtinem sistemul de ecuatii normale:

Prin rezolvarea sistemului de ecuatii normale printr-una din metodele cunoscute se obtin parametrii a si b.

Prin metoda lui Cramer sau a determinantilor, parametrii a si b se determina astfel (pentru seriile simple):

In cazul cand se studiaza legatura dintre doua variabile folosind date grupate intr-un tabel de corelatie, deci serii cu frecvente, sistemul de ecuatii normale devine:

Determinarea parametrilor a si b prin aceeasi metoda conduce la rezultatele:

Pe baza parametrilor a si b astfel determinati se obtine dreapta de regresie. Aceasta ofera doar imaginea formei legaturii dintre doua variabile.

Pentru a determina cat de intensa este legatura dintre variabilele corelate se utilizeaza coeficientul de corelatie si raportul de corelatie.

Coeficientul de corelatie se foloseste pentru masurarea legaturii in cazul unei regresii liniare simple. Formulat de statisticianul Pearson, coeficientul de corelatie se calculeaza ca o medie aritmetica simpla a produsului abaterilor celor doua variabile fata de medie, astfel:

,  unde:

xi = caracteristica factoriala;

yi = caracteristica rezultativa;

 = mediile celor doua caracteristici;

 = abaterea medie patratica a celor doua caracteristici.

            Daca in aceasta relatie inlocuim pe , cu expresiile lor dezvoltate si efectuam simplificarile posibile, se ajunge la formula:

  -pt. serii simple

  -pt. serii cu frecventa

            Valoarea coeficientului de corelatie este cuprinsa intre -1 si +1. Cele doua valori extreme reprezinta o legatura liniara perfecta intre cele doua variabile, directa sau inversa. Valoarea zero semnifica absenta legaturii.

            Raportul de corelatie () se bazeaza pe descompunerea dispersiei totale a variabilei y pe factori de influenta. Relatia sa de calcul este:

            ,   unde:

 = dispersia valorilor reale ale variabilei y;

 = dispersia valorilor teoretice ale variabilei y.

In cazul unei legaturi liniare simple, ecuatia raportului de corelatie devine:

           

            In cazul seriilor cu frecvente:

           

            Raportul de corelatie are valori cuprinse intre 0 si 1, cu urmatoarele semnificatii:

-= 1 arata ca intre variabile exista legatura;

-= 0 intre variabile nu exista legatura.

            Valoarea la patrat a raportului de corelatie prezinta raportul de determinatie:

              si arata ponderea influentei factorului x asupra variatiei variabilei y.

            Ex.      Consideram urmatoarele date conventionale privind legatura dintre costul mediu al tomatelor si pretul mediu al acestora:

Anii

Costul mediu al tomatelor

xi

Pretul mediu al tomatelor

yi

xiyi

1990

12

15

15

144

180

225

1991

32

43

43

1024

1376

1849

1992

117

205

205

13689

23985

42025

1993

423

600

600

178929

253800

360000

1994

789

890

890

622521

702210

792100

1995

1191

1191

1190

1418481

1417290

1416100

1996

3056

3459

3459

9339136

10570704

11964681

1997

4758

3922

3922

22638564

18660876

15382084

1998

4219

3826

3826

17799961

16141894

14638276

1999

3617

3249

3249

13082689

11751633

10556001

2000

3618

3431

3431

13089924

12413358

11771761

2001

7272

6835

6835

52881984

49704120

46717225

2002

10090

6730

6730

101808100

67905700

45292900

TOTAL

39194

34395

232875146

189547126

158935227

34395

            Sa se studieze forma si intensitatea legaturii dintre cele doua variabile.

            Pentru determinarea existentei legaturii dintre cele doua variabile se construieste graficul urmator:

          

Figura 1   Legatura dintre costurile medii si preturilor medii ale tomatelor la S.C. Seromgal S.A.  Galati

            Corelograma din figura 1 evidentiaza o legatura directa, liniara intre costurile medii ale tomatelor si preturile medii ale acestora. Prin urmare, estimarea preturilor medii in functie de costurile medii se efectueaza cu ajutorul ecuatiei de regresie liniara:

           

            Elementele de calcul necesare pentru determinarea parametrilor ecuatiei de regresie sunt sintetizate in tabel. Pentru determinarea parametrilor ecuatiei de regresie se rezolva urmatorul sistem de ecuatii:

        

a = 384,58

b = 0,75

            Cu aceste valori ale parametrilor, ecuatia estimata devine: . Estimatia parametrului de regresie b, avand o valoare pozitiva, arata ca intre cele doua variabile analizate exista o legatura directa. De asemenea, scoate in evidenta gradul de dependenta dintre variabile, si anume: la o crestere cu o unitate a costului mediu, pretul creste cu 0,75 unitati.

            Alaturi de stabilirea liniei de regresie este necesar sa se masoare si intensitatea legaturii dintre variabile cu ajutorul coeficientului de corelatie si al raportului de corelatie.

            Coeficientul de corelatie se poate determina prin urmatoarea relatie:

            Raportul de corelatie se determina cu ajutorul relatiei:

            Se constata ca cei doi indicatori ai intensitatii sunt egali, rezultand ca legatura dintre variabilele considerate este liniara, directa si foarte stransa.

B.        Regresie si corelatie curbilinie

O mare parte a legaturilor dintre variabilele din domeniul economic se incadreaza in modele de regresie curbilinie de tipul: hiperbola, parabola, curba exponentiala.

a. Regresie si corelatie de tip hiperbolic

            Legaturile de tip hiperbolic pot fi descrise de ecuatia:

           

            Parametrii modelului se estimeaza pe baza sistemului de ecuatii:

            Prin regula lui Cramer obtinem:

Fiind vorba de o legatura curbilinie, intensitatea legaturii se determina numai cu ajutorul raportului de corelatie.

Ex.      In scopul cercetarii legaturii dintre volumul productiei (mii lei) si costul unitar de productie (lei), se considera urmatoarele date:

Prod. 

xi

Cost

yi

Ec. de regresie:

15

35

0,06

225

0,0044

2,33

1225

34,29

20

25

0,05

400

0,0025

1,25

625

27,29

25

25

0,04

625

0,0016

1

625

22,93

40

15

0,025

1600

0,00062

0,375

225

16,38

50

15

0,02

2500

0,0004

0,3

225

14,2

70

10

0,014

4900

0,0002

0,14

100

11,7

80

10

0,0125

6400

0,00015

0,125

100

10,93

300

135

0,2215

0,00987

5,52

3125

137

            Sa se studieze forma si intensitatea legaturii dintre cele doua variabile.

- forma legaturii: hiperbola -

- intensitatea legaturii – raportul de corelatie:

> 0  exista legatura intre cele doua variabile.

b. Regresie si corelatie de tip parabolic

            Pentru exprimarea acestui model se utilizaeza, de regula, parabola de gradul doi, de forma:

            y = a+bx+cx2

            Parametrii a, b, c se determina prin metoda celor mai mici patrate, din sistemul:

            Intensitatea corelatiei parabolice se masoara cu ajutorul raportului de corelatie:

            Ex.      Analizandu-se o serie de probe de minereu de cupru pentru continutul in arsen si telur (miimi de procente ), s-au obtinut datele:

Cont. in arsen 

xi

Cont. in telur

yi

xiyi

5

3

25

15

125

75

625

9

-2,3925

15

3

225

45

3375

675

50625

9

3,2075

25

4

625

100

15625

2500

390625

16

7,1075

35

6

1225

210

42875

7350

1500625

36

9,3075

45

7

2025

315

91125

14175

4100625

49

9,8075

55

7

3025

385

166375

21175

9150625

49

8,6075

65

6,5

4225

422,5

274625

27462,5

17850625

42,25

5,7075

75

6

5625

450

421875

33750

31640625

36

1,1075

320

42,5

17000

1942,5

1016000

92987,5

64685000

246,25

42,46

Sa se studieze forma si intensitatea legaturii dintre cele doua variabile.

-forma legaturii: parabola: y = a+bx+cx2

a = -5,83;        b = 0,73;          c = -0,0085

b > 0 → legatura directa

-intensitatea legaturii:

→ exista legatura stransa.

c. Regresie si corelatie multipla

            Cazul regresiei si corelatiei intre doua variabile este o situatie particulara. In practica, variatia unei variabile y este dependenta de actiunea complexa a unei multitudini de factori.

            In acest caz este vorba de legaturi multiple.

Legaturile multiple de corelatie se stabilesc intre doua sau mai multe caracteristici factoriale si o caracteristica rezultativa. Astfel de legaturi se intalnesc si in cazul fenomenelor economice complexe.

In cazul legaturilor multiple, variabilele factoriale au influente diferite asupra variabilei rezultative. Factorii cauzali se ierarhizeaza in ordinea importantei actiunii lor asupra fenomenului efect si se iau in calcul cei care au o actiune importanta.

Considerand o vaxriabila dependenta y si k variabile independente (x1, x2, , xk) legate intre ele printr-o functie, atunci in cazul unei legaturi liniare multiple va avea forma:

,  unde:

a0 = parametrul care exprima influenta celorlalti factori considerati cu actiune constanta, in afara de factorii cauzali luati in calcul;

ai = coeficienti de regresie multipla care arata cu cat variaza variabila rezultativa, atunci cand variabila factoriala xi se modifica cu o unitate.

Parametrii a1, a2, , ak se determina cu ajutorul metodei celor mai mici patrate, punand conditia impusa de aceasta.

Masurarea intensitatii corelatiei multiple se poate efectua cu ajutorul raportului de corelatie multipla, in cazul unei regresii neliniare sau cu ajutorul coeficientului de corelatie multipla si a raportului de corelatie multipla, in cazul unei regresii multiple liniare.

Raportul de corelatie multipla are forma:

.

7.2              Corelatia neparametrica

Coeficientii corelatiei neparametrice se determina independent de forma legaturii. Ei se stabilesc fie in functie de abaterile individuale ale variabilelor corelate fata de media lor, fie in functie de rangurile perechilor de valori ale variabilelor corelate.

Pentru aceasta, unitatile statistice se ordoneaza in sens crescator sau descrescator a valorii variabilei factoriale si apoi se atribuie cate un rang fiecarei variante. Deoarece nu opereaza direct cu nivelurile caracteristicilor, aceste metode sunt aplicabile si in cazul corelatiei dintre caracteristici calitative.

In cadrul metodelor neparametrice de studiere a corelatiei, cele mai cunoscute sunt:

1.            coeficientul de concordanta Fechner,

2.            coeficientii de corelatie a rangurilor,

3.            coeficientul de asociere.

1.                  Coeficientul de concordanta Fechner

Statisticianul german G. Fechner a stabilit la sfarsitul secolului 19 un indicator al intensitatii corelatiei calculat pe baza concordantelor si discordantelor diferentelor dintre termenii consecutivi ai fiecarei dintre cele doua variabile corelate sau cu ajutorul concordantelor si respectiv discordantelor abaterilor calculate fata de mediile variabilelor corelate. Se calculeaza sub doua forme:

-coeficient simplu

-coeficient ponderat.

Coeficientul de concordanta simplu – se defineste prin relatia:

,  unde:

c = numar de concordante de semn ale abaterilor;

d = numar de disconcordante de semn ale abaterilor.

n = numarul perechilor de valori corelate.

Daca unele diferente  sau  sunt nule, atunci nu se considera nici concordanta, nici discordanta, ci este exclusa din calcul.

Coeficientul de concordanta ponderat – se determina prin relatia:

,   unde:

C = suma produselor  pozitive,

D = valoarea absoluta a sumei produselor  negative.

O alta varianta a coeficientului ponderat de concordanta Fechner se apropie de coeficientul de corelatie Pearson si se determina astfel:

Coeficientul Fechner poate varia intre -1 si +1, cu semnificatia unei legaturi directe sau inverse mai mult sau mai putin intense.

Ex.      Gruparea a 10 judete dupa nr. cinematografelor si nr. spectatorilor:

Jud

Nr.

cinematogr.

xi

Nr.

spect.

yi

c,d

1

2

3

4

5

6

7

8

9

10

4

16

4

13

9

6

14

13

12

14

103

345

64

634

312

97

322

223

126

379

-6

6

-6

3

-1

-4

4

3

2

4

-157

86

-196

374

52

-163

62

-37

-134

119

c

c

c

c

d

c

c

d

d

c

947

516

1176

1122

-52

652

248

-111

-268

476

36

36

36

9

1

16

16

9

4

16

24649

7396

38416

139876

2704

26559

3844

1369

17956

14161

Total

105

2605

c=7

d=3

C=5137

D=431

179

276930

Sa se stabileasca intensitatea legaturii dintre cele doua variabile cu ajutorul coef. de concordanta Fechner.

- Coeficientul simplu de concordanta :

  legatura directa slaba

            

- Coeficientul de concordanta ponderat:

   legatura directa stransa

- Coeficientul pearsonian:

   legatura directa slaba.

2.                  Coeficientii de corelatie a rangurilor

Rangul este o anumita treapta de ordine a variantelor variabilei intr-o serie. Pentru stabilirea rangurilor, valorile empirice ale variabilelor corelate sunt grupate dupa marimea lor in ordine crescatoare sau descrescatoare. De obicei, in functie de variabila independenta se ordoneaza si variabila dependenta.

Coeficientii de corelatie a rangurilor sunt:

a.       coeficientul Spearman;

b.      coeficientul Kendall

a. Coeficientul Spearman este o extensie a coeficientului de corelatie Pearson, in care valorile empirice ale variabilelor corelate sunt inlocuite cu rangurile lor corespunzatoare. Coef. Spearman deriva din coeficientul de corelatie clasic si se calculeaza dupa relatia:

            ,  unde:

d = diferentele dintre rangurile celor doua variabile;

n = nr. perechilor de valori xi, yi.

            Pentru aplicarea acestui coeficient se procedeaza astfel:

-se atribuie ranguri variabilelor xi si yi, de la numarul 1 a celei mai mari valori, in continuare;

-se calculeaza diferentele- d- dintre rangurile variabilei xi si yi;

-se calculeaza sirul d2 si se insumeaza;

-se aplica formula.

            Coef. de corelatie Spearman are valori cuprinse intre -1 si +1.

b.  Coeficientul Kendall se defineste prin relatia:

            ,  unde:

.

pi = nr. rangurilor superioare ale variabilei yi ordonate dupa xi, care exista dupa fiecare rang;

qi = nr. rangurilor inferioare ale variabilei yi ordonate dupa xi, care exista dupa fiecare rang;

n = nr. unitatilor observate.

            Acest coef. poate lua valori cuprinse intre -1 si +1, cu aceleasi semnificatii.

            Ex.      Legatura dintre productia si consumul de energie primara (in kg echivalent carbune), pe tari, se prezinta astfel:

Tara

Prod

xi

Cons

yi

Rang

d

d2

Ordonare rang

pi

qi

x

y

x

y

Africa de Sud

Algeria

Arabia Saudita

Bahrein

Brazilia

Bulgaria

China

Germania

Norvegia

Romania

3597

5552

36941

21557

575

1553

945

2465

55866

2160

2726

1583

5769

17058

850

3257

920

5475

7441

2890

5

4

2

3

10

8

9

6

1

7

7

8

3

1

10

5

9

4

2

6

-2

-4

-1

2

0

3

0

2

-1

1

4

16

1

4

0

9

0

4

1

1

1

2

3

4

5

6

7

8

9

10

2

3

1

8

7

4

6

5

9

10

8

7

7

2

2

4

2

2

1

0

1

1

0

4

3

0

1

0

0

0

Total

40

35

10

            Sa se stabileasca intensitatea legaturii dintre cele doua variabile cu ajutorul coef. de corelatie a rangurilor.

-coef. Spearman:           legatura directa stransa

-coef. Kendall:              legatura directa

.

           

3.                  Coeficientul de asociere

Se noteaza cu Q si a fost propus de Yule. Se foloseste pentru stabilirea corelatiei intre caracteristici alternative, reprezentand o masura a gradului de asociere.

Determinarea coef. de asociere se bazeaza pe tabelul de asociere de forma:

x                                       y

y1 (da)

y2 (nu)

nx

x1 (da)

a

b

a+b

x2 (nu)

c

d

c+d

ny

a+c

b+d

Coef. de asociere este definit de formula:

Valoarea coef. de asociere are ca interval de variatie (-1;+1) si se interpreteaza ca oricare coef. de corelatie.

Ex.      Sa se stabileasca legatura dintre distributia populatiei unui judet pe medii si pe sexe, cu ajutorul coef. de asociere:

Mediul                     Sexul

Masculin

Feminin

Total

Urban

400.000

450.000

850.000

Rural

300.000

380.000

680.000

Total

700.000

830.000

1.530.000

            Intre distributia pe sexe si distributia pe medii exista o legatura directa slaba.

                       

DISTRIBUIE DOCUMENTUL

Comentarii


Vizualizari: 860
Importanta: rank

Comenteaza documentul:

Te rugam sa te autentifici sau sa iti faci cont pentru a putea comenta

Creaza cont nou

Distribuie URL

Adauga cod HTML in site

Termeni si conditii de utilizare | Contact
© SCRIGROUP 2014. All rights reserved