Scrigroup - Documente si articole

Username / Parola inexistente      

Home Documente Upload Resurse Alte limbi doc  
AgriculturaAsigurariComertConfectiiContabilitateContracteEconomie
TransporturiTurismZootehnie


Metode rezistente de regresie

Economie



+ Font mai mare | - Font mai mic



Metode rezistente de regresie

Calitatea ajustarii folosind metoda regresiei, se apreciaza in functie de coeficientul de determinatie, R2. Informatia continuta in date, nu este toata condensata in estimatorii: si , R2 si SSE, ci se poate gasi si in reziduuri, care contin partea de variatie neexplicata a variabilei dependente. Daca analizand reziduurile, se constata prezenta unei structuri, inseamna ca acestea sunt inca purtatoare de informatie, care s-ar putea modela. Modelul ales trebuie modificat corespunzator.



Statisticianul Anscombe, in 1973, a gasit patru seturi de date care au particularitatea de a furniza aceleasi rezultate statistice. Pentru cele patru grupuri de date, se gaseste aceeasi dreapta de regresie , aceeasi abatere reziduala 1.236 si acelasi coeficient de determinatie 0.667, ceea ce inseamna ca variabila x explica doua treimi din varianta variabilei y.

Grupul A

Grupul B

Grupul C

Grupul D

x

y

x

y

x

y

x

y

Tabelul 1.19. Grupurile de date ale lui Anscombe

Totusi aceste patru seturi de date corespund unor situatii foarte diferite, prezentate in Tabelul 1.20, si in Figurile 1.18, 1.19, 1.20 si 1.21. Graficele prezinta datele empirice si dreapta de regresie intr-o diagrama XY (Scatter).

Numai in cazul A, Figura 1.18, se justifica utilizarea regresiei liniare. Pentru celelalte trei cazuri, aplicarea metodei regresiei nu are sens.


Figura 1.18. Grupul A de date si dreapta de regresie

Figura 1.19. Grupul B de date si dreapta de regresie

Pentru datele din grupul B, modelul nu este corect specificat. Graficul din Figura 1.19 indica utilizarea unui model neliniar.

Pentru ansamblul C, datele sunt aliniate dupa o dreapta, dar nesansa de a contine o valoare aberanta pentru x=13, face ca dreapta de regresie sa nu treaca prin nici unul din puncte.

Figura 1.20. Grupul C de date si dreapta de regresie


Pentru grupul D, dreapta de regresie pare atrasa de punctul aberant, in x=19 sau nu sunt suficiente date pentru a determina panta dreptei

Figura 1.21. Grupul D de date si dreapta de regresie

Metodele rezistente pentru rezolvarea situatiilor in care se manifesta existenta valorilor aberante, recurg la proceduri iterative si respecta acelasi criteriu, cel al minimizarii sumei patratelor abaterilor valorilor observate de la dreapta de regresie (varianta reziduurilor sa fie minima), ca si metoda regresiei,

.

Aceste metode sunt:

metoda celor trei puncte si

metoda lui Theil.

Utilizarea medianei, in locul mediei, confera rezistenta acestor metode, pentru ca in stabilirea medianei nu se tine seama de valorile extreme ale variabilei.

Metoda celor trei puncte

Metoda celor trei puncte consta in:

determinarea cuantilelor de ordinul 1/3 si 2/3 ale variabilei x, notate cu x1/3 si x2/3;

divizarea datelor in trei subansamble, astfel:

I     : xi < x1/3,

II : x1/3 < xi < x2/3,

III : xi > x2/3;

determinarea a doua puncte (xI, yI) si (xIII, yIII) ca puncte mediane ale subansamblelor I si III, luand ca abscisa mediana absciselor acestor puncte si ordonata, mediana ordonatelor lor;

calculul pantei dreptei care trece prin cele doua puncte:

= (yIII - yI) / (xIII - xI);

si se determina ca mediana a cantitatilor yi - xi.

Desi metoda se numeste a celor trei puncte, in acest caz, sunt numai doua puncte; al treilea apare in studiul curbelor de crestere.

Se utilizeaza pentru exemplificare, grupul C de date al lui Anscombe si se parcurg etapele descrise in continuare.

Se ordoneaza crescator cele 11 valori ale variabilei x, pentru a determina cuantilele de ordinul 1/3 si 2/3. Se stabilesc probabilitatile cumulate crescator sub forma unei scari cu pasul 1/11. Prin interpolare se stabilesc ce valori ale lui x, corespund probabilitatilor 0.33 si 0.67. Cuantila de ordinul 1/3 este 6.66, iar cea de ordinul 2/3 este 10.33. In Tabelul 1.21 sunt prezentate calculele pentru determinarea cuantilelor.

Se impart cele 11 observari in trei grupe, in functie de cele doua cuantile determinate. In Tabelul 1.22 se disting aceste grupe.

Pentru primul punct (xI, yI), mediana valorilor x este 5, iar a valorilor y, 5.73, ca fiind valorile centrale. Pentru punctul (xIII, yIII), avand un numar par de elemente, mediana valorilor x este media aritmetica simpla a valorilor 12 si 13, adica 12.5, iar mediana valorilor y, se obtine dupa ordonarea crescatoare a seriei acestora, ca medie aritmetica intre valorile centrale 8.15 si 8.84, adica 8.495.

Se calculeaza panta dreptei ce uneste cele doua puncte de coordonate     (5, 5.73), si (12.50, 8.495). Aceasta valoare este =0.3687.

Termenul constant , mediana cantitatilor yi - a1xi, se obtine dupa ordonarea crescatoare a acestora, ca fiind termenul lor central, 3.821.

xi

Probabilitati cumulate

Ordin cuantile

Cuantilele

x1/3 si x2/3



Tabelul 1.21. Calculul valorilor x1/3 si x2/3

xi

yi

xi

yi

yi -a1xi

Punctul 1

a1 =

a0 =

Punctul 2

Tabelul 1.22. Calculul parametrilor de regresie

Cu modelul astfel determinat , se obtin valorile teoretice, situate pe o dreapta aflata in imediata apropiere a datelor observate. Aceasta dreapta de regresie nu mai este atrasa de punctul aberant, fiind astfel mult mai buna, pentru ca trece foarte aproape de majoritatea valorilor observate ale grupului C de date.

Figura 1.22. Grupul de date C si noua dreapta de regresie

Pe graficul din Figura 1.22 se observa ca noua dreapta de regresie trece prin aproape toate punctele, care sunt aliniate si nu mai este atrasa de punctul aberant.

2. Metoda lui Theil

Metoda lui Theil consta in parcurgerea urmatorilor pasi, pentru determinarea unui model liniar :

se dispune de n puncte (xi, yi); se considera cupluri de puncte;

se uneste fiecare cuplu de puncte printr-o dreapta; se calculeaza panta fiecarei drepte;

valoarea retinuta pentru parametrul este mediana acestor pante ale dreptelor;

se determina ca mediana a cantitatilor ale dreptelor.

Cu parametrii astfel determinati se obtine o dreapta care va fi mai buna decat dreapta de regresie initiala, atrasa de punctul aberant.

Aplicarea metodei lui Theil pentru grupul de date C al lui Anscombe, conduce la urmatoarele rezultate, prezentate in Tabelele 1.23, 1.24 si 1.25.



Tabelul 1.23. Calculul diferentelor

Tabelul 1.24. Calculul diferentelor

Calculele pantelor celor 55 de drepte si mediana lor, folosind functia MEDIAN() din Excel, precum si cantitatile ce reprezinta termenii liberi si mediana lor, sunt prezentate in Tabelul 1.25.

Dreapta de regresie este , iar in Tabelul 1.26 sunt prezentate valorile teoretice obtinute prin metoda lui Theil, si cele obtinute prin metoda celor trei puncte. Graficul din Figura 1.23 prezinta cele doua drepte de regresie obtinute prin metoda celor 3 puncte si prin metoda lui Theil.

Me=b0

 

 

 

 



 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Me=b1

 

Tabelul 1.25. Calculul parametrilor noii drepte de regresie

Grupul C

Regresia liniara

Met. 3 puncte

Metoda Theil

x

y

Tabelul 1.26. Prezentarea comparativa a rezultatelor

Se observa in Tabelul 1.26, ca valorile teoretice prin metoda lui Theil coincid cu valorile yi, cu exceptia punctului aberat de coordonate (13, 12.74).

Desi toate celelalte erori sunt 0, totusi este mai mare decat in cazul metodei celor 3 puncte.

Figura 1.23. Compararea metodelor rezistente

Ambele metode sunt bune. Cu toate acestea faptul ca regresia lui Theil trece prin toate punctele, cu exceptia celui aberant, face ca aceasta din urma sa fie preferata fata de celelate variante. O alta solutie ar fi sa se elimine punctul aberant conform metodei grafice, care indica faptul ca punctul izolat influenteaza panta dreptei de regresie. Atunci punctele sunt aliniate dupa o dreapta a carei ecuatie este: , foarte apropiata de cea obtinuta prin metoda Theil.





Politica de confidentialitate | Termeni si conditii de utilizare



DISTRIBUIE DOCUMENTUL

Comentarii


Vizualizari: 2066
Importanta: rank

Comenteaza documentul:

Te rugam sa te autentifici sau sa iti faci cont pentru a putea comenta

Creaza cont nou

Termeni si conditii de utilizare | Contact
© SCRIGROUP 2024 . All rights reserved