Scrigroup - Documente si articole

     

HomeDocumenteUploadResurseAlte limbi doc
AgriculturaAsigurariComertConfectiiContabilitateContracteEconomie
TransporturiTurismZootehnie


Valorile aberante in analiza de regresie (outliers)

Economie



+ Font mai mare | - Font mai mic



Valorile aberante in analiza de regresie (outliers)

Valorile extreme ale variabilelor observate pot influenta esential valoarea estimatorilor. Aceste valori aberante, numite in limba engleza "outliers" sunt generate de factori neobisnuiti, deosebiti, producand modificari majore asupra variabilelor, care apar in cazurile respective, ca fiind rupte de contextul celorlalte observari.



Metoda grafica este calea cea mai simpla de a pune in evidenta existenta valorilor aberante. Dar aceasta metoda se poate aplica in cazul regresiei liniare simple. In cazul regresiei multiple, este dificila identificarea acestor valori extreme.

Analiza reziduurilor, care ar trebui sa insoteasca estimarea oricarei ecuatii de regresie, poate contribui la detectarea lor. Valorile mari pozitive sau negative ale reziduurilor arata ca respectivele observari constituie valori extreme.

In exemplul de mai jos, este rezolvat un exercitiu, in care se cunosc despre economistii de la Universitatea din Michigan, date referitoare la salariul si experienta dobandita, in anul 1983-1984. Se cere sa se stabileasca daca salariul este influentat semnificativ de anii de experienta.

In Tabelul 1.14, variabila yi reprezinta salariul, exprimat in mii $/an, iar variabila xi reprezinta anii de experienta, ca numar de ani trecuti de la acordarea titlului de doctor.

yi

xi

Exercitiu propus spre rezolvare de G.S. Maddala, in "Introduction to Econometrics", 2nd Edition, Ed. Macmillan, New York, 1992, p. 108, sursa: R.H. Frank, "Are Workers Paid Their Marginal Products?", The American Economic Review, September 1984, p. 560

Tabelul 1.14. Datele despre salariul si experienta economistilor, in 1983-1984

Graficul din Figura 1.15 are un punct aberant (incercuit), care este departat de restul punctelor ce formeaza norul de puncte. Acest punct pare sa atraga drepta de regresie spre el.

Figura 1.15. Corelatia dintre salariul si vechimea angajatilor in 1983-1984

Tabela de regresie obtinuta cu Microsoft Excel este prezentata in Tabelul 1.15.

SUMMARY OUTPUT

Regression Statistics

Multiple R

R Square

Adjusted R Sq.

Standard Error

Observations

ANOVA 

df

SS

MS

F

Signific.F

Regression

Residual

Total

Coeff.

Std.Err.

t Stat

P-value

Lower 95%

Upper 95%

Intercept

X Variable 1

Tabelul 1.15. Tabela de regresie a salariului in functie de anii de experienta

Modelul liniar identificat este . Coeficient de determinatie mic, de 0.17, arata ca modelul liniar explica variatia salariului in proportie de numai 17%.

Coeficientul de corelatie liniara intre salariul si experienta exprimata in ani, de 0.42, arata o intensitate slaba intre cei doi indicatori. Cei doi coeficienti ai modelului sunt semnificativ diferiti de 0 (P-value), testul Fisher arata ca regresia este semnificativa incepand de la un prag de semnificatie de 1.67%. Valorile teoretice calculate conform modelului liniar de regresie se afla reprezentate pe graficul din Figura 1.15. Valoarea mica a coeficientului de determinatie, indica posibilitatea existentei unui "outlier", care a fost deja identificat pe grafic.

Se calculeaza reziuduurile , ca abateri intre valorile observate si cele ajustate.

Se ordoneaza, de exemplu, descrescator dupa variabila y si se observa care sunt abaterile mari, in ambele sensuri: pozitive si negative. In Tabelul 1.16 sunt prezentate valorile ordonate.

In urma studierii erorilor se observa ca exista 2 puncte care genereaza erori pozitive mari si 3 puncte care genereaza erori negative mici, dar mari in valoare absoluta. Se elimina punctele marcate accentuat in Tabelul 1.16 si se repeta analiza de regresie, pentru cele 27 de observari ramase.

yi

xi

ei

yi

xi

ei

Tabelul 1.16. Analiza reziduurilor pentru detectarea punctelor aberante

Tabela de regresie din Tabelul 1.17, conduce la modelul liniar , care indica un coeficient de corelatie intre variabile, mai mare, de 0.60, aratand o legatura de intensitate medie; un coeficient de determinatie de 0.36, mai bun decat in regresia precedenta; estimatorii sunt semnificativi diferiti de 0 cu o probabilitate de 100%. Testul Fisher arata    acelasi lucru; valoarea sa fiind mai mare, iar pragul de semnificatie mai mic, decat la regresia initiala, indicand cu o probabilitate de 99.9% faptul ca noua regresie este global semnificativa.

SUMMARY OUTPUT

Regression Statistics

Multiple R

R Square

Adjusted R Sq.

Standard Error

Observations

ANOVA 

df

SS

MS

F

Signif.F

Regression

Residual

Total

Coeff.

Std.Err.

t Stat

P-value

Lower 95%

Upper 95%

Intercept

X Variable 1

Tabelul 1.17. Tabela de regresie dupa eliminarea valorilor extreme

Valorile teoretice yt1 obtinute cu noul model sunt reprezentate pe graficul din Figura 1.16.

Pe grafic se pot vedea punctele incercuite, care au fost eliminate si nu au fost considerate in noua analiza de regresie. Printre punctele eliminate nu se afla si punctul considerat aberant la inceput, folosind metoda grafica. Se poate incerca si varianta prin care sa se elimine numai punctul aberant identificat prin metoda grafica.

Tabela de regresie din Tabelul 1.18 indica un model mult mai slab decat varianta a 2-a, cu un coeficient de determinatie de numai 0.09 fata de 0.36 cat era dupa eliminarea celor 5 puncte.

Figura 1.16. Dreapta de regresie dupa eliminarea valorilor extreme ale reziduurilor

SUMMARY OUTPUT

Regression Statistics

Multiple R

R Square

Adjusted R Sq

Standard Error

Observations

ANOVA 

df

SS

MS

F

Signif.F

Regression

Residual

Total

Coeff.

Std. Err.

t Stat

P-value

Lower 95%

Upper 95%

Intercept

X Variable 1

Tabelul 1.18. Tabela de regresie dupa eliminarea punctului initial aberant

Se observa o intensitate slaba a corelatiei dintre variabila explicata si cea explicativa, de numai 0.31, o regresie care incepe sa devina semnificativa numai de la un prag a de 9%, dupa cum arata si ratia Student a estimatorului , la P-value. Pentru un prag de semnificatie a=5%, se observa ca intervalul de incredere al coeficientului variabilei x poate contine valoarea 0, pentru ca se schimba semnul din - al limitei inferioare in semnul + al limitei superioare. In Figura 1.17 sunt prezentate valorile teoretice yt2 aflate pe dreapta de regresie.

Se observa ca norul de puncte si dreapta de regresie sunt aproape paralele cu axa Ox, ceea ce arata exitenta unei corelatii slabe intre salariu si numarul de ani trecuti de la obtinerea doctoratului. Nu se poate renunta la acest punct, care la prima vedere parea a fi aberant.

Figura 1.17. Ajustarea salariului in functie de vechime, dupa eliminarea punctului aberant, prin metoda grafica

Varianta, in care se elimina cele cinci puncte si punctul initial aberant, ofera tabela de regresie din Tabelul 1.19.

SUMMARY OUTPUT

Regression Statistics

Multiple R

R Square

Adj. R Sq.

Std. Error

Observations

ANOVA

df

SS

MS

F

Signif.F

Regression

Residual

Total

Coeff.

Standard Error

t Stat

P-value

Lower 95%

Upper 95%

Intercept

X Variable 1

Tabelul 1.19. Tabela de regresie dupa eliminarea celor 6 puncte aberante

Se observa ca nici aceasta varianta nu este mai buna decat cea in care s-au eliminat cele 5 puncte detectate prin analiza reziduurilor, varianta a 2-a. Modelul obtinut este mai bun decat cel din varianta anterioara, dar nu mai bun decat cel din varianta a 2-a. Acest model este global semnificativ, dupa cum arata testul Fisher, incepand de la un prag a de 1.53%. Coeficientul de determinatie de numai 0.22 poate determina renuntarea la aceasta varianta si pastrarea variantei, in care se elimina numai cele 5 valori extreme, incercuite in Figura 1.16.

Modelul retinut ca fiind cel mai bun este: . Nu se poate renunta la punctual izolat, pentru ca acesta se afla pe directia norului de puncte, iar abaterea sa fata de linia de regresie din modelul initial este mica.



Politica de confidentialitate | Termeni si conditii de utilizare



DISTRIBUIE DOCUMENTUL

Comentarii


Vizualizari: 3198
Importanta: rank

Comenteaza documentul:

Te rugam sa te autentifici sau sa iti faci cont pentru a putea comenta

Creaza cont nou

Termeni si conditii de utilizare | Contact
© SCRIGROUP 2024 . All rights reserved