Scrigroup - Documente si articole

Username / Parola inexistente      

Home Documente Upload Resurse Alte limbi doc  

 

CATEGORII DOCUMENTE






AccessAdobe photoshopAlgoritmiAutocadBaze de dateCC sharp
CalculatoareCorel drawDot netExcelFox proFrontpageHardware
HtmlInternetJavaLinuxMatlabMs dosPascal
PhpPower pointRetele calculatoareSqlTutorialsWebdesignWindows
WordXml


Analiza statistica a datelor in raport cu doua variabile

baze de date

+ Font mai mare | - Font mai mic


DOCUMENTE SIMILARE

Trimite pe Messenger
Generalizarea si specializarea date obiect
UML din perspectiva ORM - Referinta obiect
Modelul relational - Modelul entitati-legaturi (Cheie primara, cheie externa)
Proiectarea bazelor de date
Limbaj unificat de modelare (UML )
Modelul Relational
OBIECTE IN BAZELE DE DATE : SECVENTIALE SI INDEXATE
Relatii exclusive (arce)
Clarificarea notiunilor de Informatie si Data
ORDONARI IN TABELE

TERMENI importanti pentru acest document

:

Analiza statistica a datelor in raport cu doua variabile
1. Cazul a doua variabile nominale

1.      Tabele de repartitie bidimensionale pentru a reda distributia esantionului in raport cu 2 variabile se procedeaza astfel: Analyze Descriptive Statistics Crosstabs:

In fereastra Cells putem opta pentru optiunea Counts Observed, caz in care ne va afisa tabelul bidimensional cu ajutorul frecventelor absolute, sau alegand optiunea Percentages, vom obtine distributia esantionului in raport cu cele 2 variabile cu ajutorul frecventelor relative.



daca ar fi a alegeti din nou pentru ce specializare ati opta?

Total

aceeasi

alta

ce specializare urmati?

CIG

22

3

25

REI

13

4

17

FB

23

1

24

MK

22

2

24

MG

15

10

25

IE

22

5

27

SPE

9

3

12

ECTS

5

2

7

EA

2

6

8

Total

133

36

169

Interpretare: tabelul reda distributia studentilor din esantion in raport cu cele doua variabile, fiind construit cu ajutorul frecventelor absolute. Ultima coloana si ultimul rand din tabelul de frecvente corespund repartitiilor marginale.

Ex: doar 2 din cei 24 de studenti chestionati de la sectia de marketing ar alege alta specializare.

daca ar fi a alegeti din nou pentru ce specializare ati opta?

Total

aceeasi

alta

ce specializare urmati?

CIG

13.0%

1.8%

14.8%

REI

7.7%

2.4%

10.1%

FB

13.6%

.6%

14.2%

MK

13.0%

1.2%

14.2%

MG

8.9%

5.9%

14.8%

IE

13.0%

3.0%

16.0%

SPE

5.3%

1.8%

7.1%

ECTS

3.0%

1.2%

4.1%

EA

1.2%

3.6%

4.7%

Total

78.7%

21.3%

100.0%

Aceeasi distributie a esantionului in raport cu cele doua variabile poate fii redata si cu ajutorul frecventelor relative. Se observa ca 21,3% din totalul studentilor ar alege alta sectie, un procent insemnat avand cei de la sectia management (5,9%).

2.      Grafice adecvate in acest caz sunt diagramele prin coloane.

3.      Analiza asocierii dintre cele doua variabile presupune in prima etapa verificarea existentei legaturii dintre cele doua variabile cu ajutorul testului χsi apoi interpretarea coeficientului de contingenta pentru a analiza gradul de asociere dintre variabile. Din meniul Analyze Descriptive Statistics Crosstabs se aleg cele doua variabile si in fereastra Statistics se selecteaza parametrii doriti.

Se formuleaza ipotezele referitoare la existenta legaturii:

H: χ= 0 ( nu exista legatura )

H: χ≠ 0

Value

df

Asymp. Sig. (2-sided)

Pearson Chi-Square

27.369

8

.001

Likelihood Ratio

25.686

8

.001

Linear-by-Linear Association

10.197

1

.001

N of Valid Cases

169

Interpretare: putem afirma cu o probabilitate de 95% ( Sig.< 0,05 ) ca intre cele doua variabile exista legatura.

Value

Approx. Sig.

Nominal by Nominal

Contingency Coefficient

.373

.001

N of Valid Cases

169

Valoarea coeficientului de contingenta este de 0,373, fiind semnificativ diferit de 0, deci legatura dintre variabile este de intensitate medie.



2. Cazul a doua variabile ordinale

1.      Tabele de repartitie bidimensionale si in acest caz prezinta importanta repartitia esantionului in raport cu cele variabile atat sub forma frecventelor absolute, cat si relative. Aceasta prezentare a datelor presupune urmatorii pasi: Analyze Descriptive Statistics Crosstabs, in fereastra Cells alegand si optiunea Percentages. Cele doua tipuri de frecvente, absolute si relative, se pot prezenta in acelasi tabel de repartitie.

2.      Grafice informatii privind repartitia esantionului in raport cu doua variabile ordinale sunt disponibile si din vizualizarea graficului adecvat diagrama prin benzi. Modul de obtinere a acestuia este: Graphs Bar Clustered.

3.      Analiza corelatiei se realizeaza cu ajutorul coeficientului lui Kendall, astfel: Analyze Descriptive Statistics Crosstabs, selectand in fereastra Statistics acest coeficient.

Value

Asymp. Std. Error

Approx. T

Approx. Sig.

Ordinal by Ordinal

Kendall's tau-b

-.252

.063

-3.765

.000

N of Valid Cases

172

Valoarea coeficientului lui Kendall de - 0,252 indica faptul ca intre media anului precedent si ordinea repartizarii pe sectii a studentilor exista o legatura inversa, de intensitate slaba. Cu cat studentii au o medie mai mare, cu atat au sansa de a fi repartizati in sectia pentru care si-au exprimat prima preferinta.Valoarea coeficientului este semnificativ diferita de 0 cu o probabilitate de 95% ( Sig.= 0,000 < 0,05 ).


3. Cazul a doua variabile cantitative

1.      Tabele de repartitie bidimensionale se parcurg aceleasi etape ca si mai sus;

2.      Grafice pentru a reda repartitia esantionului folosim in acest caz norul statistic. Demersul pentru construirea acestuia este: Graphs Scatter Simple. Construirea norului statistic constituie prima etapa in analiza legaturii dintre doua variabile numerice. In functie de pozitiile punctelor norului putem formula de asemenea ipoteze cu privire la forma functiei care explica legatura dintre variabile.

Se observa in distributia punctelor o valoare extrema ( 18 ore curs ); se recomanda ca valorile extreme sa fie inlaturate inaintea aplicarii testelor statistice pentru a nu influenta calitatea rezultatelor.

3.      Analiza corelatiei presupune calculul coeficientului lui Pearson, utilizand meniul Analyze Correlate Bivariate.

Vom analiza legatura dintre numarul de ore de curs si cele de seminar frecventate de studenti intr-o saptamana. Coeficientul lui Pearson ne ofera informatii atat despre sensul legaturii, cat si despre intensitatea legaturii.

cate ore de curs ati frecventat sapt trecuta

cate ore de seminar ati frecventat sapt trecuta

cate ore de curs ati frecventat sapt trecuta

Pearson Correlation

1

.665

Sig. (2-tailed)

.

.000

N

170

169

cate ore de seminar ati frecventat sapt trecuta

Pearson Correlation

.665

1

Sig. (2-tailed)

.000

.

N

169

170

Se obtine matricea de corelatie, valorile fiind distribuite simetric fata de diagonala principala. Valoarea coeficientului lui Pearson este de 0,665, ceea ce sugereaza ca intre variabile exista o corelatie directa, de intensitate medie.

Valoarea acestui coeficient este semnificativ diferita de 0, ipoteza existentei legaturii fiind acceptata cu o probabilitate de 95% ( Sig.< 0,05 ).

Daca analizam din nou corelatia dintre cele doua variabile, dar dupa indepartarea valorilor extreme din esantion, rezultatele vor fi mai concludente:

Correlations

cate ore de seminar ati frecventat sapt trecuta

cate ore de curs ati frecventat sapt trecuta

cate ore de seminar ati frecventat sapt trecuta

Pearson Correlation

1

.721

Sig. (2-tailed)

.

.000

N

170

169

cate ore de curs ati frecventat sapt trecuta

Pearson Correlation

.721

1

Sig. (2-tailed)

.000

.

N

169

170

Se observa ca intensitatea legaturii dupa inlaturarea valorilor extreme se modifica, legatura dintre cele doua variabile fiind mai bine pusa in evidenta.


4. Testarea egalitatii a doua medii ( esantioane independente ) este un test parametric care verifica daca mediile a doua grupe sunt egale. In SPSS presupune urmatorul demers: Analyze Compare Means Independent Samples T Test.

De exemplu, dorim sa testam daca, la nivelul esantionului observat, numarul mediu de ore de curs frecventate de studentii din anul 4 este diferit de numarul mediu de ore de curs frecventate de studentii din anul 5.

Variabila de grupare va fi in acest caz anul de studiu, in definirea grupelor tinand cont de codificarile facute pentru starile acesteia ( 1 anul 4, 2 anul 5 ).

Ipoteza privind egalitatea mediilor se formuleaza astfel:

H: =

H:

anul de studiu

N

Mean

Std. Deviation

Std. Error Mean

cate ore de curs ati frecventat sapt trecuta

4

153

5.29

3.377

.273

5

17

3.65

2.668

.647

Dorim sa verificam daca numarul mediu de ore de curs frecventate de studentii din anul 4 ( 5,29≈5 ), difera semnificativ de 3,65≈4 (numarul mediu de ore de curs frecventate de studentii din anul 5 ).

Constructia testului pentru compararea mediilor a doua esantioane presupune testarea in prealabil a egalitatii variantelor la nivelul celor doua grupe. Statistica t se calculeaza diferit dupa cum dispersiile sunt egale sau nu la nivelul celor doua grupe. Ca urmare, formulam ipoteza nula si alternativa referitoare la egalitatea dispersiilor:H: σ= σ iar H: σ≠ σ

Levene's Test for Equality of Variances

t-test for Equality of Means

F

Sig.

t

df

Sig. (2-tailed)

Mean Difference

cate ore de curs ati frecventat sapt trecuta

Equal variances assumed

.706

.402

1.935

168

.055

1.64

Equal variances not assumed

2.336

22.130

.029

1.64

Interpretare: probabilitatea de acceptare a ipotezei nule in cazul egalitatii variantelor este de 0,402 ( > 0,05 ), variantele la nivelul celor doua grupe sunt egale. Pentru a verifica egalitatea mediilor folosim statistica t corespunzatoare cazului in care dispersiile sunt egale. In acest caz, testul t este egal cu 1,935, cu 168 grade de libertate si un nivel de semnificatie de 0,055 ( Sig.> 0,05 ), ceea ce arata ca nu se poate trage concluzia ca cele doua medii difera semnificat

5. Testarea legaturii dintre doua variabile dorim sa verificam daca modificarea variabilei dependente Y este rezultatul influentei variabilei explicative X. Pentru a testa existenta legaturii procedam astfel: Analyze Compare Means One Way Anova. ANOVA este un procedeu de analiza a unei variabile numerice sub influenta unei variabile de grupare care prezinta mai multe stari.

De exemplu dorim sa verificam daca exista legatura intre numarul de ore de curs frecventate si media anuala.

In meniul Options avem posibilitatea selectarii graficului pentru a formula ipoteze cu privire la forma legaturii dintre cele doua variabile.

Sum of Squares

df

Mean Square

F

Sig.

Between Groups

114.321

3

38.107

3.524

.016

Within Groups

1773.298

164

10.813

Total

1887.619

167

Cu cat mediile grupelor au valori mai diferite intre ele, cu atat variatia dintre grupe este mai mare; cu cat variatia in cadrul grupelor este mai mica, cu atat statistica F este mai mare (F = media variantei dintre grupe /media variantei din cadrul grupei ) si numarul orelor de curs frecventate variaza mai mult in raport cu media anuala.

Se formuleaza ipoteza nula H: F = 0, adica dispersia dintre grupe este nula si deci grupele nu sunt diferite intre ele, adica media anuala nu influenteaza numarul orelor de curs frecventate de studenti. Deoarece probabilitatea de a gresi cand respingem ipoteza este 0,016< 0,05, rezulta ca ipoteza nula se respinge, adica media influenteaza frecventa la cursuri,. In cadrul fiecarui interval al mediei anului precedent, studentii sunt relativ omogeni din punct de vedere al frecventarii cursurilor, media anului precedent fiind un criteriu semnificativ de segmentare.


DISTRIBUIE DOCUMENTUL

Comentarii


Vizualizari: 245
Importanta: rank

Comenteaza documentul:

Te rugam sa te autentifici sau sa iti faci cont pentru a putea comenta

Creaza cont nou

Distribuie URL

Adauga cod HTML in site

Termeni si conditii de utilizare | Contact
© SCRIGROUP 2014. All rights reserved