CATEGORII DOCUMENTE
Afaceri Calculatoare Casa masina Didactica pedagogie Diverse Educatie Finante Geografie Istorie & politica Legislatie Limba Management Sanatate Tehnologie

Access	Adobe photoshop	Algoritmi	Autocad	Baze de date	C	C sharp
Calculatoare	Corel draw	Dot net	Excel	Fox pro	Frontpage	Hardware
Html	Internet	Java	Linux	Matlab	Ms dos	Pascal
Php	Power point	Retele calculatoare	Sql	Tutorials	Webdesign	Windows
Word	Xml

Curs SPSS

calculatoare

+ Font mai mare | - Font mai mic

DOCUMENTE SIMILARE

NU AM SUNET

Overburning

Cum sa redactam o lucrare de licenta, o teza de doctorat

ATESTAT - SISTEME DE OPERARE, EDITOARE DE TEXT SI GRAFICA, FOI DE CALCUL

SECURITATE SI COPYRIGHT

Descrierea tipurilor de scannere disponibile in present

Tutorial pentru a iti crea propriul post de radio Pe net

DISPOZITIVE DE INTERFATA

Bazele informaticii test

ECHIPAMENTELE PERIFERICE ALE SISTEMELOR DE CALCUL

I).Probleme fundamentale ale unitatii de curs

1). Introducere in problematica informaticii

2). Notiuni de baza ale programului SPSS 11.0

3). Calcularea principalelor valori statistice

4). Grafice in SPSS

5). Corelatie si asociere

II). Scopul unitatii de curs

a). Asumarea de catre studenti a cadrelor generale de studiu propuse de informatica aplicata

b). Formarea unor abilitati de discernere a principalelor metode folosite in cadrul pachetului SPSS 11.0

c). Familiarizarea cu tehnicile fundamentale de lucru

d). Formarea unei imagini generale asupra rolului pe care il are informatica statistica aplicata in cadrul mai general al stiintelor sociale

III). Obiective operationale

a). Studentii trebuie sa distinga situatiile in care pot folosi oportunitatile oferite de programul SPSS 11.0

b). Studentii trebuie sa delimiteze exact principalele metode si tehnici pe care le utilizeaza informatica statistica aplicata

c). Studentii trebuie sa posede cunostintele de baza in ce priveste utilizarea computerului

d). Studentii trebuie sa stie sa utilizeze in mod practic tehnicile de lucru pe computer

e). Studentii trebuie sa aiba capacitatea sa utilizeze notiunile predate pentru scopurilor cercetarii sociale

IV). Modalitati de evaluare vor urmari:

a). Determinarea capacitatii studentului de a opera cu principalele concepte prin lucrari practice aplicative efectuate direct pe computer.

1. Introducere in SPSS

Necesitatea prelucrarii unui volum din ce in ce mai mare de date, a unor cercetari de teren cat mai rapide etc., a impus dezvoltarea unor pachete statistice performante. Au aparut astfel de-a lungul timpului diverse programe : SAS, SPSS, SPAD, STATA etc., majoritatea oferind alternative de calcul pentru aceleasi proceduri statistice de baza. In acest curs vom trece in revista o serie de proceduri pe care le utilizeaza programul SPSS for Windows, varianta 11.5., program care a fost lansat de catre SPSS Inc. Chicago (alte informatii puteti afla pe situl www.spss.com). Traducerea libera a acestor initiale este Statistical Package for Social Sciences . Odata lansat programul Windows, daca SPSS 11.5 este instalat se poate deschide apeland la pictograma specifica sau cautand fisierul executabil dupa comenzile Start Programs SPSS for Windows SPSS 11.5 for Windows

Dupa executarea acestor comenzi va apare fereastra generala a programului SPSS:

In imaginea de mai inainte, in partea superioara se pot observa, ca si in programele Word sau Excel trei bare:

-Bara de titlu care poate include numele fisierului dupa ce va fi salvat

-Bara de meniuri (File, Edit, View, Data etc.)

-Bara cu instrumente (anumite pictograme care sunt de fapt "scurtaturi" ale unor comenzi care se gasesc de fapt si in meniuri).

Mai jos putem identifica un tablou format din linii si din coloane, tablou numit editor de date (Data Editor). Pe ecran apare doar o mica parte din acest tablou foarte mare. In acest tabel identificam:

-coloanele (care reprezinta variabile statistice)

-liniile (care reprezinta cazuri, persoane supuse cercetarii, observatii)

In partea inferioara de pe ecran apar doua etichete care au functii apropiate de nominalizarea foilor de lucru din programul Excel:

Data View- compartimentul rezervat datelor introduse in Data Editor

Variable view-compartimentul rezervat variabilelor introduse.

In continuare vom explicita pe scurt bara de meniuri:

File- contine comenzi pentru citirea, scrierea sau imprimarea tuturor tipurilor de fisiere cu care opereaza programul.

Edit- contine comenzile pentru editarea, modificarea, copierea, cautarea textelor

Data- contine comenzi pentru definirea variabilelor, inserarea de noi variabile sau cazuri, sortarea, alipirea, inversarea, agregarea, selectarea bazelor de date

Transform- contine comenzi pentru transformari ale variabilelor si ale valorilor lor.

Statistics- meniu cu procedurile statistice disponibile in program

Graphs- contine procedurile pentru reprezentari grafice diverse

Utilities- contine comenzi care pot da informatii despre variabile, pot desemna un set redus de variabile, organizarea meniurilor.

Window- contine comenzi care permit lucrul cu ferestrele SPSS

Help- contine informatii despre program si despre procedurile statistice folosite.

2. Lucrul cu programul SPSS. Elemente introductive

Obiectul de studiu il reprezinta bazele de date, fie ca ele sunt create de catre utilizator fie ca sunt utilizate cele existente deja in cadrul programului. Daca intentionam sa deschidem o astfel de baza de date este necesar sa urmam pasii urmatori: File Open Data dupa care apar toate bazele de date din program:

Obs: inafara de fisierele de tip *.sav care desemneaza bazele de date, SPSS utilizeaza si fisiere de tip *.sps (care contin varianta scriptica a comenzilor sau fisiere sintaxa) precum si fisiere de tip *.spo in care sunt incluse rezultatele cercetarii statistice).

Daca deschidem insa rubrica Files of type apar urmatoarele specificatii:

Deducem de aici ca SPSS poate citi si multe alte tipuri de fisiere. De exemplu se pot citi fisiere de tip Spreadsheet (Excel, Lotus), de tip dBase, Ascii sau fisiere din diverse alte programe statistice. Pentru precizari suplimentare se poate consulta Help-ul programului sau Tutorialul acestuia!

Daca vom alege una din bazele incluse in program si vom executa dublu clic pe numele acesteia atunci va apare pe ecran o imagine de tipul urmator:

Se observa mai intai ca este afisat numele bazei respective GSS93 subset apoi putem observa dispunerea pe coloana a unor variabile cum ar fi: id (numar de identificare a individului care intra in baza de date), wrkstat (statusul ocupational), marital (situatia maritala), agewed (varsta la prima casatorie) etc. Dupa cum se vede fiecare variabila are un nume prescurtat care poate include maximum 8 caractere (fara spatii si fara anumite semne speciale) iar daca vom opri cursorul mausului pe numele unei variabile va apare instantaneu numele pe lung al acesteia (care se poate extinde pana la 256 de caractere). Pentru a obtine informatii amanuntite despre variabile putem alege optiunea Variable view din partea de jos a ferestrei Data Editor. Pentru aceste informatii sau pentru construirea de noi baze de date trebuie cunoscuta in amanunt problematica variabilelor statistice.

3. Variabile. Elemente de statistica descriptiva

Reluam aici unele consideratii facute intr-un curs anterior de statistica descriptiva datorita utilitatii acestora in cazul de fata. Aminteam cu acel prilej ca in orice cercetare statistica se obtin date asupra unor caracteristici bine precizate ale unitatilor statistice. Daca aceste unitati au unele caracteristici considerate in cadrul cercetarii ca fiind fixe altele sunt considerate ca variind de la o unitate la alta de unde si denumirea de variabila. De exemplu daca unitatile statistice sunt reprezentate de cetatenii romani cu drept de vot, intre acestia apar diferentieri dupa sex, venit, apartenenta religioasa, profesie, nivelul de educatie, numar de copii, optiunea politica etc. Toate acestea din urma sunt caracteristici sau variabile statistice. Fiecare din variabile se distinge prin multimea valorilor pe care le ia. Dupa cum se vede si din enumerarea de mai sus aceste variabile se exprima prin marimi total diferite ceea ce a impus clasificarea lor de o maniera precisa. Astfel, pentru Michle Colin et alii [1995; 32] variabilele sunt de doua feluri:

-calitative (desemneaza feluri de a fi: sex, culoarea ochilor, opiniile etc. )

-cantitative (provin dintr-o masurare: talia, greutatea, varsta etc. )

In ce priveste variabilele calitative, acestea pot fi ordonate atunci cand iau anumite valori pe doua tipuri de scale:

1). Scala nominala (ex. Sexul poate fi masculin/ feminin; starea civila poate fi doar intr-una din situatiile: necasatorit, casatorit, vaduv, divortat)

2). Scala ordinala (ex. Raspunsul la intrebarea " Cat de multumit sunteti de seful dv. direct?", raspuns: a). absolut de loc; b). putin ; c) asa si asa; d). mult e).foarte mult ).

Diferenta dintre cele doua scale este evidenta. Astfel, in cazul primului tip nu exista o relatie de ordine iar valorile variabilei sunt exprimate prin cuvinte (de unde si denumirea de scala nominala!), cuvinte care nu fac decat sa imparta colectivitatea statistica in mai multe grupe sau categorii. In cel de al doilea caz subiectul care raspunde este rugat sa se plaseze singur pe o treapta a unei scale care poate fi ascendenta sau descendenta, dar in orice caz este presupusa aici o relatie de ordine (fiecare din variantele a, b, c, .e este plasata pe un continuum crescator, din care trebuie aleasa una). Din moment ce ele semnifica o ordine atunci ele pot fi notate si cu numere naturale ca in exemplul urmator:

Intrebare: "De cate ori mergeti la biserica din confesiunea dumneavoastra?" Raspuns: 1). Cel putin o data pe saptamana ; 2). Cel putin o data pe luna; 3). Destul de rar ; 4). Practic niciodata. Acest exemplu l-am dat pentru a aminti, odata cu T. Rotariu [1999; 28] ca scala utilizata se distinge prin folosirea variantelor 1,2,3. dar numai in sens ordinal si nu pur numeric, cantitativ. Variantele 1,2,3. genereaza de fapt tot clase sau categorii de raspunsuri! Precizarile acestea sunt foarte importante pentru a nu se confunda acest tip de variabile cu cele cantitative!

In concluzie se poate face distinctia intre variabile calitative nominale si variabile calitative ordinale.

Cat priveste variabilele cantitative, acestea provin dintr-o masurare efectiva, exprimata printr-un numar cardinal si se impart si ele in doua categorii:

-variabile cantitative continui (ex. Inltimea unei persoane poate fi orice valoare din intervalul [140, 220] cm.)

-variabile cantitative discrete (ex: o familie poate avea 0, 1, 2, 3, 4,..copii, dar nu si un numar exprimat printr-o valoare intermediara ex. 1,5 ; 2,3 etc.)

Obs: intuitiv diferenta dintre cele doua tipuri ar putea fi data de modul cum parcurgem, in matematica multimea R, a numerelor reale si multimea N, a numerelor naturale!

Variabilele cantitative uzeaza de doua tipuri de scale:

1). Scala de intervale (ex. gradatia unui termometru, anul nasterii etc. )

2). Scala de rapoarte (ex. greutatea, salariile, varsta etc. )

Obs : in literatura de specialitate le intalnim uneori cu nume in limba engleza (interval scale respectiv ratio scale).

Diferenta dintre cele doua scale este importanta. Astfel, in cazul scalei de intervale gradatia de inceput (ex. 0⁰ Celsius) este conventionala pe cand in cazul scalei de raporturi gradatia de inceput este reala (ex. venitul de 0 lei desemneaza lipsa oricarei surse financiare). O alta diferenta provine din faptul ca scala de intervale nu ne permite sa stabilim raporturi intre valorile unei variabile (de ex. nu putem spune ca la temperatura de 40 ⁰ Celsius este de 40 de ori mai cald decat la temperatura de 1⁰ Celsius). In cazul celei de-a doua scale se pot stabili aceste raporturi (de ex. un individ de 100 de Kg. este ce doua ori mai greu decat unul de 50 Kg.). Avand in vedere ca diferentele dintre aceste scale sunt imediat percepute rareori pot apare anumite confuzii. Se impune totusi precizarea ca unii indicatori statistici nu au sens prin folosirea de scale de intervale.

Incercand o recapitulare iata cum arata o tabelare a variabilelor dupa Michle Colin [1995;34]:

Clasificarea variabilelor dupa tip
Tip de varibila	Scala	Exemple
Calitativa	Nominala Ordinala	Sex, profesiune Opinie
Cantitativa (discreta sau continua)	De intervale De rapoarte	Discreta: anul de nastere Continua: temperatura Discreta: nr. de copii, varsta Continua: inaltime, greutate

Sa precizam in final ca diferentierea dintre variabile (caracteristici) duce in fapt la distingerea a doua directii in analiza statistica: statistica non-parametrica (pentru variabilele calitative) si cea parametrica (pentru variabilele cantitative). Sa mai amintim ca in literatura de specialitate se intalneste notiunea de variabila categoriala uneori cu sens calitativ alteori cu sens cantitativ.

Generalizand, variabilele pot fi de doua feluri : cantitative sau calitative iar dintr-un alt punct de vedere pot fi continue sau discrete (categoriale). Aceste precizari sunt importante pentru ca procedurile statistice alese din cadrul programului SPSS depind de tipul de variabile si de tipul scalelor. De exemplu pentru scale nominale sau ordinale sunt obligatorii proceduri sau teste non-parametrice in timp ce pentru scalele de interval sau de raport se vor folosi proceduri sau teste parametrice. De asemenea este important de precizat ca variabilele trebuie sa indeplineasca anumite conditii inainte de a fi supuse cercetarii. De exemplu se cere ca o variabila cantitativa sa respecte conditiile : distribuirea normala a valorilor in esantionul prelevat si apropierea acestei distributii de distributia din populatia mare din care a fost extras esantionul.

Obs. : Exista uneori tendinta de a trata scalele ordinale ca si scale de intervale. Din cauza ca distantele intre valorile acestor tipuri de scale sunt diferite pot apare insa confuzii. De exemplu daca ne referim la o scala ordinala data de intrebarea Sunteti multumit de seful direct ? cu raspunsurile posibile : 1. Foarte multumit 2. Multumit 3. Deloc multumit 4. Nu am o parere formata, se pune problema daca este legitim sa calculam media aritmetica a valorilor 1-4 ca si pe o scala de intervale. Se pune deci problema daca o medie de 1,75 ne poate indreptati sa declaram ca suntem aproape multumiti de seful direct ? Fara doar si poate ca o astfel de valoare are o reprezentare intuitiva insa in sens strict statistic ea poate fi imprecisa. Sa presupunem ca avem alta scala ordinala atasata intrebarii Cite carti de literatura cititi pe luna ? : 0. Niciuna 1. O carte 2. Doua carti 3. Trei carti 4. Patru sau mai multe carti. In acest caz o astfel de scala poate fi tratata ca si o scala de interval si deci o medie de, sa spunem, 1,5 carti ni se pare plauzibila. Diferenta de interpretare apare din faptul ca cea de a doua scala ordinala are intervale egale. In fiecare caz ramane la latitudinea cercetatorului de a decide interpretarea corecta a datelor.

O distinctie importanta este si aceea dintre variabile independente si variabile dependente. Iata cateva exemple :

Variabila independenta

Variabila dependenta

Stilul managerului

Sexul respondentilor

Virsta

Productivitatea muncii

Optiuni electorale

Preferinte muzicale

Dupa cum se observa sensul legaturii dintre aceste variabile este univoc relatia inversa neputind fi impusa (de exemplu optiunile electorale nu pot influenta sexul subiectilor). Modul cum sunt desemnate aceste tipuri de variabile difera de la o cercetare la alta. Prin definitie variabilele independente sunt cele care influenteaza pe cele dependente, fiind stabilite sau introduse de catre cercetator. In cercetarile prin chestionar de obicei se introduce un set de astfel de variabile cu caracter demografic sau economic in functie de care se vor face analize privind celelalte variabile (intrebari). Legaturile dintre astfel de variabile sunt fundamentale in experimentele sociologice.

4. Definirea variabilelor in SPSS

Sa presupunem ca dorim sa construim o noua baza de date. Pentru aceasta vom urma comenzile File New Data dupa care apare tabloul gol Data Editor. Vom da apoi dublu clic pe numele sav care apare in capul primei coloane. Automat se va deschide cel de-al doile registru numit Variable view in care putem defini variabilele :

In prima coloana incepand din coltul din stanga sus putem introduce numele variabilelor. Este vorba de numele pe scurt al acestora cu pana la opt caractere. Apoi vom caracteriza respectivele variabile conform indicatiilor care urmeaza : Type, Width, Decimals, Label etc.

De data aceasta tabelul contine pe fiecare linie orizontala cate o variabila iar pe fiecare coloana putem caracteriza in amanunt fiecare variabila. Vom identifica rolul fiecarei coloane :

t Name- include numele pe scurt al variabilei de maximum 8 caractere (nu se folosesc spatiile goale sau anumite semne speciale : !, ?, *, ' ).

Dupa ce am introdus numele in prima casuta vom da clic in partea dreapta a celulei corespunzatoare unei variabile si care este in coloana cu titulatura Type. Va apare urmatoarea fereastra :

Aceasta ferestra contine tipurile de variabile posibile mai precis tipurile de variabile dupa valorile pe care le pot lua acestea :

Numeric-optiunea pentru valori numerice ; se pot stabili cate cifre au aceste numere, maximum 40 (Width) dar si cifrele pentru partea zecimala, maximum 16 (Decimal Places). Optiunile alese vor apare in urmatoarele doua coloane ale tabloului !

Comma- sau virgula folosita uneori la separarea cifrelor de ordinul miilor, milioanelor etc. ; in acest caz separatorul zecimal este un punct

Dot- sau punct folosit uneori la separarea cifrelor de ordinul miilor, milioanelor etc. ; in acest caz separatorul zecimal este un virgula

Scientific notation notatii speciale de tipul 1,2E3 ceea ce inseamna 1,2*10³

Date-notatii pentru date calendaristice (conform unui format care poate fi ales).

Dollar-simbolul monedei americane

Custom currency- variabila numerica cu date dispuse dupa formatul din Edit→Options→Currency

String configureaza variabile alfanumerice care pot contine siruri de caractere (litere sau numere). Odata aleasa aceasta optiune poate fi indicat numarul de caractere ales.

Obs : cele mai des folosite tipuri sunt Numeric si String !

t Label- putem desemna numele pe lung al variabilei cu pana la 256 caractere

t Values- pot fi numite valorile si etichetele atasate acestor valori pentru cazul variabilelor ordinale sau categoriale. Dupa un clic in partea dreapta a celulei corespunzatoare din coloana cu acest titlu va apare fereastra de dialog urmatoare :

da valoarea numerica a unei etichete iar Value Label va da numele etichetei respective. Dupa aceste operatii se apasa pe butonul Add . Optiunile pot fi apoi schimbate (Change) sau chiar sterse (Remove). Iata cum va arata dupa aceste operatii variabila sex cu cele doua alternative 1. masculin, 2. feminin:

t Missing - poate permite operatorului de a desemna valorile lipsa (Missing Values) din cadrul unei variabile. Pentru inceput, programul are setata optiunea fara valori lipsa dupa cum apare in fereastra urmatoare :

Se poate opta totusi pentru dverse variante:

In aceste cazuri operatorul poate decide ca in analizele ulterioare valorile de tipul 97 (Nu stiu), 98 (Nu raspund) 99 (Nu s-a aplicat) sa fie considerate lipsa (missing). De asemenea se poate decide ca pe langa valorile cuprinse intre 97-99 sa mai fie adaugata o valoare din baza de date. Necesitatea unor astfel de operatii este imediata : se pot face analize eliminand pe moment anumite valori spaciale iar apoi se pot analiza separat chiar valorile considerate lipsa. In cazul variabilelor alfanumerice trebuie consemnat un spatiu liber in casuta Discrete missing values deoarece programul considera valide chiar si celulele goale !

t Columns- se poate decide asupra formatului coloanelor in functie de marimea datelor variabilei

t Align- se poate decide asupra modului cum vor fi aliniate valorile variabilei pe coloane

t Measure- optiune deosebit de importanta in urma careia decidem asupra modalitatii de masurare a variabilei. Astfel exista trei optiuni :

Scale- optiune pentru variabile numerice fie ele masurate pe scale de interval sau de rapoarte (ratio)

Ordinal- de obicei este o optiune pentru variabile ordinale care au categorii bine precizate prin etichete numerice si care pot fi ordonate.

Nominal- optiune pentru variabile alfanumerice in care nu exista nici o relatie de ordine intre valori (care pot fi cuvinte dar si numere).

Obs : precizarea corecta a optiunii measurement este importanta deoarece o serie de proceduri statistice se refera doar la anumite tipuru de variabile sau valori. Astfel pentru variabile nominale dintre marimile tendintei centrale (media, mediana, modul) nu are sens sa calculam media !

5. Introducerea variabilelor si a datelor in SPSS

Odata facute precizarile de pana acum putem introduce datele in Data Editor stiind ca fiecare coloana reprezinta o variabila iar fiecare rind reprezinta un caz sau o persoana. Sa presupunem ca intr-un chestionar avem in ordine urmatorii itemi :

Q1. Cum traiti in prezent fata de acum 3 ani?

Mult mai bine 2. Mai bine 3. La fel 4. Mai rau 5. Mult mai rau 9. NS/NR

Q2. Care este principala problema din localitate pe care fostul primar nu a rezolvat-o?

Vom incerca sa introducem itemii de mai inainte ca si variabile in baza de date apoi vom insera valorile pentru primii zece subiecti interogati. Se observa ca primul item reprezinta o variabila cantitativa, Q1 reprezinta o variabila ordinala iar cea de a treia este o variabila nominala. Inainte de a introduce valorile in baza vom intra in optiunea Variable View si vom defini variabilele cod, q1_trai, q2_probl. Pentru prima variabila putem face urmatoarele optiuni:

Se observa ca am optat pentru tipul numeric variabila avand drept valori numere cu pana la trei cifre (Width=3) considerand ca au fost interogate de exemplu 800 de persoane. Codul chestionarului este un numar intreg fara zecimale (Decimals=0), numele pe lung al variabilei este "Cod chestionar", masurarea este de tip Scale.

Definirea variabilei q1_trai trebuie sa tina cont de specificul acesteia prin precizarea etichetelor respective (se scrie Value: 1, apoi Value Label : "Mult mai bine" apoi Add etc.).

La final noua variabila din randul al doilea va avea urmatorii parametri :

Se observa ca valorile raman numerice dar cu precizarea ca acele numere se refera la valorile etichetelor : 1,2,3,4,5,9. Aceste numere sunt compuse dintr-o singura cifra (Width=1). Numele pe lung al variabilei este chiar intrebarea din chestionar : "Cum traiti in prezent fata de acum 3 ani?".Modalitatea de masurare este Ordinal.

Cea de a treia variabila q2_probl este una nominala raspunsurile fiind consemnate ca variante pentru o intrebare deschisa. Daca in cazul anterior se vor introduce in baza de date doar numerele valori ale etichetelor in acest caz trebuie introduse raspunsurile subiectilor ca atare. Referitor la valorile variabilei tipul acesteia este String:

Odata cu alegerea optiunii String se impune precizarea numarului de caractere pe care il poate avea raspunsul subiectilor (in acest caz 100 de caractere). In final aceasta variabila va avea caracteristicile de pe pozitia a treia :

Cea de a treia variabila este de tip String cu variante de pana la 100 de caractere nominale sau numerice. Modalitatea de masurare este Nominal.

Dupa aceste operatii putem salva baza de date cu comenzile File Save As si noua baza o putem numi bazaexemplu. Numele bazei va apare in bara de titlu :

In acest moment putem reveni in fereastra Data View pentru a introduce datele culese din chestionare. Valorile se introduc in tabel acolo unde celula este activa (apare un chenar in jurul celulei) apoi se apasa tasta Enter. Sa presupunem ca am introdus primii zece subiecti chestionati.

Se observa ca in cea de a doua coloana apar doar valorile numerice ale etichetelor (fapt ce ne arata ca introducerea datelor in acest caz este mult facilitata). In stanga sus se poate vedea si pozitionarea celulei active : coloana 2, randul 11.

Pentru a vedea si care sunt etichetele atasate valorilor din coloana a doua putem urma comenzile View Value Label sau putem da clic pe butonul de pe bara cu instrumente. Dupa o astfel de operatie vor apare in baza si etichetele respective :

t din moment ce bazele de date au fost constituite putem incepe analizele statistice necesare !

t Toate comenzile de pina acum pot fi executate si intr-un editor de texte sau fisier sintaxa. Acest fisier care are termninatia .sps este foarte util cand se lucreaza frecvent cu baze mari de date pentru ca respectivele instructiuni (comenzi) pot fi salvate si apoi reiterate de cate ori este nevoie. Ceea ce am intreprins pana acum de exemplu putem sa regasim intr-un jurnal al aplicatiilor care poate fi gasit in fisierul spss.jnl din Windows Temp, fisier care poate fi deschis si ca document Word.

Accesand acest document gasim urmatoarele specificatii care rezuma de fapt constructia bazei de date anterioare:

Thu Dec 25 13:42:07 2003 :journaling started

GET

FILE='C:Documents and SettingsAdrianMy Documentsspss curs'+

' Idbazaexemplu.sav'.

SAVE OUTFILE='C:Documents and SettingsAdrianMy Documentsspss curs Idbazaexemplu.sav'

/COMPRESSED.

Un fisier sintaxa poate fi initiat dupa comenzile File New Syntax.

Chiar daca nu lucram in limbaj sintaxa atunci putem salva comenzile folosite fie alegand comanda Paste in loc de OK in diverse aplicatii pe care le efectuam sau putem sa le salvam in outputul aplicatiilor efectuand comenzile Edit→Option→Viewer→Display Commands in the log. Sa dam un exemplu de astfel de comenzi salvate in Output (fisier de rezutate) de exemplu pentru calcularea mediei varstei respondentilor din baya de date GSS93 Subset:

FREQUENCIES

VARIABLES=age

/STATISTICS=MEAN

/ORDER= ANALYSIS

In acest curs nu vom insista pe aspecte legate de limbajul sintaxa insa recomandam pentru cei interesati de exemplu volumul M. Norusis, SPSS^x Advanced Statistics Guide, McGraw Hill, 1995. De asemenea se poate apela la site-ul creatorilor si proprietarilor programului www.spss.com sau la Help-ul programului.

6. Elemente de statistica univariata in SPSS

Vom analiza in acest capitol cateva din procedurile statistice elementare pe care le putem aplica datelor statistice. Sa deschidem una din bazele programului anume GSS93 subset (obtinuta in urma unei anchete pe un esantion de 1500 de subiecti):

Ne oprim atentia asupra variabilei educ (Highest year of school completed) ale carei caracteristici de baza le putem identifica in fereastra Variable View:

Variabila este considerata avand valori numerice cu maximum doua cifre, sunt consemnate trei valori speciale: 97 (NAP, neaplicat) 98 (DK, "don't know "; "nu stiu") si 99 (NA, "no answer", "non-raspuns"). In cazul valorilor lipsa (missing values) sunt consemnate valorile 97, 98, 99. Variabila este considerata ordinala dar din considerentele spuse mai inainte ea poate fi la fel de bine considerate variabila cantitativa discreta.

Pentru aceasta variabila vom incerca sa calculam principalele valori statistice. Pentru aceasta vom apela comenzile urmatoare: Analyse Descriptive Statistics Frequencies:

sagetii din mijloc (sau dublu clic) dupa selectare. Sageata se poate actiona si invers!

t Display frequency tables- optiune pentru afisarea tabelului frecventelor variabilei; uneori putem renunta la acest tabel (prin deselectarea optiunii)

Prin actionarea butonului Statistics se va deschide o noua fereastra de dialog :

I. Percentile Values- comanda care imparte multimea valorilor statistice in mai multe grupe de date.

Quartiles (impartim multimea valorilor in patru parti egale fiecare cate 25% )

Cut points for 10 equal groups (impatire in 10 parti dar pot fi alese marimi intre 2 si 100)

Se poate opta pentru Standard Deviation, sau "deviatia standard" sau "abaterea medie patratica", marime care ne arata cu cit se abat in medie valorile seriei de la media lor. Formula de calcul pentru serii cu frecvente este cea cunoscuta din statistica descriptiva deja parcursa:

Obs: in cazul unei serii cu distributie normala sau care se apropie de o astfel de distributie valorile seriei sunt cuprinse in proportie de 99% in intervalul

Variance-o notam SD² este marimea din care am obtinut deviatia standard prin extragerea radicalului. Formula de calcul este sugerata de ridicarea la patrat a formulei anterioare:

S.E. Mean-sau "standard error of mean" (eroarea standard a mediei) ne poate arata limitele intre care variza media esantionului ( ) in cadrul unei populatii de esantioane. Se stie ca un astfel de interval este foarte util atunci cand aproximam valoarea mediei dintr-o populatie. Aceasta valoare nu este cunoscuta decit in urma unor cercetari exhaustive care sunt deosebit de complexe si costisitoare. In practica majoritatea estimarilor statistice se fac pe esantioane iar rezultatele, sub conditia reprezentativitatii, sunt apoi inferate (extinse) la populatia mare din care a fost extras esantionul. Daca notam media din populatia mare cu μ, S.E.Mean cu SE si eroarea limita admisa cu Δ_x (Δ_x=t.SE) putem conchide ca, cu o anumita probabilitate, , interval in care este media din esantion. Atragem atentia ca in majoritatea tratatelor de statistica valorile care se refera la o populatie statistica sunt notate cu litere grecesti iar cele referitoare la esantioane se vor nota cu litere latine.

III. Central Tendency-grup de valori care poarta denumirea de marimile tendintei centrale (acele marimi care caracterizeaza im medie intreaga multime a valorilor statistice). Se calculeaza de obicei urmatoarele valori:

Median-sau mediana (Me) reprezinta valoarea atasata individului sau cazului care imparte miltimea statistica in doua parti egale. Se citeste astfel: 50% din valorile seriei sunt mai mici decat Me, iar restul de 50% au valori care depasesc Me. Dupa cum se stie aceasta marime se identifica usor intr-o serie simpla, la mijlocul acesteia, dupa ce am ordonat valorile respective. Pentru o serie cu intervale se foloseste formula:

, formula in care x₀este limita inferioara aintervalului median, d marimea acelui interval, este frecventa cumulata anterioara intervalului median, iar f_m este frecventa corespunzatoare acelui interval.

Mode-sau modul (dominanta), notat Mo, reprezinta cea mai des intalnita valoare dintr-o serie statistica sau valoarea care are cea mai mare frecventa. Pentru o serie simpla este usor de identificat iar pentru serii cu frecvente se foloseste formula:

, formula in care x₀ este limita inferioara a intervalului modal (corespunzator celei mai mari frecvente), d este marimea respectivului interval, Δ₁ si Δ₂ sunt diferentele obtinute prin scaderea din frecventa intervalului modal a frecventelor anterioara si posterioara acesteia.

IV. Distribution- valori care se refera la forma distributiei statistice. Cuprinde dua tipuri de valori: skewness (asimetria) si kurtosis (aplatizarea).

Asimetria se refera la masura in care graficul (distributia) valorilor este asimetric spre stinga sau spre dreapta fata de valoarea medie. Pentru un coefficient, sa il notam sk (de fapt coeficientul Pearson de oblicitate) putem avea valorile:

Aplatizarea sau boltirea se refera la compararea distributiei cu o curba normala. Se poate calcula un coeficient de aplatizare (il notam cu k) iar valorile acestuia pot fi interpretate astfel:

Obs1. Valorile sk si k sunt considerate normale daca se incadreaza in intervalul [-1,96; 1,96].

Obs2. Precizam ca o curba normala este binecunoscuta distributie gaussiana, in forma de clopot, perfect simetrica si care se bucura de o serie de proprietati fundamentale pentru cercetarea statistica. Recomanda si parcurgerea bibliografiei de la sfarsitul cursului pentru alte informatii.

V. Values are group midpoints-optiune utilizata cand valorile seriei sunt grupate simetric in jurul unei valori anumite.

Toate marimile precizate pot fi calculate in cazul unei variabile cantitative numerice. Vom seta toate variantele repective vom da OK si vom obtine rezultatele intr-o alta fereastra Output1 (specifica afisarii rezultatelor si care poate fi salvata ca si un fisier de tip *.spo):

Daca apelam la butonul Charts din aceeasi fereastra putem reprezenta graphic seria dupa ce am ales setarile care se potrivesc seriei noastre, din fereastra urmatoare:

Dupa apelarea butonului Continue graficul va apare tot in fereastra de rezultate Output1:

In aceeasi fereastra Output1 vom gasi si tabelul frecventelor dupa cum urmeaza:

Ultima coloana ajuta la lectura mai rapida a datelor statistice. De exemplu putem citi ca 70% dintre respondentii cu raspunsuri valide au pana in 14 ani de scoala.

Vom cauta sa calculam principalele valori statistice si pentru o variabila categoriala (fie ea ordinala sau nominala). Pentru acest exercitiu vom apela la o alta baza de date BOP_mai-2003_Gallup FINAL.sav baza constituita in urma anchetei la nivel national intitulata Barometru de opinie. Aceasta baza poate fi descarcata de pe site-ul www.osf.ro. Iata cum arata o portiune din acasta baza:

Variabila a12 este o variabila ordinala si reprezinta intrebarea "Cum este viata dvs. in prezent comparativ cu cea de acum un an?". Aceasta intrebare avea variantele de raspuns: 1. Mult mai buna 2. Mai buna 3. Aproximativ la fel 4. Mai proasta 5. Mult mai proasta 8. NS 9. NR. Sa calculam principalele valori statistice si sa reprezentam grafic seria. Vom urma comenzile Analyze→Descriptive statistics→Frequencies:

De data aceasta valorile statistice care ne intereseaza sunt mult mai putine datorita variabilei care este calitativa. Foarte util in acest caz este si tabelul frecventelor care este setat in prima fereastra. Graficul va fi de tipul Pie charts. Rezultatele le obtinem tot in Output1:

Observam in acest tabel semnificatiile coloanelor dupa observatiile facute anterior. Procentele pentru NS, NR sunt indentice in coloanele a treia si a patra pentru ca respectivele valori nu au fost considerate ca valori lipsa. Graficul de tip Pie Charts va apare in Output, apoi putem da dublu clic pe acest grafic si se va deschide o noua fereatra intitulata Chart1:

Obs: o buna parte dn valorile statistice calculate pentru o variabila sau mai multe se pot obtine si daca apelam la comenzile Analyze Descriptive Statistics→Descriptives iar valorile respective le putem alege din meniul Options.

Curs SPSS

calculatoare

DOCUMENTE SIMILARE

Clasificarea variabilelor dupa tip

DISTRIBUIE DOCUMENTUL

Comenteaza documentul: