Scrigroup - Documente si articole

     

HomeDocumenteUploadResurseAlte limbi doc
AstronomieBiofizicaBiologieBotanicaCartiChimieCopii
Educatie civicaFabule ghicitoriFizicaGramaticaJocLiteratura romanaLogica
MatematicaPoeziiPsihologie psihiatrieSociologie


PRINCIPALELE CALITATI ALE TESTULUI PSIHOLOGIC

Psihologie psihiatrie



+ Font mai mare | - Font mai mic



PRINCIPALELE CALITATI ALE TESTULUI PSIHOLOGIC



Sa enumere si sa poata defini corect fidelitatea si validitatea testelor psihologice;

Sa cunoasca principalele modalitati de a analiza fidelitatea si validitatea testelor

Sa interpreteze corect coeficientii de validitate si fidelitate

Sa poata analiza un test psihologic prin prisma fidelitatii si validitatii acestuia

FIDELITATEA TESTELOR

Fidelitatea unui test psihologic se refera la doua aspecte:

consistenta interna;

stabilitatea in timp a rezultatelor testarii.

Analiza fidelitatii unui test porneste de la conceptul de eroare. Orice scor la un test psihologic este rezultatul scorului real si al unei erori de masura:

Xobservat = Xreal + e (e = eroarea de masura)

Fidelitatea reprezinta absenta relativa dintr-o proba psihologica a erorilor de masurare. Acest lucru insa in psihologie nu poate fi intalnit; de aceea orice test psihologic trebuie sa estimeze valoarea acestor erori aleatoare de masura. Calculul fidelitatii indica masura in care scorurile obtinute la test exprima de fapt valorile reale ale constructului pe care testul il masoara.

Fidelitatea unui test poate fi calculata pe baza a patru metode:

metoda consistentei interne coeficienti de consistenta interna;

test retest coeficienti de stabilitate;

metoda formelor paralele coeficienti de echivalenta;

metoda fidelitatii interevaluatori coeficienti interevaluatori.

CONSISTENTA INTERNA

Consistenta interna a unui test se refera la masura in care toti itemii testului masoara aceeasi variabila. Calculul coeficientului de consistenta interna va consta in analiza corelatiei ce exista intre fiecare item. Pornind de la scorurile observate la un test, pentru analiza consistentei interne pot fi calculati urmatorii coeficienti:

a Cronbach pentru testele cu orice tip de itemi;

l Guttman;

r si r Kuder Richardson (daca itemii testului sunt binari).

Toti coeficientii prezentati se bazeaza pe un calcul de corelatie intre itemii ce alcatuiesc testul. Un coeficient de consistenta ridicat exprima faptul ca toti itemii testului se refera la aceeasi variabila. In afara coeficientilor prezentati anterior, consistenta interna a unui test poate fi calculata si pe baza metodei injumatatirii. Pe baza acestei metode testul este impartit in jumatate, calculandu-se coeficientul de corelatie dintre cele doua parti. Daca acest coeficient este ridicat el ne indica o buna fidelitate (consistenta interna) a testului. O forma particulara a metodei injumatatirii o constituie metoda item cu item, in care testul este impartit in doua prin selectarea itemilor pari respectiv a celor impari. Aceasta tehnica este utila mai ales in cazul testelor in care itemii sunt prezentati in ordinea crescanda a dificultatii. Se calculeaza si acest caz coeficientul de consistenta interna intre cele doua parti ale testului, valoarea lui reprezentand valoarea coeficientului de fidelitate.

STABILITATEA

Stabilitatea rezultatelor testarii ne indica in ce masura la aplicari diferite in timp un subiect obtine rezultate similare la un test psihologic. Calculul coeficientului de stabilitate se realizeaza astfel:

se administreaza testul la un grup de persoane;

dupa un interval de timp se readministreaza testul;

se calculeaza un coeficient de corelatie intre rezultatele la cele doua administrari.

O valoare mare a acestui coeficient indica o buna stabilitate in timp a rezultatelor. Se poate spune despre acel instrument ca este fidel deoarece releva aceleasi valori ale unei variabile la masuratori diferite in timp.

Factori care influenteaza calculul fidelitatii test-retest (stabilitatii):

Intervalul de timp intre test si retest. Daca timpul este prea scurt exista o mare probabilitate ca subiectii sa isi reaminteasca raspunsurile date anterior; respectiv un timp prea lung intre test si retest poate determina maturizarea esantionului de subiecti. Astfel daca aplicam un test de perceptie la 4 ani si il reaplicam la un interval de 6 luni exista o mare probabilitate sa obtinem rezultate diferite la cele doua administrari ale testului deoarece in intervalul de 6 luni subiectii s-au maturizat. In acest caz retestul va include in evaluare nivelul de maturizare al subiectilor. Datorita acestor argumente este destul de dificil de stabilit cu exactitate un timp optim intre test si retest.

Intotdeauna cand se calculeaza acest coeficient trebuie precizat intervalul scurs intre test si retest, varsta subiectilor precum si conditiile in care s-au administrat testele pentru a putea identifica eventualele surse de eroare de masura.

Gradul de dificultate al itemilor. Daca itemii sunt fie prea usori fie prea dificili se vor obtine coeficienti de stabilitate ridicati deoarece itemii testului fie vor fi rezolvati de majoritatea subiectilor (in primul caz) fie nu vor fi rezolvati nici la test nici la retest (al doilea caz).

Schimbari ale subiectului determinate de prima aplicare. Pot exista o serie de situatii in care se obtin performante diferite la retest deoarece subiectul fie a invatat sa raspunda la itemi dupa prima administrare, fie aceasta prima administrare a determinat schimbari de atitudini fata de o anumita problema.

METODA FORMELOR PARALELE

Exista o serie de situatii practice care necesita aplicari repetate a unui test psihologic la un interval foarte scurt de timp. In acest caz aplicarea aceluiasi test este improprie deoarece s-a vazut anterior ca la un interval scurt de timp subiectii pot sa isi reaminteasca raspunsurile date anterior. In acest caz trebuie sa se construiasca forme echivalente sau paralele ale unui test. Doua teste sunt paralele daca pentru un subiect erorile de masura la cele doua administrari sunt variabile aleatoare independente. In acest caz itemii celor doua teste trebuie sa fie logic izomorfi, adica sa aiba acelasi nivel de dificultate.

Avantajul acestei metode este acela ca nu mai permite reamintirea raspunsurilor si nici posibilitatea cautarii raspunsurilor la intrebarile la care nu s-a stiut raspunde.

subiectii se pot plictisi daca testarile sunt prea lungi;

este greu de realizat fiind dificila si costisitoare.

FIDELITATEA INTEREVALUATORI

Este necesar a fi calculata in cazul testelor care nu au o cotare obiectiva asa cum sunt testele proiective de personalitate la care scorul este influentat si de interpretarea pe care o da persoana care face cotarea. Pentru a verifica in ce masura scorul la test este influentat de modalitatea in care se face cotarea de diferite persoane se va cere la diferiti evaluatori sa calculeze scorurile la test, iar apoi se va realiza un coeficient de corelatie interevaluatori. Acest coeficient va exprima masura in care testul este independent de erori datorate modalitatii de cotare a raspunsurilor subiectului.

Coeficientii de fidelitate transformati in coeficienti de determinare (patratul coeficientului de fidelitate) releva proportia in care varianta totala a rezultatelor psihometrice se datoreaza variantei "reale" - diferentelor individuale reale - sau din contra, variantei "eroare", definita diferit, in functie de metoda particulara urmata in stabilirea tipului de fidelitate (Kulcsar, 1980). In consecinta, desi semnificatia diferitilor coeficienti de fidelitate nu este aceeasi, totusi orice coeficient de fidelitate, ridicat la patrat, poate fi interpretat in termeni de procentaj al variantei randamentului la test. Astfel de exemplu, un coeficient de fidelitate de .80 inseamna ca .802=64% din varianta totala a rezultatelor psihometrice considerate se datoreaza variantei reale a domeniului explorat, iar 36% variantei eroare, generata de unele din sursele multiple ale deosebirilor in rezultatele psihometrice.

Trebuie mentionat faptul ca desi fidelitatea unui test este importanta, ea nu este suficienta pentru un test bun. Un test poate avea o buna consistenta interna (toti itemii evalueaza aceeasi variabila) respectiv o buna stabilitate in timp, dar sa masoare altceva decat isi propune. Problema evaluarii corecte a ceea ce isi propune sa masoare un test este constituie subiectul validitatii testelor.

Interpretarea unui coeficient de fidelitate

Murphy & Davidshopher (1998) prezinta urmatoarele repere in interpretarea coeficientilor de fidelitate (tabelul 1):

Tabelul 2.1. Semnificatia coeficientilor de fidelitate

Valori ale coeficientilor de fidelitate

Tipul testului

Interpretare

Testele de inteligenta de grup

Fidelitate mare

Testele de performanta

Testele cu raspunsuri multiple

Fidelitate moderata

Scalele comportamentale

Unele masuratori proiective

Fidelitate scazuta

Scorul real si eroarea au efect egal asupra scorurilor la test

Asa cum am precizat anterior orice rezultat (scorul observat) pe care o persoana il obtine la un test este alcatuit din aptitudinea reala (scor real) careia i se adauga eroarea de masura. Adica:

Xobservat = Xreal + e (e = eroarea de masura)

Intrebarea pe care este necesar sa o analizam in acest caz ar fi urmatoarea: care este intervalul in care se gaseste scorul real. Altfel spus, dat fiind faptul ca o persoana obtine un anumit scor la un test, ne intereseaza care este intervalul in care putem spune ca se gaseste scorul real la test. Acest interval este denumit interval de incredere si este definit ca probabilitatea ca scorul real al persoanei la un test sa se gaseasca intre anumite limite

Calculul intervalului de incredere (IC).

Intervalul de incredere se obtine astfel:

IC = Xobservat + z*SEm SEm= eroarea standard de masura

SEm = SD* SD= abaterea standard a scorurilor la test; r= coeficientul de fidelitate

Sa luam un exemplu.

Presupunem ca la un test de inteligenta o persoana a obtinut un scor de 115. Coeficientul de fidelitate alpha este de 0,98, iar abaterea standard a scorurilor la test este de 15. Cum aflam intervalul in care se gaseste scorul real al persoanei la test?

Calculam eroarea standard de masura

SEm = SD*

SEm = 15*

SEm = 15*

SEm = 2.12

Calculam intervalul de incredere IC = Xobservat + z*SEm IC = 115 + z*2.12

Alegerea scorului z care va intra in calcul se face in functie de precizia cu care dorim sa lucram. Daca alegem sa lucram cu o probabilitate de 95% scorul z corespunzator este de 1.96 . Pentru o probabilitate de 90% scorul z corespunzator este de 1.65. In acest exemplu sa vom lucra cu o precizie de 95%, deci z=1.96. Astfel vom avea:

IC = 115 + 1.96*2.12

IC= 115 + 4.15

In acest caz putem spune cu o probabilitate de 95% ca scorul real al persoanei se gaseste in intervalul 110.85 - 119.15.

De retinut:

Intervalul de incredere depinde de coeficientul de fidelitate al testului; daca avem un coeficienti de fidelitate mici, atunci intervalul se mareste, deci eroarea este mai mare. Intervalul de incredere depinde de abaterea standard a scorurilor la test.

EXERCITII

Rezolvati urmatoarele probleme:

Testul A are abaterea standard 4, fidelitatea testului este 0.89

Testul B are abaterea standard 7, fidelitatea testului este 0.88

Considerand ca toti ceilalti parametri ai celor 2 teste sunt egali, pe care dintre teste il considerati mai bun?

Testul C are eroarea standard de masura 3,20 iar fidelitatea testului 0,76

Testul D are eroarea standard de masura 5,6 iar fidelitatea testului 0,62

Considerand ca toti ceilalti parametri ai celor 2 teste sunt egali, pe care dintre teste il considerati mai bun?

Calculati eroarea standard de masura pentru un scor observat de 15 si utilizati valoarea obtinuta pentru a determina intervalul de incredere al scorului real pentru 90 % respectiv 95%. Abaterea standard a scorurilor la test este 8; Fidelitatea testului este 0,74. Calculati:

a.    Eroarea standard de masura:______________

b.    Intervalul de incredere la 90%__________ ______ ____ __

c.    Explicati semnificatia acestui interval.

d.    Intervalul de incredere la 95%__________ ______ ____ __

e.    Explicati semnificatia acestui interval.

VALIDITATEA TESTELOR

Definitia validitatii

Evaluarea psihologica vizeaza o anumita realitate fie interna, fie externa. Numim domeniu de evaluare orice realitate (interna sau externa) care este supusa evaluarii. In orice proces de evaluare psihologica pornim de la definirea domeniului de evaluare si apoi propunem o serie de modalitati cantitative prin care observam daca indivizii poseda sau nu caracteristicile domeniului respectiv. Deoarece definirea domeniului poate sa fie mai mult sau mai putin corecta ne punem intrebarea daca aptitudinile /caracteristicile masurate de test corespund domeniului de evaluare. Astfel, pentru ca testul sa fie considerat o masura buna a domeniului de evaluare este necesar sa obtinem o serie de informatii care sa reflecte faptul ca testul masoara ceea ce si-a propus. Din aceste cerinte decurge problema validitatii unei masuratori.

Orice instrument de evaluare psihologica trebuie sa satisfaca cerintele validitatii. Traditional, definitia cea mai des intalnita a validitatii este "modalitatea in care un test masoara ceea ce isi propune sa masoare" (Anastasi, 1976). Validitatea se refera deci la relatia dintre scorul obtinut la un test si un anumit criteriu sau o performanta externa. Acest criteriu poate sa apartina oricarui domeniu; poate include selectia de personal, reusita scolara sau nosologia.

Istoric al studiilor despre validitate

Este cunoscut deja faptul ca masurarea psihologica si deci implicit si validarea isi au radacinile demult in timp. Intr-un articol care viza rolul testelor in selectia de personal, Guion (1976) realizeaza o trecere in revista a principalelor aspecte de care se tinea cont la vremea respectiva in analiza validitatii unei masuratori psihologice. Acestea sunt prezentate in tabelul 2:

Tabelul 2.2. Referiri la validitate

Aspecte

Observatii

Scopul validarii este acela de a prezice o performanta viitoare

"este.important a se cunoaste daca scorurile la un test sunt intr-o modalitate mai mare sau mai mica predictive pentru succesele ulterioare" (Bingham, 1937, p.216)

Predictorii si criteriile trebuie sa fie selectati pe baza analizei muncii.

Instrumentele de evaluare trebuie standardizate.

"Pentru a putea compara performantele unei persoane la un test la diferite momente in timp, testul trebuie sa fie uniform" (Freyd, 1923, p.232)

Testele trebuie validate empiric.

"Un test nu are nici o semnificatie inainte ca acesta sa fie validat" (Link, 1924)

Validarea este specifica unei situatii.

Un singur test nu este suficient.

"Hull (1928) sustine ca pentru a putea prezice cu mare acuratete un anumit criteriu, trebuie utilizata o baterie alcatuita din 4, 5 sau mai multe teste" (Guion, 1976, p.783).

Este bine sa se utilizeze doar un singur criteriu.

Freyd (1923) descrie procesele prin care este selectat un "criteriu"

Metodele psihometrice sunt preferate metodelor nepsihometrice.

"Evaluatorul nu se va limita la un instrument anume de masura, dar cele pe care trebuie sa le utilizeze cel mai des sunt testele si chestionarele" (Freyd, 1923, p.231)

Un test trebuie sa tina cont de diferentele individuale.

"Performantele la un test trebuie analizate - acolo unde este cazul - diferit in functie de sexe" (Freyd, 1923).

Analiza facuta de Guion (1976) ne ofera o imagine globala a ceea ce insemna la inceputul sec. xx modalitati traditionale de realizare a studiilor de validitate a unui instrument de evaluare psihologica.

O abordare mai recenta si poate mai corecta a validitatii este formulata de APA , AERA , NCSEPT in 1974. Conform standardelor asociatiilor amintite "Validitatea se refera la corectitudinea inferentelor realizate pe baza unui test sau a altei forme de evaluare" (p.25). Altfel spus, dar fiind un set de intrebari la care dorim sa raspundem pe baza unei evaluari psihologice trebuie sa ne verificam cat de corecte (sau valide) sunt raspunsurile (sau informatiile) oferite de un test psihologic (Ghiselli & all, 1986).

Validitatea trebuie atribuita intotdeauna inferentelor facute pe baza performantelor la un test. Validitatea nu este o caracteristica a testului psihologic ci este mai degraba o caracteristica a inferentelor care rezulta in urma utilizarii acestuia (unei forme de evaluare - chiar a observatiei). Altfel spus, validitatea determina relatia dintre inferentele facute pe baza performantelor la un test si realitate (este inclus aici orice aspect care este supus evaluarii). Daca analizam definitia data de Nunnally (1978) validitatii, si anume "cat de util stiintific" este un instrument de masura observam ca si in acest caz este vorba de inferente, sau judecati realizate pe baza instrumentului respectiv.

Forme ale validitatii.

Literatura de specialitate indica diferite tipuri de validitate psihologica. Ele trebuie intelese ca fiind tehnici, modalitati prin care se incearca optimizarea unui instrument de masura psihologica. Modalitatea cea mai des intalnita in literatura de specialitate (Anastasi, 1976; Cohen, et. all, 2000) de a concepe validitatea o constituie urmatoarea taxonomie:

validitate de criteriu

validitate de continut

validitate de construct

In afara celor trei tipuri de validitate, normele APA analizeaza validitatea de aspect.

Validitatea de aspect este definita ca "ceea ce un test pare sa masoare, mai degraba decat ceea ce masoara" (APA, 1974). Exprima de fapt modul in care persoana evaluata percepe itemii testului; ea este importanta in masura in care poate influenta raspunsurile persoanei examinate la test. Daca persoana examinata apreciaza ca testul masoara ceea ce isi propune sa masoare de fapt, atunci putem spune ca testul are o validitate de aspect ridicata. Conform Standardelor de Evaluare APA (1974) validitatea de aspect nu constituie un criteriu important pentru inferentele facute pe baza unui test.

VALIDITATEA DE CRITERIU

Nu de putine ori suntem confruntati cu intrebari ca: "In ce masura performanta la un test de inteligenta este predictiva pentru reusita scolara?", "In ce masura rezultatul la un test de aptitudini prezice performanta in munca?", "In ce masura performanta la un test de memorie constituie un bun predictor pentru declinul cognitiv la varsta a treia?". Aceste intrebari se adreseaza validitatii de criteriu. Adesea acest tip de validitate este intalnit sub denumirea de validitate empirica (Lyman, 1998). Validitatea de criteriu indica deci masura in care testul este un bun predictor pentru un esantion de comportamente viitoare. In acest caz performanta la un test trebuie raportata la o alta performanta pe care o numim criteriu.

Criteriul este definit ca standardul la care este raportata performanta la un test. Astfel criteriul poate fi "performanta unui pilot care conduce un Boeing 767", "numarul de zile petrecut intr-un spital de psihiatrie", "notele obtinute de un elev la disciplinele umane", "performanta la un alt test". Asa cum se poate observa nu exista reguli stricte pentru ceea ce numim criteriu. Acesta poate fi un comportament specific sau un grup de comportamente, o perioada de timp, un diagnostic psihiatric, indicele de absenteism, alcoolemia din sange, etc. Desi la o prima vedere se poate spune ca un criteriu poate constitui orice, acest lucru este adevarat doar daca criteriul este relevant pentru domeniul de evaluare, daca este necontaminat, daca este valid si fidel.

Un test psihologic este adecvat daca este relationat cu un criteriu si deci poate fi considerat un bun substitut al criteriului. In general numim testul ca fiind predictor pentru criteriul respectiv.

Caracteristicile unui criteriu.

Criteriul reprezinta o masura directa si independenta a ceea ce testul doreste sa prezica. Astfel pentru un test de aptitudini mecanice criteriul il poate constitui performanta in munca de mecanic; pentru un test de cunostinte criteriul il pot constitui notele scolare.

Criteriul trebuie sa indeplineasca cateva conditii (Corsini, 1994):

sa fie relevant pentru activitatea sau caracteristica la care se refera; adica ordinea subiectilor la test sa coincida cu ordinea performantei la criteriu;

sa fie fidel, adica sa fie congruent cu evaluari diferite ale performantelor la care se refera, evaluari realizate la momente diferite.

sa fie practic, adica sa nu coste mult;

sa fie exprimat in aceleasi unitati pentru toate persoanele. Daca de exemplu, valorile variabilei criteriu sunt dependente de varsta subiectilor atunci aceste valori trebuie transformate in cote standard (de exemplu: z sau T);

Anastasi (1954) exemplifica cateva criterii utilizate in analizarea validitatii testelor care vizeaza constructe:

varsta - se foloseste ca si criteriu in cazul constructelor ce vizeaza procese care cunosc o maturizare (ex. inteligenta, functiile perceptive, etc.). Nu este un criteriu bun pentru testele care vizeaza aspecte invariabile in timp (ex. variabilele ce tin de temperament).

performantele scolare - sunt un criteriu bun pentru testele de cunostinte sau pentru testele care evalueaza aptitudini scolare.

performantele la diverse programe de instruire speciala (muzica, sport, etc.) sunt criterii adecvate pentru testele de aptitudini speciale.

rezultatele altor teste se utilizeaza adesea ca si criteriu in construirea de noi teste. Astfel Scala Metrica a inteligentei construita de Binet-Simon (1905) a folosit drept criteriu pentru teste ulterioare construite in scopul evaluarii inteligentei;

grupele contrastante - pentru un test de inteligenta acestea ar fi constituite din copiii care frecventeaza scoala de masa, respectiv copiii integrati in scoala ajutatoare.

Ca si scorurile la test, un criteriu trebuie sa fie fidel (Cohen, 1999).

Daca ar fi posibil intotdeauna sa obtinem direct scoruri la criteriu pentru un anumit individ nu am mai avea nevoie de masura predictorului si de nici o aproximare a validitatii de criteriu. Din pacate insa nu putem obtine imediat scorurile la un criteriu; ele pot fi obtinute doar la anumite intervale in timp sau pot fi adesea extrem de costisitoare pentru a fi obtinute la cerere pentru orice individ.

Sa consideram un exemplu.

S-a pus nu de putine ori intrebarea ce inseamna o performanta buna intr-o anumita organizatie. Performanta poate fi definita din mai multe puncte de vedere. Astfel, organizatia poate fi interesata de cat de mult contribuie o persoana la cresterea profitului, iar pentru persoana respectiva performanta poate insemna masura in care simte ca este apreciata. Avem in acest caz de-a face cu mai multe dimensiuni ale unui criteriu. Aceste surse de informatii pot fi utilizate pentru a prezice fiecare dintre cele doua surse ale criteriului iar validitatea acestora va fi determinata diferit. Daca un criteriu este adecvat este cel mai adesea o judecata de valoare (Ghiselli et. all). Putem estima prin diferite modalitati fidelitatea unui criteriu (stabilitatea acestuia in timp de ex.) insa formularea lui, respectiv continutul acestuia constituie cel mai adesea un rationament sau o judecata a celui care realizeaza evaluarea.

In exemplul anterior criteriul apartine viitorului si in momentul evaluarii nu este disponibil, deci avem nevoie de o serie de predictori pentru estimarea acestuia. Sa presupunem insa ca avem de-a face cu un criteriu care poate fi estimat acum (adica in momentul evaluarii). Intrebarea pe care trebuie sa ne-o punem este urmatoarea: "avem la dispozitie masuratori economice ale criteriului care pot fi folosite acum?". Un exemplu de astfel de criteriu este masura in care o serie de indivizi prezinta o forma sau alta de tulburare psihica. O analiza completa a acestei dimensiuni ar dura cateva zile si ar fi neeconomica. Daca in plus sarcina psihologului este acela de a analiza un numar mare de persoane din prisma acestor criterii ar trebui gasita o alta modalitate decat cea clinica, completa. Problema cu care ne confruntam acum este aceea de a gasi o modalitate economica (rapida in timp si necostisitoare) care ar putea substitui examinarea clinica completa care constituie criteriul.

Exista de multe ori evenimente care s-au petrecut in trecut si care deci nu mai pot fi evaluate in mod direct. Care este in acest caz predictorul utilizat pentru evaluarea criteriului (evenimentul trecut)? De exemplu, analiza de catre medic a unei electrocardiograme (predictor) poate fi utilizata ca modalitate de a decide daca pacientul respectiv a suferit sau nu un atac de cord (criteriu). Un alt exemplu care intra in aceasta categorie este rolul pe care il are un judecator de a stabili daca un individ a comis o crima in trecut (criteriul) pe baza prezentarii faptelor la proces (predictor).

Inainte de a prezenta diferitele tipuri de validitate de criteriu trebuie retinuta urmatoarea afirmatie. O anumita variabila poate constitui un criteriu intr-o anumita situatie respectiv predictor in alta situatie. Ceea ce este astazi criteriu poate sa nu mai fie maine.

APA (1974) diferentiaza intre doua tipuri de validitate de criteriu:

i. validitate predictiva.

ii. validitate concurenta

Validitatea predictiva

Termenul de predictie poate fi utilizat fie in sens larg cand se refera la predictia unui test pentru orice situatie, sau in sens restrans cand se refera la predictie intr-un interval de timp. Validitatea predictiva vizeaza cel de-al doilea sens.

Validitatea predictiva este definita ca acuratetea cu care putem estima in ce masura o anumita caracteristica sau aptitudine a unei persoane se va manifesta in viitor pe baza masurii in care persoana poseda o serie de caracteristici sau aptitudini curente (Ghiselli, et. all). De exemplu, la un examen de admitere la facultate ne poate intereseaza in ce masura aptitudinile de care dispune acum o persoana sunt predictive pentru performanta academica. Pe baza notei la examenul de admitere (predictor) am putea face o predictie asupra reusitei academice ulterioare (criteriu).

In practica clinica de exemplu, un test care ar reusi sa prezica tentativele viitoare de suicid ar constitui un bun predictor pentru acest criteriu.

Ce este predictia?

Predictia este procesul de stabilire a unor expectatii despre viitor avand la baza date / evenimente curente - de exemplu desprinderea unor date despre performanta viitoare in munca pornind de la caracteristicile actuale ale unei persoane.

In literatura de specialitate, datele actuale se numesc "predictori", in timp ce variabilele care descriu performanta se numesc "criteriu".

Principii ale predictiei.

Psihologia personalului, orientata pe selectie ofera 2 modele stiintifice ale predictiei: "abordarea pe baza de trasaturi" si "abordarea pe baza generalizarii comportamentelor" (Wernimont & Campbell, 1968).

Abordarea pe baza de trasaturi (figura 1) porneste de la asumptia ca exista un numar de relatii bine precizate intre trasaturile unei persoane si activitatile pe care persoana le desfasoara, relatii exprimate in forma legilor psihologice. Aceasta abordare are la baza principiul deductiv nomologic (principiul DN) din teoria stiintei (Stegmuller, 1974). Cand pentru un grup de persoane o anumita lege psihologica stabileste ca exista o legatura intre o caracteristica A a persoanei si un anumit tip de comportament E, putem realiza, pe baza acestei legi, predictia ca o persoana care poseda caracteristica A va manifesta comportamentul E. Principiul nu poate fi aplicat in aceasta forma simpla din mai multe motive. In primul rand, relatia dintre predictor si criteriu este mai degraba una probabilistica si nu determinista. Astfel, cunoscand scorul unei persoane la o variabila predictor, putem face doar o inferenta despre scorul la criteriu; aceasta inferenta se realizeaza cu o anumita probabilitate si nu cu certitudine. In al doilea rand, trasaturile si caracteristicile comportamentale, nu pot fi masurate in mod direct, ci ele sunt masurate pe baza unor instrumente care au caracteristici psihometrice specifice. In al treilea rand legile dintre trasaturi si comportamente trebuie stabilite foarte clar, fara contradictii logice. Astfel de contradictii ar putea apare atunci cand un test ar realiza o predictie a unei performante bune a persoanei, iar un alt test ar prezice o performanta slaba.

Caracteristica A

Lege psihologica

Comportamentul E

Predictie

IIpoteze pe baza de observatie

Ipoteze pe baza de observatie

Caracteristica a observata

Comportamentul observat e

 

Figura 2.1. Predictia pe baza principiului deductiv-nomologic

Abordarea pe baza generalizarii comportamentului (figura 2) are la baza urmatoarea asumptie: atunci cand o persoana se comporta de o maniera E intr-o anumita situatie G1 se poate concluziona ca persoana respectiva se va comporta de aceeasi maniera E intr-o alta situatie Gi, situatie similara cu prima. Avem de-a face in acest caz cu o generalizare a comportamentului observat intr-un esantion de situatii la un o alta situatie similara cu cele din esantionul ales. Pe baza acestei generalizari putem vorbi de "principiul esantionului de situatii". Figura 2 prezinta grafic o reprezentare a acestui principiu.

Esantion de situatii

Reprezentativitate

Univers de situatii

Predictie

Reprezentare

Reprezentare

Univers de sarcini

 

Figura 2.2. Predictia pe baza principiului generalizarii comportamentului

Cele doua modele ale predictiei difera din punctul de vedere al bazei lor epistemologice. Abordarea pe baza trasaturilor relationeaza o caracteristica durabila a unei persoane (ceva ce persoana are) cu activitatea sa (ceva ce persoana face). Abordarea pe baza generalizarii comportamentului nu ia in considerare trasatura, ea relationeaza comportamente (ce face o persoana cu altceva ce face). Aceasta a doua abordare are la baza o similaritate mai mare intre predictor si criteriu, fapt ce poate determina o mai buna predictie. Acest argument sustine si faptul ca instrumentele de tipul celor orientate pe continut au o validitate predictiva mai mare decat cele bazate pe trasaturi (Schmitt&Noe, 1986). Similaritatea dintre cele doua abordari se refera la faptul ca ele au la baza asumptia ca exista o stabilitate a comportamentului; in primul caz stabilitatea este data de trasatura, iar in al doilea caz stabilitatea este data de o constanta comportamentala (comportamentul nu se schimba atata timp cat situatia nu se schimba).

Validarea predictiva presupune existenta unui interval de timp intre test si verificarea criteriului. Pentru un test care are ca scop predictia reusitei scolare la scris-citit in clasa I testul va fi aplicat la intrarea in clasa I, iar criteriul (performantele la scris-citit) va fi verificat fie dupa un semestru, fie la sfarsitul clasei I.

Studiul de validare al unui test care vizeaza prognoza reusitei la citire in clasa I, trebuie sa parcurga urmatoarele etape (Kulcsar, 1980) (figura 1):

analiza psihologica a activitatii de citire; indicarea premiselor psihologice ale reusitei la citire;

alegerea unui test sau a unor teste psihologice care exploreaza tocmai acele aspecte psihologice care conditioneaza reusita la citire;

aplicarea testului sau a testelor psihologice destinate predictiei reusitei la citire;

masurarea criteriului, adica evaluarea gradului de insusire a deprinderii de citire pe baza notelor scolare sau a unor probe de citire elaborate in acest scop;

analiza cantitativa si calitativa a rezultatelor la test si la criteriu; studierea legaturii intre cele doua categorii de rezultate.

Validarea concurenta presupune obtinerea scorurilor la criteriu aproximativ in acelasi timp cu scorurile la test. In cazul validitatii concurente este vorba tot de o predictie, dar la aceasta se ajunge pe o cale putin diferita fata de cea urmata in studierea validitatii predictive (Cronbach, 1970).

Trebuie mentionat faptul ca distinctia logica intre validitatea predictiva si cea concurenta (figura 2) nu se bazeaza pe relatia temporala dintre test si criteriu ci mai ales pe obiectivele testarii. Astfel, in timp ce validitatea concurenta are ca scop rezolvarea unei probleme privind starea actuala a subiectului, validarea predictiva vizeaza evolutia sa in viitor. Diferenta intre cele doua tipuri de validitate poate fi sumarizata pe baza urmatoarelor intrebari: "Este X anxios?" (validare concurenta) si "Este posibil ca X sa devina anxios?" (validare predictiva).

Daca rezultatele la predictor (test) sunt obtinute simultan cu rezultatele la criteriu, masura relatiei dintre predictor si criteriu o constituie validitatea concurenta. Validitatea concurenta exprima deci in ce masura scorurile la test pot fi utilizate pentru a estima performanta actuala a unei persoane la un anumit criteriu.

Analiza validitatii de criteriu (fie ea predictiva sau concurenta) se bazeaza pe doua tipuri de analize statistice: coeficientii de validitate.

Coeficientii de validate

Validitatea de criteriu a unui test reprezinta o modalitate cantitativa si obiectiva a relatiei dintre scorurile la predictor si scorurile la criteriu. Astfel coeficientii de corelatie sunt o modalitate de a estima validitatea predictiva. Cand acestia sunt utilizati pentru a indica relatia dintre un predictor si un criteriu, ei sunt denumiti coeficienti de validitate.

VALIDITATEA DE CONTINUT

Validitatea de continut implica examinarea sistematica a continutului testului pentru a se verifica daca testul acopera un esantion reprezentativ din domeniul care se cere a fi evaluat prin test (Anastasi, 1976). Astfel pentru a vorbi de o validitate de continut ridicata trebuie ca itemii care alcatuiesc testul sa fie reprezentativi pentru ceea ce testul doreste sa masoare.

Analiza validitatii de continut a unui test trebuie sa surprinda:

Definirea si descrierea domeniului de continut a testului. Aceasta descriere trebuie sa fie extrem de clara si sa includa toate fatetele domeniul care se doreste a fi evaluat.

Analiza itemilor care sunt inclusi in test. Vor trebui sa fie eliminati acei itemi care nu evalueaza aspecte ale domeniului de continut identificat anterior. Aceasta analiza se va face de catre experti care pot sa aprecieze relevanta fiecarui item pentru un domeniu dat. Validitatea de continut nu depinde insa de relevanta aparenta a continutului itemilor ci de caracterul relevant al raspunsurilor subiectului la itemi (Anastasi, 1976). Pentru a stabili validitatea de continut a testului, orice analiza teoretica trebuie deci sa fie confirmata empiric (Kulcsar, 1980).

Compararea structurii testului cu domeniul de continut. Astfel se va analiza daca itemii acopera toate aspectele domeniului, respectiv daca ei sunt proportionali in test cu importanta si marimea fiecarui aspect.

Deoarece acest tip de validare nu reclama metode si modele statistice, ea facandu-se doar pe baza de rationamente, o gasim in literatura de specialitate si sub denumirea de validare logica sau rationala (Thorndike, Hagen, 1961).

Validarea referitoare la continut se impune a fi calculata in urmatoarele cazuri:

in cazul testelor de cunostinte atunci cand nu exista un criteriu extern adecvat pentru analiza validitatii de criteriu;

in cazul testelor utilizate la masurarea unui atribut ce nu poate fi exprimat printr-un construct (Murphy & Davidshofer, 1991). De exemplu, se poate descrie cu usurinta domeniul de continut al unui test construit pentru "cunostinte de aritmetica la elevii clasei I", dar este foarte dificil sa gasim comportamente prin care aceasta caracteristica sa poata fi observata.

in cazul testelor care evalueaza performanta in munca in scopuri de selectie si clasificare a angajatilor. Acest tip de validare este adecvat cand testul reprezinta un esantion de comportamente din ceea ce reprezinta deprinderile si cunostintele specifice muncii respective.

CONSTRUCTIA SI ANALIZA DE ITEMI

Constructia de itemi

Atunci cand dorim sa evaluam ceva, prima intrebare pe care ne-o formulam este ce anume dorim sa evaluam, care este formatul pe care trebuie sa-l aiba itemii, astfel incat sa ne ofere imagine acurata a aspectului care ne intereseaza.

Formularea itemilor

Construirea de itemi este un proces pretentios, in continuare vom prezenta cateva aspecte orientative legate de formularea lor:

Definiti clar ceea ce aveti de masurat, pentru a putea formula itemii cat mai specific posibil.

Generati o baza de itemi, evitati itemii redundanti.

Evitati formularea unor itemi lungi, care ar putea fi greu intelesi.

Incercati sa formulati itemii intr-un limbaj accesibil persoanelor evaluate cu acest instrument.

Evitati formularea unor itemi care surprind doua aspecte sau idei, de exemplu:

"Imi place sa lucrez intr-un mediu bine organizat, pentru ca vreau sa fiu cel mai bun la locul de munca"

Acest item are in vedere doua aspecte: "imi place sa lucrez intr-un mediu bine organizat" si "vreau sa fiu cel mai bun la locul de munca", astfel in momentul in care persoana evaluata va alege o optiune de raspuns, va fi imposibil de decelat la care din cele doua aspecte evaluate se refera.

Incercati sa formulati itemi pozitivi si negativi in aceeasi masura, pentru a evita biasarea care apare in cazul formularii itemilor pozitivi. Aceasta biasare este determinata de tendinta persoanei evaluate de a fi de acord cu toti itemii testului.

Formatul optiunilor de raspuns

In functie de constructul pe care dorim sa-l evaluam anumite formate devin mai mult sau mai putin adecvate. Prezentam in continuare cele mai frecvent intalnite forme ale itemilor.

a. Itemii dihotomici - ofera doua alternative de raspuns (adevarat si fals), de obicei uneia dintre acestea i se acorda un punct la cotarea performantei persoanei evaluate. Itemii au forma unor afirmatii, iar sarcina subiectilor este de a decide asupra valorii de adevara a acesteia.

Avantajele acestui tip de itemi sunt:

sunt usor de cotat;

sunt usor de construit (in construirea unui test de evaluare a cunostintelor profesorul poate utiliza fragmente din suportul de curs pentru a formula itemii);

completarea lor nu necesita mult timp deoarece raspunsul nu trebuie scris;

necesita o evaluare in termeni absoluti (alb sau negru);

Dezavantaje acestui tip de itemi sunt:

in cadrul testelor de cunostinte acest tip de itemi pot incuraja studentii sa a memoreze materialul;

sansa de a ghici raspunsul corect este foarte mare, de 50%.

b. Itemi cu mai multe optiuni (polinomici) - au un format similar celor dihotomici, atata doar ca au mai mult de doua alternative de raspuns. Se acorda un punct numai unei optiuni de raspuns, iar celelalte care nu sunt corecte poarta denumirea de distractori. Itemii construiti in scopul evaluarii performantei academice au de cele mai multe ori acest format.

Avantajele acestui tip de itemi sunt:

acesti itemii sunt usor de cotat;

sunt usor de construit;

completarea lor nu necesita mult timp deoarece raspunsul nu trebuie scris;

sansa de a ghici raspunsul corect este redusa;

Dezavantajul cel mai mare al acestui tip de itemi se refera la construirea unor distractori buni, procedeu care necesita mai mult timp. In cazul itemilor polinomici, probabilitatea de a ghici raspunsul exista, desi este mai mica decat in cazul itemilor dihotomici (este de 25% in cazul a patru alternative, de 33.33% in cazul a trei alternative). Aceste lucru poate fi corectat prin utilizarea unei formule de ajustare a scorului obtinut de catre fiecare persoana evaluata. Aceasta formula se exprima astfel:

Scorul corect = R - W/ n - 1

R este numarul optiunilor corecte;

W este numarul optiunilor gresite;

n este numarul optiunilor de raspuns ale itemilor

Raspunsurile omise nu sunt incluse deoarece acestea nici nu cresc si nici nu duc la scaderea scorului final. De exemplu in cazul unui test de 100 de itemi, cu cate 4 optiuni de raspuns (din care una singura este corecta, celelalte trei sunt gresite la fiecare item), daca vom completa aleator raspunsurile corecte vom obtine scorul de 25 (bine inteles aceasta este o situatie ipotetica in realitate avem putine sanse sa obtinem tocmai 25 de puncte care este scorul mediu asteptat).

In acest caz, conform formulei anterioare, scorul corect este de: 25 - 75/4-1 = 25 - 25 = 0

Astfel, dupa aplicarea corectiei scorul expectat este 0.

Intrebarea este in ce masura in cazul testelor de cunostinte este recomandat ca studentii sa incerce sa ghiceasca raspunsul? In cazul in care nu se utilizeaza procedura de corectie raspunsul este clar, "incercati sa nimeriti", dar nu si in cazul in care se utilizeaza procedura de corectie. Exista situatia in care nu sunteti siguri de raspunsul corect, dar stiti sigur ca doua din cele patru alternative de raspuns sunt gresite, in acest caz va sfatuim sa incercati sa ghiciti. Formula de corectie are la baza asumptia ca fiecare din cele patru alternative de raspuns are aceeasi probabilitate de a fi aleasa, deci aveti sansa de 1 la 4. In cazul in care eliminati doua dintre alternative sansa dvs. creste la 1 la 2, ceea ce va ofera un avantaj asupra procedurii de corectie.

c. Scale Likert - prezinta o forma foarte populara, utilizata mai ales in cadrul testelor de personalitate, in care persoana evaluata trebuie sa-si exprime acordul sau dezacordul fata de a o afirmatie (se numeste scala Likert, pentru ca a fost introdusa de catre Likert in 1932, in scopul evaluarii atitudinilor).

Pentru a se evita alegerea unui raspuns neutru din partea celui evaluat (in cazul exemplului de mai sus 3), se utilizeaza scale cu un numar par de optiuni de raspuns.

Acest tip de raspuns permite cotarea inversa, scorul total este calculat prin insumarea numerelor corespunzatoare raspunsurilor.

d. Scala categoriala - este similara cu scalele Likert, dar utilizeaza un numar mai mare de optiuni de raspuns, de cele mai multe ori sunt utilizate scale cu 10 optiuni de raspuns. Pentru utilizarea lor adecvata este foarte important ca punctele extreme ale scalei sa fie clar definite si permanent reamintite celor care realizeaza evaluarea.

Una dintre principalele probleme legate de acest tip de scala este numarul de categorii care poate fi utilizat, care poate fi de 10 si 15 sau 66? S-au realizat cateva studii in acest sens, ele au aratat ca depinde mult de scopul pe care il avem si de nivelul de expertiza al evaluatorului. De exemplu daca dorim sa evaluam performanta unor jucatori de fotbal, o scala cu 7 nivele va fi suficienta pentru ochiul unui nonexpert care nu sesizeaza aspectele de finete, dar nu si in cazul unui expert, al unui antrenor care poate sesiza mai multe diferente intre jucatori.

e. Q- sort - este o metoda utilizata cu precadere in evaluarea personalitatii. Persoana evaluata va primi o lista de adjective pe care le va sorta in functie de masura in care acestea il caracterizeaza.

2. Analiza de itemi

Care sunt criteriile pe baza carora putem spune ca un item este bun?

Asa dupa cum putem analiza un test din prisma fidelitatii si validitatii, la fel putem analiza conform acestor criterii un item. Mai precis, un item bun discrimineaza intre doua categorii de subiecti; putem spune de asemenea ca un item este bun daca performanta la item coreleaza cu performanta la test.

Care este procesul pe baza caruia putem analiza itemii? Dupa ce am generat itemii, dupa ce acestia au fost aplicati unui esantion de subiecti, ne intereseaza in ce masura ei pot fi considerati itemi buni, respectiv la care dintre itemi ar trebui sa renuntam deoarece nu satisfac criteriile. Totalitatea procedeelor statistice cunoscute sub denumirea de "analiza de itemi" servesc scopurilor prezentate. Este important de mentionat faptul ca analiza de itemi cuprinde atat procedee cantitative cat si procedee calitative.

Analiza calitativa de itemi

Tehnicile de analiza calitativa a itemilor unui test constituie un procedeu des intalnit in analiza itemilor unui test. Tabelul 5 prezinta o serie de aspecte ale analizei calitative de itemi pe care trebuie sa le ia in calcul o persoana care construieste un test.

Tabelul 2.3. Aspecte ale analizei calitative de itemi

Aspecte

Intrebari

Specificitatea culturala

Crezi ca itemii testului sunt discriminativi pentru un grup anume de persoane? De ce?

Validitatea de aspect

Testul masoara ceea ce crezi tu ca masoara? Daca nu este asa ce anume din test te indreptateste sa sustii acest lucru?

Examinatorul

Crezi ca performanta obtinuta la test a fost influentata de comportamentul examinatorului? Daca da, care au fost acele comportamente care te-au influentat?

Mediul de testare

Crezi ca unele conditii ale mediului in care ai fost testat au influentat performantele la test? Daca da, care au fost acelea?

Limbajul testului

Modalitatea de prezentare a instructiunilor sau alte aspecte verbale ale testului au influentat performanta la test?

Lungimea testului

Care este opinia ta in privinta lungimii testului - se vor discuta 2 aspecte: timpul total si numarul itemilor

Raspunsurile aleatoare

Au fost itemi in test la care ai dat raspunsuri la intamplare? Care este procentajul de itemi la care ai raspuns la intamplare? Ai folosit anumite strategii specifice?

Corectitudinea testarii

Crezi ca s-a putut trisa la acest test? Daca da, care crezi ca au fi sunt modalitatile de a trisa?

Starea psihica/fizica a subiectului in timpul examinarii

Cum ai descrie starea ta (psihica sau fizica) din timpul testului? Crezi ca aceasta stare ar putea influenta in vre-un fel performanta la test?

Impresia generala

Care este impresia ta generala lasata de acest test? Care sunt sugestiile pe care le-ai face pentru imbunatatirea testului?

Preferinte

Ce ti-a placut/displacut la acest test? Au existat parti ale testului pe care le-ai resimtit ca provocandu-ti anxietate sau alte stari negative?

Pregatirea anterioara

Cum te-ai pregatit pentru acest test? Daca ar trebui sa sfatuiesti pe cineva privind modul in care ar trebui sa se pregateasca pentru acest test ce i-ai sugera?

Analiza cantitativa de itemi din perspectiva teoriei clasice

Atunci cand ne referim la teoria clasica a testelor avem in vedere modelul de masurare prezentat in cadrul modulului II. In acest subcapitol vom prezenta procedurile de analiza a itemilor bazate pe acest model si pe asumptiile sale.

Procedurile statistice utilizate in analiza itemilor sunt nu de putine ori extrem de complexe, de aceea scopul nostru este de a prezenta aici doar procedurile de baza. Vom prezenta in continuare modalitatile principale utilizate in analiza itemilor. Este important de retinut faptul ca importanta acestor procedee depinde de functia si obiectivele pe care autorul testului doreste sa le atribuie testului.

Printre indicatorii care ar trebui luati in calcul in analiza de itemi se gasesc:

indicele de dificultate al itemului;

indicele de discriminare;

Indicele de dificultate al unui item

Sa presupunem ca un item al unui test este rezolvat corect de toti subiectii. Putem spune ca itemul acesta este un item bun? Ce se intampla daca dimpotriva, nici un subiect nu raspunde corect la acest item. In ambele cazuri putem considera ca itemul respectiv nu este unul bun. Daca la un item toti subiectii raspund corect inseamna ca itemul este prea usor; daca dimpotriva, nici un subiect nu raspunde la un item atunci putem spune ca itemul este prea dificil. In ambele cazuri, se recomanda rescrierea itemului sau eliminarea din test.

Observatie. La unele teste de cunostinte, primul item al testului este unul extrem de facil (raspund deci majoritatea subiectilor). Acest lucru este indicat a se realiza fie pentru a verifica daca subiectul a inteles sarcina de lucru, fie pentru a-i forma o atitudine pozitiva fata de test si astfel de a-i creste motivatia.

Indicele de dificultate al unui item (px) se obtine calculand proportia subiectilor care au raspuns corect la item. Valoarea teoretica a indicelui de dificultate se gaseste intre 0 (daca nici un subiect nu a rezolvat itemul corect) si 1 (daca toti subiectii au raspuns corect la un item).

Exemple.

Daca 50 din cei 100 de subiecti la care a fost aplicat un test au raspuns la itemul 2 corect atunci putem spune ca indicele de dificultate al itemului 2 este 50/100 adica p2=0,5

Daca 75 din cei 100 de subiecti la care a fost aplicat un test au raspuns la itemul 3 corect atunci putem spune ca indicele de dificultate al itemului 3 este 75/100 adica p3=0,75 si vom spune ca itemul 3 este mai usor decat itemul 2.

Se poate observa ca cu cat indicele de dificultate al itemului este mai mare cu atat itemul este mai usor. Deoarece "p" se refera la procentul celor care au rezolvat corect itemul, putem spune ca cu cat este mai mare valoarea indicelui cu atat itemul este mai usor. Vorbim de indice de dificultate pentru testele de performanta, insa in cazul testelor de personalitate acest indice exprima procentul de subiecti care a raspuns "da" la item, sau in alte cazuri procentul de subiecti care a agreeat itemul.

Un indice global de dificultate al itemilor unui test se poate calcula facand media indicilor fiecarui item. Astfel se face suma tuturor indicilor de dificultate si rezultatul obtinut se imparte la numarul itemilor testului. Pentru o maxima discriminare, este important ca media indicilor de dificultate al unui test sa fie 0.5, deci indicii fiecarui item al testului sa varieze intre 0.3 si 0.8.

Ceea ce trebuie sa luam in calcul cand analizam indicele de dificultate al unui item este sansa ca subiectul sa dea raspunsul corect la intamplare (adica de a ghici raspunsul). In acest caz indicele optim de dificultate al unui item se gaseste la mijlocul distantei dintre 1 si rata de raspuns la intamplare care pentru un item cu 2 raspunsurile este de 0,50. Mijlocul distantei dintre 1 si 0.50 este 0.75 - deci indicele optim de dificultate al acestui item este 0.75. In general acest indice optim se obtine insumand valoarea sansei cu 1 si apoi impartind valoarea obtinuta la 2, sau:

Pentru un item care are 5 variante de raspuns sansa de a raspunde corect este 1/5 adica 0,20. In acest caz, indicele de dificultate optim se va obtine astfel:

Indicele de discriminare al unui item

Indicele de discriminare al unui item (d) constituie o masura a cat de bine reuseste un item sa separe sau sa discrimineze subiectii care au obtinut scoruri mari si cei care au obtinut coruri mici la test. Mai precis, un item este considerat discriminativ daca subiectii care au obtinut o performanta buna la test au rezolvat corect itemul, respectiv daca cei care au obtinut o performanta scazuta la test nu au rezolvat corect itemul. Daca majoritatea subiectilor cu performanta mare la test nu au rezolvat corect un item atunci inseamna ca itemul respectiv nu discrimineaza intre categorii diferite de subiecti. Similar, in cazul testelor de personalitate subiectii care au un scor mare la o anumita trasatura (evaluata de intregul test) trebuie sa aiba un scor mare si la un item care se presupune ca evalueaza trasatura respectiva.

Indicele de discriminare are in vedere performanta esantionului la un item tinand cont de performanta scorurilor din ultima treime sau din prima treime a distributiei totale a scorurilor. Limita pana la care putem considera prima/ultima arie a distributiei scorurilor este valoarea de 27% din scoruri (Kelley, 1939). Indicele de discriminare al unui item este reprezentat de masura diferentei dintre proportia celor care au rezolvat corect itemul si cei care nu au rezolvat corect itemul. Cu cat valoarea lui d este mai mare cu atat este mai mare numarul subiectilor "buni" care au rezolvat itemul. O valoare negativa pentru un d reprezinta o problema a itemului deoarece indica situatia in care cei care au avut o performanta slaba la test rezolva corect itemul. In aceasta situatie se cere revizuirea sau eliminarea itemului.

Exemplu.

Sa presupunem ca un profesor administreaza un test la 119 persoane si selecteaza primele 27% si ultimele 27% din performantele la test, selectand 32 de teste in fiecare grup. In continuare in tabelul 3 sunt prezentate valorile necesare calcului indicelui de discriminare pentru cei 5 itemi ai testului:

Tabelul 2.4. Indicele de discriminare pentru 5 itemi ipotetici ai unui test

IItem

SSuperior (S)

IInferior (I)

S-

n

d = (S-I)/n

Pentru itemul 1 se poate observa ca 20 dintre subiectii care au obtinut performante superioare la test au rezolvat corect itemul, in timp ce 16 dintre cei care au obtinut performante inferioare la test au rezolvat corect itemul. Cu un indice de discriminare de 0.13, itemul 1 poate fi considerat un item bun deoarece mai multi subiecti dintre cei care au obtinut o performanta buna la test, au raspuns corect la item. Se poate observa ca cu cat este mai mare valoarea indicelui de discriminare cu atat itemul separa mai bine categoriile de subiecti si este deci mai discriminativ. Valoarea cea mai mare pe care o poate avea un indice de discriminare este +1 (toti subiectii care au obtinut performanta superioare la test au rezolvat corect itemul); valoarea cea mai mica pe careo poate avea un indice de discriminare al unui item este -1 (nici unul dintre subiectii care au obtinut performante superioare la test nu au rezolvat corect itemul).

Analiza alternativelor de raspuns la itemi

Calitatea fiecarei alternative de raspuns la itemii cu raspunsuri multiple poate fi analizata comparand-o cu performanta obtinuta de subiectii care au avut performante superioare (primii 27%) si cei care au obtinut performante inferioare (ultimii 27%) la un test.

Analiza curbei caracteristice itemului

O modalitate de a afla noi informatii despre comportamentul itemilor este trasarea curbei caracteristice itemului. Astfel, pentru un anumit item vom reprezenta pe axa X scorurile posibile la test, iar pe axa Y proportia persoanelor care au raspuns corect la item.


Figura 2.5. Curba caracteristica a itemului

Scorul total reprezinta nivelul de abilitate al persoanei evaluate, acest nivel nu poate fi masurat, doar estimat pe baza acestui scor. Relatia dintre performanta la unul dintre itemi si cea obtinuta la aplicarea intregului test ne ofera informatii legate de item.

Astfel figura de mai sus reprezinta curba caracteristica a unui item relativ bun, observam cum curba creste pe masura ce creste si scorul total la test, aceasta inseamna ca itemul discrimineaza bine in cazul tuturor nivelelor de performanta.

Sa luam spre exemplu o persoana care are un scor mai mic de 20 puncte, conform curbei (Figura 2.6), aceasta va avea o probabilitate de aproape 40% de a rezolva corect acest item.


Figura 2.6. Curba caracteristica a itemului

In cazul in care scorul este mai mare, de 40 respectiv 65 de puncte, probabilitatea de a raspunde corect este de 50 respectiv 100%.

Un item bun trebuie sa prezinte un asemenea patern de comportament, adica pe masura ce creste nivelul de abilitate a persoanelor testate sa creasca si sansa de a fi rezolvat corect.

In figura 2.7 dorim sa prezentam itemi care prezinta un patern comportamental diferit de cel prezentat anterior. Va rugam sa analizati curba trasata cu linie intrerupta.

 


Figura 2.7. Curba caracteristica a 2 itemi

Observam ca si daca nivelul de abilitate al persoanelor din esantionul nostru creste, probabilitatea de a raspunde corect la acest item este aceeasi, cu alte cuvinte itemul nu ne ofera nici o informatie despre nivelul de abilitate al persoanei care l-a rezolvat (itemul trasat cu linie intrerupta). Este posibil ca acest item sa masoare un alt aspect decat cel pe care il evalueaza ceilalti itemi ai testului.

Spre deosebire de acesta, itemul trasat cu linie neintrerupta este rezolvat numai de persoanele care au un scor brut de cel putin 25 de puncte, probabilitatea de a-l rezolva corect creste apoi treptat impreuna cu nivelul de abilitate. Acest item este de dificultate medie, este putin probabil ca el sa fie rezolvat corect de persoanele cu scor mai mic de 25.

2. Analiza de itemi din perspectiva teoriei raspunsului la item (item response theory - IRT)

Teoria raspunsului la item propune un nou model de explicare si de analiza a itemului si a comportamentului acestuia. Rasch (1960) a fost principalul promotor, care a propus primul model, dupa care acesta a fost dezvoltat si adaptat la diferite situatii de testare.

Aceste modele sunt unidimensionale, adecvate testelor care au ca scop evaluarea unei singure trasaturi latente sau multidimensionale, in cazul testelor care evalueaza mai multe dimensiuni. De asemenea in functie de raspunsul la item dihotomic sau cu mai mute optiuni avem mai multe tipuri de modele. In continuare vom discuta despre modele unidimensionale dihotomice. In cazul modelelor IRT unidimensionale diferentele dintre persoanele care alcatuiesc esantionul pot fi explicate numai pe baza unei singure dimensiuni.

Modelele IRT implica doua asumptii:

Curba caracteristica itemului (item characteristic curve - ICC) trebuie sa aiba o forma specifica (acesta descrie modul in care modificarile la nivelul abilitatii induc modificari la nivelul probabilitatii de aparitie a raspunsului corect);

Trebuie indeplinita conditia de independenta locala (aceasta inseamna ca nu trebuie sa avem corelatie intre itemi, in conditiile in care nivelul de abilitate al persoanelor evaluate este mentinut constant).

Inainte a trece la prezentarea concreta a unui model IRT, dorim sa reamintim modelul care sta la baza teoriei clasice.

Xobservat = Xreal + e (e = eroarea de masura)

Acesta are urmatoarele asumptii:

Valoare expectata a erorii pentru fiacre persoana in parte este 0;

Eroarea nu covariaza cu alte variabile (aceste asumptii sunt importante pentru interpretarea erorii standard de masurare).

Limitele care au fost reprosate acestui model sunt urmatoarele:

sunt mentionate doua variabile independente de care depinde scorul obtinut de o persoana, si anume scorul real si eroarea de masurare, dar acestea nu pot fi separate in mod real in cadrului scorului obtinut de catre o persoana, astfel modelul este util in cadrul realizarii unor estimari la nivel de populatie;

Din acest model sunt omise proprietatile itemului care si ele au un impact asupra scorului persoanei (daca de exemplu toti itemii sunt usori, atunci majoritatea persoanelor vor ave un scor maxim);

Modelele IRT explica performanta la test considerand doi sau mai multi parametrii: nivelul de abilitate al persoanei evaluate, parametrul de dificultate al itemului, parametrul de discriminare, probabilitatea de a ghici raspunsul corect, iata notatiile utilizate.

X is = raspunsul persoanei s la itemul i (care in cazul itemilor dihotomici poate fi 0 sau 1)

p(Xis=1) = probabilitatea ca persoana s sa ofere un raspuns corect la itemul i

θ s = nivelul de abilitate al persoanei s

β i = dificultatea itemului i

α i = discriminarea itemului i

γ i = probabilitatea de a ghici raspunsul corect la itemul i

Vom explicita modelul de masurare utilizat de aceasta abordare prin prezentarea modelului uniparametric 1PL.

p(Xis=1) = 1/(1 + e (-( i

In cadrul acestuia probabilitatea de a raspunde un raspuns corect la un item i, depinde de nivelul de abilitate al persoanei evaluate si de parametrul de dificultate al itemului. Acesta se numeste model uniparametric deoarece este considerat numai un singur parametru al itemului.

Daca analizam acest model la nivel grafic (vezi figura de mai jos, unde pe axa X este reprezentat nivelul de abilitate al persoanei testate , iar pe axa Y probabilitatea de a oferi un raspuns corect la itemii a caror curba este trasata), observam cum curbele caracteristice itemilor au acelasi unghi de inclinare, ceea ce difera este locatia lor de-a lungul nivelului de abilitate, practic aceasta locatie este un indicator al dificultatii itemului. De exemplu itemul trasat cu linie intrerupta (figura 2.8) este rezolvat de persoanele cu un nivel de abilitate de 0 in proportie de aproximativ 55%, in timp ce aceleasi persoane rezolva itemul trasat cu linia punctata in proportie de 20%, deci acesta din urma este mai dificil decat primul.


Figura 2.8. Curba caracteristica a 2 itemi

In cazul acestui model, parametrul de discriminare este mentinut constant (egal cu 1).

In cadrul modelului biparametric - 2PL, este considerat si parametrul de discriminare a itemului. In figura 2.9 prezentam itemi care au acelasi nivel de dificultate, dar care au o discriminare diferita.

p(Xis=1) = 1/(1 + e (- i i


Figura 2.9. Curba caracteristica a 3 itemi

Discriminarea este reprezentata grafic prin gradul de inclinare a curbelor care descriu comportamentul itemului. Un item cu o curba abrupta discrimineaza mai bine comparativ cu un item cu o curba mai domoala. Acest lucru inseamna ca o modificare mica la nivelul abilitatii persoanelor testate va duce la o modificare mare a probabilitatii de a raspunde corect la item. Curba trasata cu linie neintrerupta reprezinta un item care are o discriminare perfecta, deoarece nici o persoana cu un nivel de abilitate mai mic de 0.25 nu va avea sansa de a rezolva acest item, in schimb persoanele cu o abilitate mai mare il vor rezolva.

Modelul tri-parametric - 3PL, introduce si parametrul care permite estimarea sansei de a ghici raspunsul corect la item.

p(Xis=1) = i i)[1/(1 + e (- i i

Probabilitatea de ghici raspunsul corect este vizibila in punctul in care curba caracteristica itemului intersecteaza axa Y. Aceasta inseamna ca si persoanele care au un nivel de abilitate scazut vor rezolva corect itemul, ghicind raspunsul corect (Figura 2.10).Utilizarea unui model 3PL devine necesara mai ales in situatia in care probabilitatea de a ghici raspunsul corect este mare, de exemplu in cazul unui item cu 2 posibilitati de raspuns acesta este de 1 din 2, spre deosebire de cea cu 6 optiuni, in care probabilitatea de a ghici raspunsul corect este semnificativ mai mica, 1 din 6.


Figura 2.10. Curba caracteristica itemului

Aceste modele reflecta modul in care IRT a contribuit la perfectionarea procedurilor de dezvoltare a instrumentelor de masurare, dar analiza atenta a asumptiilor acestora ofera o noua perspectiva asupra vechilor reguli de masurare, asa cum spunea Emreston si Reise (2000).

VALIDITATEA DE CONSTRUCT

Validitatea de construct reprezinta masura in care se poate sustine ca testul masoara o variabila sau o trasatura specifica. In termeni generali "constructul" este sinonim cu acela de concept (Kline, 1992) fiind utilizat pentru a desemna o serie de fenomene intr-un cadru stiintific. El este util atunci cand poate fi operationalizat. Daca luam de exemplu conceptul de "specie", el este extrem de util in investigare si clasificare in stiintele naturii. Cu toate aceste nu exista o entitate distincta pe care putem sa o etichetam "specie", ea nu poate fi deci studiata si observata direct. Este doar o categorie, creata in scopul intelegerii diferitelor tipuri de organisme vii. Constructul este desprins dintr-o teorie psihologica care ofera cadrul menit sa fundamenteze analiza semnificatiei psihologice a rezultatelor la test. Vorbim de validitate relativa la construct in cazul testelor de personalitate.

Pentru a putea fi utilizat si evaluat, un concept trebuie corect si precis operationalizat. Aceasta operationalizare impune descrierea constructului in termeni comportamentali concreti. Murphy & Davidshofer (1991) identifica urmatorii pasi in operationalizarea unui construct:

identificarea comportamentelor care au legatura cu constructul;

identificarea altor constructe, pentru fiecare decizandu-se daca au sau nu legatura cu constructul masurat de test;maIN

alcatuirea pentru fiecare construct a unei liste de comportamente prin care acestea se exprima. Pentru fiecare comportament, pe baza relatiilor dintre constructe se decide daca are sau nu legatura cu constructul masurat de test.

Spunem despre un test ca are validitate convergenta daca evalueaza aceleasi constructe ca si alte teste, adica daca intre scorurile sale si scorurile altor teste exista o relatie functionala. Un test are validitate de discriminare daca evalueaza altceva decat alte teste despre care se stie ca se refera la constructe ce nu au legatura cu constructul masurat de test. Acest lucru inseamna ca intre scorurile la test si scorurile la alte teste sau variabile nu exista o relatie functionala.

Campbell & Fiske (1959) propun ca si metoda de verificare a validitatii convergente si de discriminare a unui test metoda bazata pe matricea "trasaturi multiple-metode multiple" (tabelul 6). Pe baza acestei metode sunt relevati coeficientii de corelatie intre diferite masuratori ale acelorasi constructe, masuratori obtinute prin teste diferite.

Tabelul 2.6. (Campbell & Fiske, 1959). Matrice de tipul "trasaturi multiple-metode multiple"

Metoda 1

Metoda 2

Metoda 3

Trasaturi

A1

B1

C1

A2

B2

C2

A3

B3

C3

A1

Mmetoda 1

B1

C1

A2

Mmetoda 2

B2

C2

A3

Mmetoda 3

B3

C3

Tabelul de mai sus prezinta toate corelatiile posibile intre scorurile obtinute cand sunt evaluate trei trasaturi (A, B, C) prin trei metode / teste. Cele trei trasaturi reprezinta trasaturi de personalitate cum ar fi: (A) dominanta, (B) sociabilitatea, (C) motivatia de realizare. Cele trei metode prin care se evalueaza aceste caracteristici pot fi (1) un chestionar, (2) un test proiectiv, (3) scale de comportament. Astfel A1 indica scorurile la dominanta evaluate pe baza unui chestionar, A2 indica scorurile la dominanta evaluate pe baza unui test proiectiv, iar C3 indica scorurile pentru motivatia de realizare evaluata printr-o scala de comportament. Tabelul include pe de o parte corelatiile intre trasaturi diferite evaluate pe baza aceleiasi metode (chenar intreg) precum si corelatiile intre trasaturi diferite prin metode diferite (chenar intrerupt). Pentru verificarea validitatii convergente in cazul constructului (A) avem urmatorii coeficienti:

.57 metoda 1 cu metoda 2

.56 metoda 1 cu metoda 3

.67 metoda 2 cu metoda 3

Validarea convergenta a unui test este necesara, dar nu si suficienta pentru a dovedi ca testul masoara ceea ce si-a propus; etichetele atribuite testelor reprezinta trasaturile sau caracteristicile pe care testele ar trebui sa le masoare. Corelatia mare intre doua teste inseamna ca testele masoara acelasi lucru, insa nu se poate spune ca itemii cuprinsi in teste sunt reprezentativi pentru constructul pe care testele intentioneaza sa il masoare. Analiza factoriala sau analiza de clusteri efectuata asupra itemilor din testele care evalueaza aceleasi constructe poate ajuta la explicarea corelatiilor dintre scorurile testelor (Albu, 1999).

ANALIZA FACTORIALA

Una dintre metodele utilizate in validara de construct este analiza factoriala. Analiza factoriala este definita ca "un set de proceduri matematice utilizate pentru a identifica dimensiunile care stau la baza uneui set de masuraori empirice". Cel mai adesea este utilizata pentru:

identificarea factorilor care stau la baza performantei la un test de aptitudini

identificarea unor dimensiuni ale personalitatii

identificarea unor sindroame clinice

identificarea factorilor relationati cu satisfactia in munca

In continuare vor fi discutate principalele concepte implicate in analiza factoriala.

Concepte generale

Atributele interne pot fi gandite ca si constructe ipotetice. Ele nu sunt cu necesitate reale sau concrete. Acestea sunt mai degraba constructe care asa cum vom vedea pot fi utilizate pentru a intelege si a explica o serie de fenomene observate. Aceste constructe ipotetice nu trebuie vazute ca o critica a abordarii factoriale. Utilizarea constructelor ipotetice constituie o practica obisnuita in multe domenii ale stiintei. De exemplu, fizicienii utilizeaza o serie de constructe (gravitate, magnetism) pentru a explica o serie de fenomene. Aceste forte reprezinta de fapt constructe neobservabile, a caror existenta a fost inferata pe baza fenomenelor observabile. Aceste constructe, impreuna cu teoriile care le insotesc pot explica o serie de fenomene observabile. Intr-o maniera asemanatoare, analiza factoriala postuleaza ca exista atribute interne neobservabile care pot explica variatia si covariatia dintre o serie de atribute de suprafata, adica acele atribute care pot fi masurate si observate direct.

Un concept teoretic central al analizei factoriale il constituie deci relatia dintre atributele interne si cele de suprafata. Principiul de baza este acela ca atributele interne influenteaza sistematic atributele de suprafata. Acest fapt implica ideea ca atunci cand avem o masura a unui atribut de suprafata, aceasta masura este, cel putin in parte, rezultatul influentei atributelor interne. De exemplu, scorul obtinut de o persoana la un test de adunare (atribut de suprafata) este influentat de aptitudinea numerica (atribut intern). Traditional, aceste relatii dintre atributele de suprafata si cele interne sunt considerate a fi lineare.

In continuare este util sa distingem intre 2 tipuri de atribute interne sau factori: factori comuni si factori specifici. Factorul comun este definit ca un atribut intern care afecteaza /influenteaza mai mult de o variabila de suprafata. De exemplu, daca factorul aptitudine numerica influenteaza mai mult decat o variabila de suprafata (sa presupunem ca influenteaza atat adunarea cat si inmultirea) atunci acesta factor este un factor comun. Factorii specifici influenteaza doar o singura variabila de suprafata; astfel poate exista un numar de factori specifici pentru fiecare variabila de suprafata. Prin schimbarea variabilelor de suprafata factorul comun se poate transforma in factor specific daca se inlatura toate variabilele de suprafata care il alcatuiesc, mai putin una; sau dimpotriva, daca largim bateria, un factor specific se poate transforma intr-un factor comun daca el influenteaza mai multe variabile de suprafata.

In afara celor 2 variabile interne (factorii comuni si specifici) care influenteaza variabilele de suprafata, exista o a treia influenta asupra acestora. Aceasta a treia influenta o constituie erorile de masura asociate observarii atributelor de suprafata. Aceste erori sunt reprezentate in analiza factoriala ca factori aditionali, desi ele nu fac parte din cadrul atributelor interne; adica nu reprezinta caracteristici neobservate ale indivizilor. Mai degraba erorile de masura apar ca rezultat al influentelor datorate masuratorii atributelor de suprafata. Se poate observa relatia directa intre factorii de suprafata si erorile de masura; astfel, cu cat fidelitatea masuratorilor este mai mare cu atat erorile sunt mai mici. Deci, utilizarea unor teste mai putin fidele va influenta erorile de masura, dar nu in mod necesar factorii comuni sau specifici. De asemenea, adaugarea sau inlaturarea unor variabile de suprafata va influenta factorii comuni sau specifici, insa nu va influenta erorile de masura.

Factorii specifici si erorile de masura caracteristice unui set de observatii se pot combina rezultand factori unici. Un factor unic este alcatuit dintr-un factor specific caracteristic unei singure variabile de suprafata precum si din eroarea de masura asociata variabilei de suprafata respective. Factorul unic se va modifica la orice modificare a factorului specific sau a erorii de masura.

Pornind de la aceste definitii ale factorilor, tinand cont de faptul ca factorii influenteaza atributele de suprafata se poate intelege ca factorii se combina pentru a putea explica un anumit nivel al trasaturilor de suprafata. Mai precis, orice nivel al atributelor de suprafata poate fi vazut ca o rezultanta a factorilor relevanti. De exemplu, scorul unei persoane la un test de adunare poate fi vazut ca o rezultanta a factorului comun aptitudine numerica si a factorului specific asociat adunarii. De asemenea, eroarea de masura contribuie la scorul obtinut la testul de adunare. Generalizand putem spune ca diferentele individuale sau varianta atributelor de suprafata poate fi atribuita factorilor adiacenti acestor atribute. Astfel diferentele la nivelul atributelor de suprafata sunt datorate diferentelor la nivelul factorilor ce influenteaza aceste atribute si de asemenea diferentele sunt datorate si erorilor de masura.

Distinctia realizata anterior intre factorii comuni, specifici si eroarea de masura ne ajuta sa intelegem modul in care factorii explica varianta atributelor de suprafata. Este important de retinut faptul ca varianta observata la nivelul atributelor de suprafata poate rezulta din trei surse. O parte din varianta este datorata influentei factorilor comuni - aceasta poarta numele de varianta comuna sau comunalitate. O alta parte din varianta atributelor de suprafata poate fi datorata factorului specific - aceasta varianta este denumita varianta specifica sau specificitate. Cea de-a treia sursa de varianta este datorata erorilor de masura - si este denumita varianta erorii de masura. Varianta specifica este adesea combinata cu varianta erorii de masura si formeaza varianta unica sau unicitatea. Altfel spus, varianta observata la nivelul unui atribut de suprafata este datorata in parte factorilor care influenteaza si alte atribute de suprafata si in parte factorilor care influenteaza doar atributul respectiv.

Printr-o extensie a conceptelor putem spune ca analiza factoriala tine cont si de covarianta dintre variabilele de suprafata. Adesea se poate observa ca variabilele de suprafata dintr-un domeniu specific tind sa coreleze intr-o anumita masura una cu cealalta. Potrivit analizei factoriale aceasta corelatie este datorata influentei factorilor comuni. Deci, o corelatie intre doua variabile de suprafata este datorata dependentei celor doua variabile de unul sau mai multi factori comuni. De exemplu scorul la un test de adunare va tinde sa coreleze pozitiv cu scorul la un test de inmultire deoarece ambele variabile depind de acelasi factor comun - aptitudinea numerica. Din contra insa, rezultatul la testul de adunare va corela mai putin cu rezultatul la un test de citire deoarece cele doua variabile de suprafata sunt influentate de factori comuni diferiti. Putem spune ca nivelul de intercorelatie dintre atributele de suprafata este rezultatul dependentei acestor atribute de aceiasi factori comuni.

Este extrem de important a se retine faptul ca doar factorii comuni pot explica corelatia variabilelor de suprafata; factorii unici nu determina astfel de corelatii. La fel, factorii specifici sau erorile de masura nu pot determina corelatii intre atributele de suprafata deoarece prin definitie ei influenteaza doar o singura variabila de suprafata.

Pentru a sumariza aceste principii putem spune ca intr-un anumit domeniu exista un numar mic de factori comuni care influenteaza un vast numar de atribute de suprafata. Variatia factorilor de suprafata este datorata in parte variatiei factorilor comuni. Ceea ce ramane se datoreaza factorilor unici sau factorilor specifici si erorilor de masura. Covarianta variabilelor de suprafata este atribuita dependentei acestora de aceiasi factori comuni.

In continuare (figura 5) vor fi prezentate conceptele si principiile discutate anterior in forma propusa de Tucker (1940) pentru a ilustra teoria analizei factoriale. In cadrul diagramelor, patratele reprezinta atributele de suprafata, iar cercurile reprezinta atributele interne si alti factori. Sagetile unidirectionale exprima o relatie liniara (printr-un proces cauzal), iar cele bidirectionale reprezinta corelatii fara influenta cauzala.


Figura 2.11. Relatia dintre atributele de suprafata si cei trei tipuri de factori

Este important de retinut faptul ca teoria factoriala este o teorie care explica dinamica si influentele care determina variatia si covariatia atributelor de suprafata.

Obiectivele analizei factoriale

Identificarea factorilor adiacenti variabilelor de suprafata

Obiectivul primar ala analizei factoriale este acela de a determina umarul si natura factorilor comuni precum si modul in care acestia influenteaza atributele de suprafata. Prin identificarea factorilor care explica un mare numar de variabile se pot intelege mai bine datele de care dispunem.

De exemplu o companie aeriana doreste sa studieze aproximativ 50 de variabile pe care le considera importante din puntul de vedere al consumatorului care trebuie sa opteze pentru o companie (variabilele pot fi: respectarea orelor de aterizare /decolare, flexibilitatea orarului, amabilitatea personalului de zbor, facilitatile oferite in timpul zborului, etc.). Daca pe baza analizei factoriale aceste 50 de variabile pot fi explicate pe baza unor factori vom intelege mai bine variabilele fundamentale care stau la baza alegerii facute de consumator.

Screeningul variabilelor

O a doua utilizare a analizei factoriale se refera la analiza pe baza de screening a variabilelor care ulterior pot fi incluse in investigatii statistice ca analiza de regresie. Deoarece analiza factoriala identifica grupe de variabile care sunt corelate intre ele putem opta la alegerea unei singura variabile din fiecare factor si includerea acestei variabile intr-o ecuatie de predictie.

Sumarizarea datelor

O alta aplicatie a analizei factoriale se refera la flexibilitatea de a extrage cati factori se doreste dintr-un set initial de variabile. Primii factori extrasi dintr-un set de variabile explica cea mai mare parte din varianta acestora; cu fiecare extragere ulterioara se obtine tot mai putin.

Selectia variabilelor

AF ne permite extragerea factorilor diferiti dintr-un set de variabile. De exemplu daca se pune problema selectie caracteristicilor definitorii ale unui automobil in vederea constructiei unei reclame ne intereseaza sa pastram un numar de variabile rezonabil pentru a putea construi reclama. Este important insa ca acest variabile selectate sa nu se refere la acelasi factor, ele trebuind sa nu coreleze intre ele.

Luand in considerare aspectele prezentate privind validitatea unui test psihologic, se poate spune ca trebuie sa avem intotdeauna in vedere functia si scopul pe care le va avea testul pentru a putea aprecia corect tipurile de validitate. Exemplul (tabelul 7) urmator ilustreaza modul in care putem privi validitatea unui test de cunostinte la matematica (Anastasi, 1976):

Tabelul 2.7. Tipuri de validitate a unui test de cunostinte matematice. (Anastasi, 1976).

SCOPUL TESTARII

PROBLEMA STUDIATA

TIPUL DE VALIDITATE

Evaluarea cunostintelor de matematica in ciclul primar

Cat de mult a invata elevul din matematica predata?

Validitate de continut

Anticipare a performantelor elevului in gimnaziu

Care vor fi performantele elevului in gimnaziu la matematica?

Validitate predictiva

Psihodiagnosticul dificultatilor de invatare

Care sunt dificultatile specifice pe care le intampina elevul in invatarea matematicii

Validitate concurenta

Evaluarea gandirii logice

Prin ce se caracterizeaza gandirea elevului?

Validitate de construct

EXERCITII

Mai jos sunt prezentate descrierile catorva studii de validare. Cititi fiecare descriere si identificati orice probleme potentiale care ar putea afecta rezultatele.

Un profesor de matematica de la un liceu, face un test pentru a identifica elevii supradotati la matematica si aplica acest test la o suta de elevi din scoala. Cei care vor obtine cel mai mare punctaj la test vor avea posibilitatea sa se inscrie la facultate. La sfarsitul semestrului, profesorul face o corelatie intre scorul obtinut la test si notele obtinute de elevi la matematica. El nu a gasit nici o corelatie semnificativa intre aceste variabile.

Un psiholog industrial face un test pentru a selecta personal pentru un serviciu cleric la o anumita corporatie si cere supraveghetorilor sa noteze muncitorii prezenti pe o scala cu urmatoarele categorii : "peste medie", "mediu", "sub medie". Dupa aceasta psihologul testeaza muncitorii din categoria "peste medie" si "sub medie" si compara mediile celor doua grupuri. In urma analizei psihologul gaseste o diferenta semnificativa in favoarea grupului "peste medie".

Pentru fiecare din urmatoarele situatii indicati ce tip de studiu de validare ar fi cel mai potrivit.

Un psiholog social dezvolta un inventar cu scopul de a identifica peroanele care lucreaza in domeniul sanatatii care prezinta "sindromul de epuizare (burnout)". Pentru a defini sindromul de "burnout" se utilizeaza o varietate de comportamente cum ar fi: absenteismul, esec in a respecta politica firmei, relatii reci cu colegii si sefii etc.

Un psiholog al dezvoltarii specializat in problemele adolescentilor doreste sa dezvolte un inventar care sa se adreseze elevilor din clasele IX - X pentru a prezice cine va trece mai departe in clasele XI-XII.

Un test de aptitudini non-verbale este dezvoltat pentru copiii prescolari cu deficit de auz. Se intentioneaza ca testul sa fie o masura de screening pentru identificarea copiilor care ar putea avea dificultati in invatarea cititului (incadrati intr-o clasa cu copii normali).



Validarea este procesul prin care se obtin informatii legate de validitatea unui test.

American Psychological Association

American Educational Research Association

National Council on Standards for Educational and Psychological Tests

nivelul de abilitate si parametrii itemilor (dificultate, discriminare) pot lua valori intre minus si plus infinit deoarece sunt pe scala logit.



Politica de confidentialitate | Termeni si conditii de utilizare



DISTRIBUIE DOCUMENTUL

Comentarii


Vizualizari: 3328
Importanta: rank

Comenteaza documentul:

Te rugam sa te autentifici sau sa iti faci cont pentru a putea comenta

Creaza cont nou

Termeni si conditii de utilizare | Contact
© SCRIGROUP 2024 . All rights reserved