CATEGORII DOCUMENTE
Afaceri Calculatoare Casa masina Didactica pedagogie Diverse Educatie Finante Geografie Istorie & politica Legislatie Limba Management Sanatate Tehnologie

Astronomie	Biofizica	Biologie	Botanica	Carti	Chimie	Copii
Educatie civica	Fabule ghicitori	Fizica	Gramatica	Joc	Literatura romana	Logica
Matematica	Poezii	Psihologie psihiatrie	Sociologie

Concepte si erori in testarea ipotezelor statistice

Matematica

+ Font mai mare | - Font mai mic

DOCUMENTE SIMILARE

CONSTRUCTIA TRIUNGHIURILOR (L.L.L)

VARIANTE DE EXAMEN MATEMATICA

Functii - Operatii cu functii - Monotonia functiilor

Calculul integralei prin metoda Simpson (simpson)

CURBE IN SPATIU

Operatii cu variabile aleatoare discrete

Conditii suficiente pentru extrem

Modelul econometric pentru y

Functiile reale. Notiuni introductive

ECUATIA LAPLACE

Concepte si erori in testarea ipotezelor statistice

In statistica, ipotezele apar intotdeauna in perechi: ipoteza nula si ipoteza alternativa. Ipoteza statistica ce urmeaza a fi testata se numeste ipoteza nula si este notata, uzual, H₀. Ea consta intotdeauna in admiterea caracterului intamplator al deosebirilor, adica in presupunerea ca nu exista deosebiri esentiale. Respingerea ipotezei nule care este testata implica acceptarea unei alte ipoteze. Aceasta alta ipoteza este numita ipoteza alternativa, notata H₁. Cele doua ipoteze reprezinta teorii, mutual exclusive si exhaustive, asupra valorii parametrului populatiei sau legii de repartitie. Spunem ca ele sunt mutual exclusive deoarece este imposibil ca ambele ipoteze sa fie adevarate. Spunem ca ele sunt exhaustive, deoarece acopera toate posibilitatile, adica ori ipoteza nula, ori ipoteza alternativa trebuie sa fie adevarata.

Procedeul de verificare a unei ipoteze statistice se numeste test sau criteriu de semnificatie. O secventa generala de pasi se aplica la toate situatiile de testare a ipotezelor statistice. Ipotezele se vor schimba, tehnicile statistice aplicate se vor schimba, dar procesul ramane acelasi si anume:

1). Se identifica ipoteza statistica speciala despre parametrul populatiei sau legea de repartitie (H₀). Ipoteza statistica numita si ipoteza nula reprezinta status quo-ul, ceea ce este acceptat pana se dovedeste a fi fals.

2). Intotdeauna ipoteza nula este insotita de ipoteza alternativa (de cercetat), H₁, ce reprezinta o teorie care contrazice ipoteza nula. Ea va fi acceptata doar cand exista suficiente dovezi, evidente, pentru a se stabili ca este adevarata.

Dupa natura posibilitatilor de construire a ipotezelor nule si alternative, deosebim ipoteze alternative simple sau compuse. Astfel, daca ipoteza nula consta in afirmatia ca parametrul θ al unei distributii este egal cu o anumita valoare θ₀, iar ipoteza alternativa consta in afirmatia ca parametrul este egal cu θ₁, avem o ipoteza alternativa simpla, iar daca ipoteza alternativa consta in afirmatia ca parametrul θ ia una din mai multe valori, , atunci avem o ipoteza alternativa compusa.

3). Se calculeaza indicatorii statistici in esantion, utilizati pentru a accepta sau a respinge ipoteza nula si se stabileste testul statistic ce va fi utilizat drept criteriu de acceptare sau de respingere a ipotezei nule.

4). Se stabileste regiunea critica, R_c. Regiunea critica reprezinta valorile numerice ale testului statistic pentru care ipoteza nula va fi respinsa. Regiunea critica este astfel aleasa incat probabilitatea ca ea sa contina testul statistic, cand ipoteza nula este adevarata sa fie α, cu α mic (α=0.01 etc). Verificarea ipotezei nule se face pe baza unui esantion de volum n, extras din populatia X, care este o variabila aleatoare. Daca punctul definit de vectorul de sondaj x₁,x_2,.,x_n cade in regiunea critica R_c, ipoteza H₀ se respinge, iar daca punctul cade in afara regiunii critice R_c, ipoteza H₀ se accepta. Regiunea critica este delimitata de valoarea critica, C punctul de taietura in stabilirea acesteia.

In baza legii numerelor mari, numai intr-un numar foarte mic de cazuri punctul rezultat din sondaj va cadea in R_c, majoritatea vor cadea in afara regiunii critice. Nu este insa exclus ca punctul din sondaj sa cada in regiunea critica, cu toate ca ipoteza nula despre parametrul populatiei este adevarata. Cu alte cuvinte, atunci cand respingem ipoteza nula, trebuie sa ne gandim de doua ori, deoarece exista doua posibilitati: ea este falsa intr-adevar si ea este totusi adevarata, desi pe baza datelor din sondaj o respingem.

La fel si pentru situatia in care acceptam ipoteza nula H₀. Cand ipoteza nula nu poate fi respinsa (nu exista suficiente dovezi pentru a fi respinsa), sunt doua posibilitati: ipoteza nula este adevarata si ipoteza nula este totusi falsa, gresita desi nu am respins-o. De aceea, este mai corect sa spunem ca pe baza datelor din esantionul studiat, nu putem respinge ipoteza nula, decat sa spunem ca ipoteza nula este adevarata.

Eroarea pe care o facem eliminand o ipoteza nula, desi este adevarata, se numeste eroare de genul intai. Probabilitatea comiterii unei astfel de erori reprezinta riscul de genul intai (α) si se numeste nivel sau prag de semnificatie.

Nivelul de incredere al unui test statistic este (1-α) iar in expresie procentuala, (1-α)100 reprezinta probabilitatea de garantare a rezultatelor.

Eroarea pe cere o facem acceptand o ipoteza nula, desi este falsa, se numeste eroare de genul al doilea, iar probabilitatea (riscul) comiterii unei astfel de erori se noteaza cu β. Puterea testului statistic este (1-β).

Tabelul 4.5 ilustreaza legatura dintre decizia pe care o luam referitor la ipoteza nula si adevarul sau falsitatea acestei ipoteze.

Erorile in testarea ipotezelor statistice

Decizia de	Ipoteza adevarata
acceptare	H₀	H₁

H₀	Decizie corecta (probabilitate 1-α)	Eroare de gen II (risc β)
H₁	Eroare de gen I (risc α)	Decizie corecta (probabilitate 1-β)

Cu cat probabilitatile comiterii erorilor de genul intai si de genul al doilea sunt mai mici, cu atat testul este mai bun. Acest lucru se poate realiza prin marirea volumului esantionului, n. Nivelurile riscurilor se stabilesc in functie de considerente economice si de natura testului.

Am vazut ca:

α= P(respingere H₀׀ H₀ este corecta)=P(eroare de gen I)

β= P(acceptare H₀׀ H₀este falsa)=P(eroare de gen II)

Alegerea nivelului (pragului) de semnificatie depinde si de costurile asociate cu producerea unei erori de genul I.

Spre exemplu, pragul de semnificatie ales de o firma ce fabrica inghetata, interesata in greutatea medie a cutiilor de inghetata va putea fi diferit de pragul de semnificatie ales de o companie farmaceutica, interesata de cantitatea medie a unui ingredient activ dintr-un tip de medicament. Evident, costul in prima situatie prezentata este mult mai mic, comparativ cu costul asociat in cazul producerii unei erori de genul I pentru compania farmaceutica: o cantitate prea mica de ingredient activ poate face medicamentul ineficient; o cantitate prea mare de ingredient activ poate cauza efecte secundare, daunatoare sau poate avea, chiar, efecte letale.

Similar, exista costuri asociate cu producerea unei erori de genul al II-lea. Intre eroarea de genul I si eroarea de genul al II-lea exista o legatura, o conditionare. O modalitate de a vizualiza aceasta legatura este sa presupunem ca exista doar doua distributii care ne intereseaza. O distributie corespunde ipotezei nule H₀, iar cealalta corespunde ipotezei alternativei H₁. In acest caz, presupunem ca si ipoteza nula si cea alternativa sunt ipoteze simple. Intr-o maniera usor de inteles, sa consideram ca ipoteza nula este de forma H₀: μ=μ₀, iar ipoteza alternativa este de forma H₁:μ=μ₁ (vezi fig):

Legatura dintre probabilitatile α si β

Pe grafic se observa ca cele doua distributii se suprapun si, din procesul de testare a ipotezei nule, pot rezulta doua tipuri de erori.

Eroarea de genul I apare atunci cand respingem ipoteza nula H₀, in situatia in care, de fapt, aceasta este adevarata. Adica, desi distributia lui este cea corespunzatoare ipotezei H₀, respingem H₀, deoarece media de sondaj este mai mare decat valoarea critica, C si se situeaza in regiunea critica. Probabilitatea comiterii unei astfel de erori (a) este aria de sub curba de distributie H₀ care se situeaza la dreapta valorii critice C.

Eroarea de genul al doilea apare atunci cand nu respingem (adica acceptam) H₀, desi H₁ in loc de H₀ este corecta. In acest caz, desi distributia lui este cea corespunzatoare ipotezei H₁, acceptam H₀deoarece media de sondaj este mai mica decat valoarea critica, C (nu se afla in regiunea critica). Probabilitatea comiterii unei astfel de erori (β) este aria de sub curba de distributie H₁ care se situeaza la stanga valorii critice, C.

Daca alegem un prag de semnificatie, α, mai mic (adica reducem riscul comiterii unei erori de genul intai), va creste β ( riscul comiterii unei erori de genul al doilea). Cu toate acestea, prin cresterea volumului n al esantionului, este posibil sa reducem riscul β, fara a creste riscul α.

Cum , o data cu cresterea volumului n al esantionului, abaterile medii patratice ale distributiilor pentru H₀ si H₁ devin mai mici si, evident, atat α, cat si β descresc (vezi fig.).

α si β cand volumul esantionului n' > n

5) Dupa ce am stabilit pragul de semnificatie si regiunea critica, trecem la pasul urmator, in care vom face principalele presupuneri despre populatia sau populatiile ce sunt esantionate (normalitate etc.).

6) Se calculeaza apoi testul statistic si se determina valoarea sa numerica, pe baza datelor din esantion.

7) La ultimul pas, se desprind concluziile: ipoteza nula este fie acceptata, fie respinsa, astfel:

a) daca valoarea numerica a testului statistic cade in regiunea critica (Rc), respingem ipoteza nula si concluzionam ca ipoteza alternativa este adevarata. Vom sti ca aceasta decizie este incorecta doar in 100 α % din cazuri;

b) daca valoarea numerica a testului nu cade in regiunea critica (Rc), se accepta ipoteza nula H₀.

Ipoteza alternativa poate avea una din trei forme (pe care le vom exemplifica pentru testarea egalitatii parametrului "media colectivitatii generale", μ cu valoarea μ₀):

i) sa testam daca parametrul din colectivitatea generala (media μ) este egal cu o anumita valoare (inclusiv zero, μ₀), cu alternativa media diferita de valoarea μ₀. Atunci:

H₀: μ = μ₀

H₁: μ ≠ μ₀ (μ < μ₀ sau μ > μ₀);

si acest test este un test bilateral;

ii) sa testam ipoteza nula μ = μ₀, cu alternativa media μ este mai mare decat μ_0.

H₀: μ = μ₀

H₁: μ > μ₀

care este un test unilateral dreapta;

iii) sa testam ipoteza nula μ = μ₀, cu alternativa media μ este mai mica decat μ_0.

H₀: μ = μ₀

H₁: μ < μ₀

care este un test unilateral stanga.

Regiunea critica pentru testul bilateral difera de cea pentru testul unilateral. Cand incercam sa detectam o diferenta fata de ipoteza nula, in ambele directii, trebuie sa stabilim o regiune critica Rc in ambele cozi ale distributiei de esantionare pentru testul statistic. Cand efectuam un test unilateral, vom stabili o regiune critica intr-o singura parte a distributiei de esantionare, astfel (vezi fig.):

μ μ μ

a) b) c)

Regiunea critica pentru a) test bilateral; b) test unilateral stanga; c) test unilateral dreapta

Testarea ipotezei privind media populatiei generale (μ) pentru esantioane de volum mare

Utilizarea esantioanelor de volum mare (n > 30) face posibila aplicarea teoremei limita centrala. Dupa cum am vazut, putem intalni teste unilaterale sau bilaterale, astfel:

i) in cazul testului bilateral, ipotezele sunt:

H₀: μ = μ₀ (μ

H₁: μ ≠ μ₀ (μ μ₀≠0) (adica μ < μ₀ sau μ > μ₀);

Testarea se face pe baza mediei esantionului si, pentru a o efectua, este nevoie sa construim un test cu un nivel de semnificatie α prestabilit. Utilizand teorema limita centrala am vazut ca daca volumul esantionului este mare, media esantionului este aproximativ normal distribuita. De aceea, variabila aleatoare z urmeaza o distributie normala standard.

Daca pragul de semnificatie (α) este stabilit, putem determina valoarea z_α/2, pentru care P(z> z _α/2)= α/2. Aceasta inseamna ca regiunea critica Rc este data de:

Rc: z< z _α/2 sau z> z _α/2

Regula de decizie este, deci:

Respingem H₀ daca

Exemplu: Presupunem ca un fabricant de materiale de constructii comercializeaza ciment in pungi, care trebuie sa contina 12 kg/punga. Pentru a detecta eventuale abateri in ambele sensuri de la aceasta cantitate, selecteaza 100 de pungi, pentru care calculeaza kg, s_x= 0,5 kg. Pentru α = 0,01 (grad de incredere (1 α)100=99%) sa se determine daca se accepta ipoteza nula, aceea ca greutatea pungilor este in medie de 12 kg.

H₀: μ = 12

H₁: μ ≠ 12 ( μ < 12 sau μ > 12);

z _α/2=z_0,005=2,575

Regiunea critica: z< z _α/2 sau z> z _α/2

Cum z = < 2,575 rezulta ca sunt suficiente evidente pentru a respinge ipoteza nula H₀ si a accepta ipoteza alternativa, aceea ca greutatea pungilor difera, in medie, de 12 kg.

ii) pentru testul unilateral dreapta, ipotezele sunt:

H₀: μ = μ₀ (μ

H₁: μ > μ₀ (μ μ₀>0);

Testul statistic calculat este:

Regiunea critica este data de:

Rc: z > z_α

Regula de decizie este:

Respingem ipoteza H₀ daca

iii) Pentru testul unilateral stanga, ipotezele sunt:

H₀: μ = μ₀ (μ

H₁: μ < μ₀ (μ μ₀<0);

Testul statistic calculat este:

Regiunea critica este data de:

Rc: z < -z_α

Regula de decizie este:

Respingem ipoteza H₀ daca

Sa remarcam ca in nici una dintre aceste situatii nu trebuie facuta o presupunere speciala, deoarece teorema limita centrala ne asigura ca testul statistic va fi aproximativ normal distribuit, indiferent de forma distributiei din colectivitate.

Testarea ipotezei privind diferenta dintre doua medii pentru esantioane de volum mare

Multe cazuri de analiza statistica implica o comparatie intre mediile a doua colectivitati generale. Spre exemplu, un patron al unui restaurant doreste sa vada daca exista diferente intre vanzarile realizate inainte si dupa o campanie de publicitate, un grup de consumatori doreste sa vada daca exista o diferenta semnificativa intre consumul electric pentru doua tipuri de cuptoare cu microunde etc.

In aceste situatii, un estimator al diferentei (μ₁ μ₂) este diferenta dintre mediile esantioanelor ().

Proprietatile distributiei de esantionare a diferentei () sunt:

a) distributia de esantionare pentru () este aproximativ normala pentru esantioane de volum mare (n₁ > 30 si n₂ >

b) media distributiei de esantionare a lui () este (μ_{1 -} μ₂);

c) daca cele doua esantioane sunt independente, abaterea medie patratica a distributiei de esantionare este:

unde si sunt dispersiile celor doua populatii esantionate, iar n₁ si n₂ sunt volumele esantioanelor respective.

Marimea lui indica variabilitatea in valorile , asteptata in distributia de esantionare, datorita intamplarii.

In cazul in care dispersiile celor doua populatii esantionate sunt egale, = =, abaterea medie patratica a distributiei de esantionare va avea forma:

In aceste conditii, ipotezele statistice ce urmeaza a fi testate vor fi:

i) test bilateral

H₀: (μ₁ μ₂) = D

H₁: (μ₁ μ₂) ≠ D

μ₂)>D sau (μ₁ μ₂)<D]

ii) test unilateral dreapta

H₀: (μ₁ μ₂) = D

H₁: (μ₁ μ₂) > D

iii) test unilateral stanga

H₀: (μ₁ μ₂) = D

H₁: (μ₁ μ₂) < D

unde D reprezinta diferenta ipotetica dintre mediile populatiilor, deseori egala cu 0.

Testul statistic utilizat are forma:

Regiunea critica este data de:

i) z< z _α/2 sau z> z _α/2

ii) z> z _α

iii) z< z _α

Exemplu: Managerul unui restaurant doreste sa determine daca o campanie de publicitate a dus la cresterea veniturilor medii zilnice. Au fost inregistrate veniturile pentru 50 de zile inainte de desfasurarea campaniei. Dupa desfasurarea campaniei si trecerea unei perioade de 20 de zile pentru ca aceasta campanie sa isi faca efectul, se inregistreaza veniturile pentru 30 de zile. Aceste doua esantioane vor permite testarea ipotezei privind efectul campaniei asupra veniturilor. Din prelucrarea datelor pentru cele doua esantioane, rezulta:

Inainte de campanie Dupa campanie

n₁=50 n₂=30

mil. lei mil. lei

s₁=2,15 mil. lei s₂=2,38 mil. lei

Dorim sa vedem daca veniturile au crescut (μ₂> μ₁), asadar, vom efectua un test unilateral stanga:

H (μ₁

H μ₁ < μ₂ (μ₁ μ₂ < 0)

Pentru un prag de semnificatie α = 0,05 (probabilitate de garantare a rezultatelor (1 α)100=95%, z_α=z_0,05=1,645. Sa notam ca regiunile critice, pentru cele mai comune valori ale lui α sunt date de (vezi tab.):

Regiumile critice pentru diferite valori a

Test unilateral stanga	Test unilateral dreapta	Test bilateral

z <	z > 1,28	z < sau z > 1,645
z <	z > 1,645	z < sau z > 1,96
z <	z > 2,33	z < sau z > 2,575

Presupunand ca cele doua esantioane (inainte si dupa campanie) sunt independente, vom calcula testul z:

Cum valoarea calculata nu este mai mica decat -z_0,05= -1,645, rezulta ca nu ne aflam in regiunea critica. Esantioanele nu ofera asadar, suficiente dovezi (la α = 0,05) pentru ca managerul restaurantului sa concluzioneze ca veniturile au crescut in urma campaniei de publicitate.

Politica de confidentialitate | Termeni si conditii de utilizare

DISTRIBUIE DOCUMENTUL

Vizualizari: 1810
Importanta:

Comenteaza documentul:

Te rugam sa te autentifici sau sa iti faci cont pentru a putea comenta

Creaza cont nou

Distribuie URL
https://www.scrigroup.com/educatie/matematica/Concepte-si-erori-in-testarea-71238.php

Adauga cod HTML in site
<a href="https://www.scrigroup.com/educatie/matematica/Concepte-si-erori-in-testarea-71238.php" target="_blank" title=" - https://www.scrigroup.com/educatie/matematica/Concepte-si-erori-in-testarea-71238.php">Concepte si erori in testarea ipotezelor statistice</a>

Concepte si erori in testarea ipotezelor statistice

Matematica

DOCUMENTE SIMILARE

Erorile in testarea ipotezelor statistice

Decizia de

Ipoteza adevarata

Legatura dintre probabilitatile α si β

α si β cand volumul esantionului n' > n

DISTRIBUIE DOCUMENTUL

Comenteaza documentul: