Scrigroup - Documente si articole

     

HomeDocumenteUploadResurseAlte limbi doc
AeronauticaComunicatiiElectronica electricitateMerceologieTehnica mecanica


Parametrii semnalelor vorbirii

Comunicatii



+ Font mai mare | - Font mai mic



Parametrii semnalelor vorbirii

1 Compresia si codarea semnalelor audio



Compresia si codarea semnalelor audio constituie o parte importanta a procesarii semnalelor audio si video. Codarea , sinteza si recunoasterea sunt trei domenii cheie in procesarea semnalelor. In cadrul codarii, scopul este de a se obtine o reprezentare digitala compacta a semnalului pentru economia transmisiei sau a stocarii, pentru reducerea ratei de bit.

Cei patru parametri fundamentali ai codarii semnalelor sunt calitatea semnalului, rata de bit, intarzierea de procesare si complexitatea implementarii.

Rata de bit exprimata in biti pe secunda (bps) sau in biti pe esantion este esentiala in codarea semnalelor. In tabelul 6.1 sunt prezentate ratele de esantionare si benzile de frecvente tipice, conform normelor internationale, utilizate in comunicatiile audiovizuale.

Tabel 1.

Format audio

Rata de esantionare

Banda de frecventa

Telefonie

8 KHz

200-3400 Hz

Teleconferinte

16 KHz

50-7.000 Hz

Compact disc (CD)

44,1 KHz

20-20.000 Hz

Banda magnetica digitala

48 KHz

20-20.000 Hz

Calitatea semnalului audio-video este descrisa pe baza unor criterii subiective. Este larg acceptata o scara cu cinci trepte a calitatii semnalelor la care se adauga si masuratori de inteligibilitate.

Intarziereap cesarii este suma intarzierilor care apar in procesele de codare-decodare, in procesele de digitalizare a semnalelor la trnsmiterea in retea s.a.

Complexitatea este masurata atat prin procesele aritmetice necesare algoritmului( masurate in mips-milioane de instructiuni pe secunda) cat si prin cerintele de memorie( kiloocteti de ROM sau RAM) In aplicatii de tipul transmisiilor de radio si TV este in mod special importanta minimizarea complexitatii decoderului. Calitatea este un parametru important de performanta in special pentru nevoia de a minimiza puterea disipata si costul echipamentelor.

Pentru asigurarea acestor cerinte s-a conceput o varietate de sisteme de codare.Pentru toate acestea exista numai doua principii fundamentale de compresie:

a.       eliminarea redundantei de ordin statistic sau determinist din sursa de semnal

b.      adaptarea sistemului de cuantizare la proprietatile sistemului de perceptie uman. In cazul semnalelor de date, compresia se bazeaza in intregime pe eliminarea redundantei.

Semnalele vorbirii au un model universal bine cunoscut de a se produce, ceea ce face posibila o tehnica de reducere a redundante, in primul rand prin codarea cu predictie liniara in domeniul timp.

Sistemul de cuantizare poate fi avantajat in realizarea unei reduceri a ratei de bit, de un fenomen fiziologic, numit mascarea zgomotului. Mascarea este fenomenul prin care un stimul puternic (semnalul util) acopera complet un semnal mai slab ( zgomotul de cuantizare) in vecinatatea lui spectrala sau spatio-temporala. Forma cea mai comuna de codare adaptata la perceptie este cea in care anumite componente selectate dintr-o transformare in domeniul frecventa ( specrele semnalelor cu durata mica) sunt fie cuantizate grosier, fie complet ignorate fara micsorarea calitatii semnalului.

Tehnicile de compresie au condus la reducerea semnificativa a ratei de bit. Aplicatii cu o rata de bit sub 10 kbps, cum sunt vorbirea protejata ( criptata), radio celular, transmisia prin posta electronica a vocii si a imaginii, sunt acum usor de realizat practic. Intre 10 si 20 kbps aplicatiile ajung in aria telefoniei si ale teleconferintei. Intre 20 si 100 kbps se plaseaza cateva aplicatii audio-vizuale incluzand grafica, video Internet, voce prin Internet, muzica la nivel de radiodifuziune. Codoarele cu analiza-prin-sinteza si predictie liniara sunt cele mai utilizate si stau la baza celor mai multe standarde de codare a vorbirii de inalta calitate. Progrese remarcabile in compresia si codarea vorbirii, in adoptarea algoritmilor de codare s-au realizat pe baza modelelor de producere a vorbirii si pe modelele perceptuale ale auzului uman.

2 Extragerea parametrilor semnalului vocal

Dupa cum am spus anterior pentru o analiza corecta a semnalului vocal extragerea parametrilor se va face utilizand ferestruirea si suprapunerea ferestrelor. Parametrii obtinuti sunt fie statici si atunci caracterizeaza cadrul curent, fie dinamici si atunci caracterizeaza mai multe cadre succesive.

Proprietatile statistice ale semnalului vocal.

Semnalul vocal este o realizare particulara a unui proces aleatoriu nestationar, care se supune legilor satatisticii. Se poate vorbi de statistica pe termen lung si    statistica pe termen scurt in functie de intervalele de timp considerate.Semnalul vocal fiind esantionat, estimarea statistica se realizeaza pe esantioane.

Alegerea frecventei de esantionare se face in functie de tipul semnalului, vocal ( semnalul telefonic) sau semnal audio( vorbire plus muzica). Astfel in cazul semnalului telefonic, prin limitarea benzii la 3400Hz. frecventa de esantionare se alege Fe = 8 kHz. In cazul semnalului audio pentru o reprezentare fidela a semnalului pana la 20 kHz, se alege o frecventa de esantionare fe = 58 kHz. Debitul binar( BR-bit rate= fe x N biti/secunda) necesar pentru transmisii va fi si el difert. Astfel, pentru semnalul telefonic cu 8 biti pe esantion, debitul este de 8000x 8 = 64 kbiti/s, iar pentru transmisia sau inregistrarea semnalului audio necesita un debit de 48000x 16 = 768 kbiti/s.

Trebuie subliniat faptul ca semnalul vocal sub forma sa initiala ( analogica) este un semnal aleatoriu, iar prelucrarea digitala se efectueaza asupra semnalului esantionat. Parametrii statistici sunt evaluati pe baza esantioanelor semnalului analogic initial.. Semnalul transmis sau stocat este supus in prealabil la o discretizare a valorilor prin cuantizare.

Statistica semnalului vocal

Pe baza    a numeroase experimente s-a stabilit ca semnalul vocal reprezinta o realizare a unui proces aleatoriu nestationar. Deci, evolutia sa in timp se supune unor legi statistice. In functie de conditiile in care se fac observatiile se pot defini doua regimuri statistice care depind in principal de durata segmentelor de vorbire. Astfel exista :

statistica pe termen lung ( STL), in care caz proprietatile statistice medii ale semnalului vocal sunt estimate pe intervale de timp importante ( cateva zeci de secunde) si mediate pe mai multi vorbitori;

statistica pe termen scurt (STS), constand in evaluarea proprietatilor statistice pe fragmente temporale de numai 10-30 de milisecunde, in decursul carora semnalul poate fi considerat cvasistationar.

In primul caz segmentele de semnal de durata relativ mare( 30-50) secunde sunt realizari ale unui semnal aleatoriu nestationar, pe cand cele pe termen scurt por fi considerate realizari ale unui semnal aleatoriu stationar si ergodic. In ambele cazuri semnalul fiind esantionat cu o frecventa de esantionare compatibila cu teorema lui Shannon, estimarea statistica se efectueaza pe esantioane.

In cazul STL in care numarul de esantioane este de ordinul sutelor de mii , pentru prelucrarea numerica se poate folosi tehnica convolutiei sectionate, iar in cazul STS unde numarul de esantioane este de cel mult 300 se poate folosi transformarea Fourier rapida.

P rincipalii parametri statistici ai semnalului vocal sunt:

1. Densitatea de probabilitate sau densitatea de repartitie ( legea de repartitie a semnalului vocal)

Daca Nξ reprezinta numarul de esantioane ale semnalului x[n],ale caror amplitudini sunt cuprinse in intervalul [ξ-Δξ/2, ξ+Δξ/2], Δξ fiind o abatere relativ mica, iar n є [-N, N], densitatea de probabilitate a semnalului x presupus ergodic si stationar este:

px(ξ) = lim ( Nξ / 2N+1)

Δξ→0N→∞

Estimari experimentale ale acestei densitati, realizate pe segmente de vorbire de ordinul a 50 de secunde si mediate pe cateva zeci de vorbitori, au aratat ca densitatea de probabilitate pe termen lung este apropiata de distributia Gamma de ordinul ½ si de distributia Laplace, distributii cu legi de repartitie simetrice si cu valoare medie nula.

Valoarea medie,notata cu mx este definita prin relatia:

N

mx = lim[1/( 2N+1)] ∑ x[n]

N→∞ n = -N

Pentru semnalul vocal aceasta medie este presupusa nula.

3. Varianta. Pentru semnale discrete cu mx = 0, relatia de definitie este:

N

σ2 x = lim[1/( 2N+1)] ∑ x2 [n]

N→∞ n = - N

Varianta reprezinta energia medie a semnalului discret.

4. Energia semnalului vocal

Prin determinarea energiei unui cadru se poate stabili caracterul sonor sau nesonor al respectivului segment din semnal. Astfel energia alaturi de "numarul de treceri prin zero" este folosita pentru detectia liniste-vorbire. [Balzs 1998] Formula de calcul a energiei este urmatoarea :

unde N reprezinta numarul de esantioane din cadrul curent iar n reprezinta indicele esantionului curent.

Energia din formula anterioara este un parametru static. Dar de asemenea se defineste si o delta-energie care ne da informatii despre dinamica amplitudinii semnalului. Formula de calcul a acesteia este:

unde l reprezinta cadrul curent, si 2K-1 lungimea intervalului de regresiune, cadrul curent fiind exclus. Valorile practice folosite pentru K sunt 1 si

5. Numarul trecerilor prin zero al semnalului vocal.

Numarul trecerilor prin zero este folosit pentru determinarea grosiera a continutului in frecventa a semnalului vocal. Astfel pentru o sinusoida de frecventa f, NTZ va fi 2f. Dupa cum am spus si anterior NTZ impreuna cu energia semnalului vocal se folosesc la detectia liniste vorbire. Caracaterul sonor al unui cadru va fi caracterizat prin NTZ mic si energie mare, iar cel nesonor prin NTZ mare, energie mica.

Formula de calcul a NTZ este:

unde n reprezinta indicele esantionului, iar N reprezinta numarul de esantioane din cadrul curent de analizat.

6. Determinarea frecventei fundamentale.

Acest parametru se defineste doar pentru cadrele vocalice si reprezinta frecventa de rezonanta a corzilor vocale. Determinarea ei este destul de dificila dar o aproximare mai buna se poate face prin mediere aplicata asupra mai multor cadre succesive.

In continuare voi prezenta cele mai utilizate metode de determinare a frecventei fundamentale.

6.1 Metoda autocorelatiei

Asupra fiecarui cadru se aplica o functie de autocorelatie definita dupa formula:

unde n este indicele curent al sample-ului, iar k indicele functiei de autocorelatie avand valori cuprinse intre 1 si N-1.

Daca in cadrul segmentului vocal analizat, semnalul prezinta o anumita periodicitate atunci functia de autocorelatie va prezenta maxime locale la anumita distanta exprimata in numar de sample-uri. Distanta intre doua astfel de maxime va defini frecventa fundamentala.

6.2 Metoda diferentei de amplitudine medie

Aceasta metoda reprezinta o varianta a metodei autocorelatiei, varianta corespunzatoare a functiei nde autocorelatie purtand denumirea de functie de diferenta de amplitudine medie fiind definita de formula:

unde n si k au aceeasi semnificatie ca in cazul functiei de autocorelatie.

Se observa ca daca semnalul este periodic de perioada p atunci S(ip) = 0, unde i = 0, 1, In cazul in care semnalul este unul nestationar, S are valori minime in punctele ip. In acest caz frecventa fundamentala este definita de distanta de la 0 la primul minim local al functiei de diferenta de amplitudine medie.

6.3 Spectrul de amplitudine si de faza al semnalului vocal

Spectrul de amplitudine reprezinta imaginea in frecventa a semnalului electric. Trecerea din domeniul timp in domeniul frecventa se face cu Transformata Fourier Directa (TFD). Trecerea din domeniul frecventa in cel temporal se face cu ajutorul Transformatei Fourier Inverse (TFI).

Forma discreta a TFD este:

iar forma discreta a TFI este

Mai multe despre Tranformata Fourier vor fi prezentate in continuare. Deocamdata trebuie spus ca in functie de scopul urmarit se pot folosi diferite tipuri de spectre. Astfel daca se urmareste recunoasterea vorbirii se foloseste doar spectrul de amplitudine, faza semnalului neprezentand interes datorita faptului ca aceasta nu contine informatie lingvistica. Drept explicatie pentru cele afirmate e situatia in care vorbitorul isi schimba distanta fata de ascultator, atunci faza semnalului vocal se schimba, insa ascultatorul primeste in continuare aceeasi informatie vocala.



Politica de confidentialitate | Termeni si conditii de utilizare



DISTRIBUIE DOCUMENTUL

Comentarii


Vizualizari: 2339
Importanta: rank

Comenteaza documentul:

Te rugam sa te autentifici sau sa iti faci cont pentru a putea comenta

Creaza cont nou

Termeni si conditii de utilizare | Contact
© SCRIGROUP 2024 . All rights reserved