ZAVISNOST TAČNOSTI PREPOZNAVANJA GOVORNIKA OD IZBORA OBELEŽJA

  • Milan Dobrović Telekom Srbija
  • Vlado Delić Fakultet tehničkih nauka, Univerzitet u Novom Sadu
  • Nikša Jakovljević Fakultet tehničkih nauka, Univerzitet u Novom Sadu
  • Ivan Jokić Fakultet tehničkih nauka, Univerzitet u Novom Sadu
Кључне речи: Automatic Speaker Recognition, Gaussian Mixture Models, Mel-Frequency Cepstral Coefficients, Linear Prediction Coefficients, Perceptual Linear Prediction, Hidden Markov Model, HTK

Сажетак

U ovom radu je dat pregled rezultata eksperimenata koji su imali za cilj utvrđivanje zavisnosti tačnosti prepoznavanja govornika od izbora obeležja. Razmatrana su standardna obeležja poput linearnih i perceptualnih prediktivnih koeficijenta (LPC i PLP), kao i mel-frekvencijski kepstralni koeficijenti (MFCC). Pored toga ispitana je mogućnost primene heteroscedastičke linearne diskriminativne analize (HLDA) kojom bi se povećale razlike između modela govornika. Govornici su modelovani pomoću modela mešavina Gausovih raspodela uz pomoć HTK alata. Uticaj složenosti ovih modela na tačnost prepoznavanja je takođe razmotren u ovom radu. Za obuku i testiranje je korišćeno 30 govornika iz studijske baze S70W100s120. Nešto bolje performanse su pokazali sistemi koji koriste MFCC i PLP obeležja. Primena HLDA je u većini slučajeva doprinela poboljšanju tačnosti pri čemu je to poboljšanje bilo manje što je bila veća tačnost referentnog sistema (sa istim obeležjima bez primene HLDA).
Објављено
2019-01-15
Bрој часописа
Секција
Чланци