Системи за синтезу и препознавање говора (TTS, STT): примена у претраживачу звука Универзитетске бибилотеке “Светозар Марковић”

Адам Софронијевић; Никола Смоленски; Ивана Гавриловић

Адам Софронијевић Univerzitetska biblioteka Beograd
Никола Смоленски Univerzitetska Biblioteka u Beogradu
Ивана Гавриловић Универзитетска библиотека у Београду

Кључне речи: обрада природног језика, синтеза говора, препознавање говора, претрага звучних записа, претрага текста

Сажетак

Овај рад се бави темама: технологија синтезе говора (енг. text-to-speech — TTS) и технологија препознавања говора (енг. Speech-to-Text — STT), са освртом на њихову примену у претраживачу звука Универзитетске библиотеке "Светозар Марковић". У уводном делу се тема разрађује теоретски и из историјске перспективе, почев од механичких уређаја из 18. века, попут Краценштајновог модела вокалног тракта из 1779. године, до савремених система заснованих на вештачкој интелигенцији и дубоком учењу. Поменут је и развој ових технологија за српски језик, од првих система из средине 1980-их до данашњих решења. Рад описује имплементацију претраживача звучних записа са Јутјуб канала Универзитетске библиотеке, који користи Whisper JAX технологију за препознавање говора, достижући тачност препознавања од преко 90%. Детаљно су описани процеси прикупљања метаподатака, транскрипције говора, обраде добијених података и њиховог складиштења у бази података заснованој на Lucene/Solr систему. Систем омогућава претрагу транскрибованог садржаја уз подршку за проналажење сличних речи коришћењем Левенштајнове удаљености, што повећава ефикасност претраге упркос могућим грешкама у препознавању говора. Разматрани су и изазови попут недостатка временских предметних одредница у метаподацима и зависности квалитета препознавања од квалитета изворног снимка. Закључак је да је развијени систем користан алат који олакшава приступ аудио-визуелном садржају библиотеке, уз планове за даљи развој и проширење његове функционалности.