Určovanie pozície prízvuku slov vo zvukovej nahrávke

Autor:

Tatiana Gyurcsovicsová

Vedúci:

RNDr. Marek Nagy, PhD.

Cieľ:

Vytvoriť algoritmus pomocou octave(matlab) aplikácie. Na vstupe je nahrávka reči (ideálne v slovenčine), ktorá bude na výstupe anotovaná. Vyznačené budú jadrá slabík s príznakom prízvuku.

Anotácia:

Správne používanie prízvuku v slovách je dôležité pre porozumenie hovorenej reči. Pre materinský jazyk sa pravidlá osvojujú nevedome. Iné je to v cudzích jazykoch. V slovenčine je prízvuk kladený zväčša na prvej slabike. Toto pravidlo sa však nemôže aplikovať napríklad v angličtine, kde pozícia prízvuku dokonca zmení význam slova. Zistenie polohy pomôže napríklad v aplikáciách, ktoré trénujú správnu výslovnosť, alebo pomôže segmentovať zvuk na menšie úseky, ktoré počítačový rozpoznávač reči identifikuje s vyššou mierou spoľahlivosti.

Časový plán:

Október 2020: Štúdium spracovania digitálneho signálu
November 2020: Príprava a štúdium zdrojov
December 2020: Nájdenie vhodného datasetu
Január 2021: Implementácia prvej metódy
Február 2021: Testovanie metódy
Marec 2021: Implementácia druhej metódy
Apríl 2021: Testovanie metódy
Máj 2021: Vyhodnotenie výsledkov, príprava prezentácie
Octóber 2021: Implementácia tretej metódy
November 2021: Testovanie metódy
December 2021: Zjednotenie metód, vyhodnetenie výsledkov
Január 2022: Príprava prezentácie
Február 2022: Príprava konečného riešenia
Marec 2022: Imprementácia riešenia
Apríl 2022: Vyhodnotenie riešenia, návrh vylepšení
Máj 2022: Príprava prezentácie

Zdroje:

C. Yarra, O. D. Deshmukh and P. K. Ghosh, "Automatic detection of syllable stress using sonority based prominence features for pronunciation evaluation," 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017, pp. 5845-5849, doi: 10.1109/ICASSP.2017.7953277.
S. Narayanan and Dagen Wang, "Speech rate estimation via temporal correlation and selected sub-band correlation," Proceedings. (ICASSP '05). IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005., 2005, pp. I/413-I/416 Vol. 1, doi: 10.1109/ICASSP.2005.1415138.
N. Morgan and E. Fosler-Lussier, "Combining multiple estimators of speaking rate," Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP '98 (Cat. No.98CH36181), 1998, pp. 729-732 vol.2, doi: 10.1109/ICASSP.1998.675368.

Fakulta matematiky, fyziky a informatiky | Tatiana Gyurcsovicsová, 2021