Určovanie pozície prízvuku slov vo zvukovej nahrávke

Autor:

Tatiana Gyurcsovicsová

Vedúci:

RNDr. Marek Nagy, PhD.

Cieľ:

Vytvoriť algoritmus pomocou octave(matlab) aplikácie. Na vstupe je nahrávka reči (ideálne v slovenčine), ktorá bude na výstupe anotovaná. Vyznačené budú jadrá slabík s príznakom prízvuku.

Anotácia:

Správne používanie prízvuku v slovách je dôležité pre porozumenie hovorenej reči. Pre materinský jazyk sa pravidlá osvojujú nevedome. Iné je to v cudzích jazykoch. V slovenčine je prízvuk kladený zväčša na prvej slabike. Toto pravidlo sa však nemôže aplikovať napríklad v angličtine, kde pozícia prízvuku dokonca zmení význam slova. Zistenie polohy pomôže napríklad v aplikáciách, ktoré trénujú správnu výslovnosť, alebo pomôže segmentovať zvuk na menšie úseky, ktoré počítačový rozpoznávač reči identifikuje s vyššou mierou spoľahlivosti.

Časový plán:
  • Október 2020: Štúdium spracovania digitálneho signálu

  • November 2020: Príprava a štúdium zdrojov

  • December 2020: Nájdenie vhodného datasetu

  • Január 2021: Implementácia prvej metódy

  • Február 2021: Testovanie metódy

  • Marec 2021: Implementácia druhej metódy

  • Apríl 2021: Testovanie metódy

  • Máj 2021: Vyhodnotenie výsledkov, príprava prezentácie

  • Octóber 2021: Implementácia tretej metódy

  • November 2021: Testovanie metódy

  • December 2021: Zjednotenie metód, vyhodnetenie výsledkov

  • Január 2022: Príprava prezentácie

  • Február 2022: Príprava konečného riešenia

  • Marec 2022: Imprementácia riešenia

  • Apríl 2022: Vyhodnotenie riešenia, návrh vylepšení

  • Máj 2022: Príprava prezentácie

Zdroje:
  • C. Yarra, O. D. Deshmukh and P. K. Ghosh, "Automatic detection of syllable stress using sonority based prominence features for pronunciation evaluation," 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017, pp. 5845-5849, doi: 10.1109/ICASSP.2017.7953277.

  • S. Narayanan and Dagen Wang, "Speech rate estimation via temporal correlation and selected sub-band correlation," Proceedings. (ICASSP '05). IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005., 2005, pp. I/413-I/416 Vol. 1, doi: 10.1109/ICASSP.2005.1415138.

  • N. Morgan and E. Fosler-Lussier, "Combining multiple estimators of speaking rate," Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP '98 (Cat. No.98CH36181), 1998, pp. 729-732 vol.2, doi: 10.1109/ICASSP.1998.675368.

Fakulta matematiky, fyziky a informatiky | Tatiana Gyurcsovicsová, 2021