Bakalárska práca
Dávid Šuba
Základné informácie
Meno študenta: Dávid Šuba
Názov práce: Rozpoznávanie reči v zjednodušenom anglickom jazyku
Vedúci práce: prof. Ing. Igor Farkaš, Dr.
Anotácia: V interakcii človeka s robotickým systémom vzniká prirodzená potreba komunikovať v prirodzenom jazyku, často v nejakej konkrétnej doméne. V súčasnosti existuje niekoľko systémov, najmä pre angličtinu, ktoré sa dajú pre taký účel použiť, prípadne dotrénovať pre potreby užívateľa s cieľom maximalizovať presnosť rozpoznania slov, nezávisle od hovoriaceho.
Cieľ práce:
- Naštudovanie si problematiky rozpoznávannia rečí, princíp skrytých markovovských reťazcov a umelých neurónových sietí v systéme HTK Toolkit.
- Pripravenie dátovej množiny, dotrénovanie a otestovanie systému HTK. (konkrétna množina oznamovacích a príkazových anglických viet týkajúcich sa opisu objektov na scéne, viacero hovoriacich).
- Nasadenie systému do prevádzky.
Harmonogram práce (deadliny):
- 1.11.2018 - Nainštalovanie všetkých potrebných balíčkov a nástroja HTK toolkit, štúdium Markovovských modelov.
- 1.12.2018 - Zoznámenie sa s nástrojom HTK, jeho vnútornej štruktúry a možností. Zbieranie zdrojov.
- 12.1.2019 - Pripraviť dataset na trénovanie. Hotový prototyp natrénovaného systému. Napísaná východisková kapitola práce.
- 1.3.2019 - Ladenie a dotrénovávanie modelu, tzn. zvyšovanie úspešnosti rozpoznávača.
- 1.4.2019 - Testovanie modelu, reálne nasadenie do prevádzky.
Denník práce:
- 21.2-27.2 - Práca na príprave trénovacieho datasetu. Zostrojenie vhodných typov viet, s rovnomerným výskytom žiadaných slov, ktoré sme začali nahrávať a na nich budeme trénovať náš systém. Budovanie gramatiky za pomoci špeciálnych "regulárnych výrazov" pre typy viet, ktoré systém bude rozpoznávať.
- 28.2-6.3 - Príprava testovacieho datasetu. Ďalšie nahrávanie pripravených viet. Label-ovanie časti nahovorených viet, tzn. vytvorenie súborov s časovými intervalmi v nanosekundách, ktoré označujú výskyt jednotlivých slov vo zvukovom súbore. Pomerne stereotypná a zdĺhavá práca, ktorá nám zaberie ešte veľa času.
- 6.3-13.3 - Znova label-ovanie nahovorených viet. Pokusné trénovania modelu. Dosiahnutá úspešnosť okolo 95%, závislých na rečníkovi. Písanie bash scriptu na zautomatizovanie procesu trénovania a python scriptu na hěadanie rozdielov medzi požadovaným výstupom a reálnym výstupom.
- 13.3-20.3 - Rozpoznávanie rečníka, ktorého dáta neboli použité na trénovanie. Dosiahnutá úspešnosť izolovaných slov cca. 67%, viet 55%.
- 20.3-27.3 - Testovanie rozpoznávania nie na vystrihnutých nahrávkach, ale na live vstupe z mikrofónu. Skúšanie automatickej detekcie hlasu. Neuspokojivé výsledky.
- 27.3-3.4 - Doplnenie funkcionality, kde si užívateľ klávesou spustí a zastaví rozpoznávač, na live vstup z mikrofónu použitá knižnica PyAudio.
- 3.4-10.4 - Študovanie VAD(voice activity detection) algoritmov. Techniky STE, ZCR, FFT atď.
- 10.4-17.4 - Kódenie vlastného VAD systému, za pomoci STE - short term energy. Dosiahnuté uspokojivé výsledky.
- 17.4-24.4 - Veľká noc. Prázdniny.
- 24.4-1.5. - Testovanie live systému na nenatrénovaných rečníkoch.
- 1.5.-8.5 - Zvyšovanie úspešnosti zvyšovaním počtu stavov modelov a zvyšovaním počtu gausiánov v jednotlivých stavoch.
- 8.5.-15.5 - Písanie kapitoly o spracovaní signálu - MFCC, LPC, Hammingovo okienko.