Bakalárska práca

Základné informácie

Meno študenta: Dávid Šuba

Názov práce: Rozpoznávanie reči v zjednodušenom anglickom jazyku

Vedúci práce: prof. Ing. Igor Farkaš, Dr.

Anotácia: V interakcii človeka s robotickým systémom vzniká prirodzená potreba komunikovať v prirodzenom jazyku, často v nejakej konkrétnej doméne. V súčasnosti existuje niekoľko systémov, najmä pre angličtinu, ktoré sa dajú pre taký účel použiť, prípadne dotrénovať pre potreby užívateľa s cieľom maximalizovať presnosť rozpoznania slov, nezávisle od hovoriaceho.

Cieľ práce:

Naštudovanie si problematiky rozpoznávannia rečí, princíp skrytých markovovských reťazcov a umelých neurónových sietí v systéme HTK Toolkit.
Pripravenie dátovej množiny, dotrénovanie a otestovanie systému HTK. (konkrétna množina oznamovacích a príkazových anglických viet týkajúcich sa opisu objektov na scéne, viacero hovoriacich).
Nasadenie systému do prevádzky.

Harmonogram práce (deadliny):

1.11.2018 - Nainštalovanie všetkých potrebných balíčkov a nástroja HTK toolkit, štúdium Markovovských modelov.
1.12.2018 - Zoznámenie sa s nástrojom HTK, jeho vnútornej štruktúry a možností. Zbieranie zdrojov.
12.1.2019 - Pripraviť dataset na trénovanie. Hotový prototyp natrénovaného systému. Napísaná východisková kapitola práce.
1.3.2019 - Ladenie a dotrénovávanie modelu, tzn. zvyšovanie úspešnosti rozpoznávača.
1.4.2019 - Testovanie modelu, reálne nasadenie do prevádzky.

Denník práce:

21.2-27.2 - Práca na príprave trénovacieho datasetu. Zostrojenie vhodných typov viet, s rovnomerným výskytom žiadaných slov, ktoré sme začali nahrávať a na nich budeme trénovať náš systém. Budovanie gramatiky za pomoci špeciálnych "regulárnych výrazov" pre typy viet, ktoré systém bude rozpoznávať.
28.2-6.3 - Príprava testovacieho datasetu. Ďalšie nahrávanie pripravených viet. Label-ovanie časti nahovorených viet, tzn. vytvorenie súborov s časovými intervalmi v nanosekundách, ktoré označujú výskyt jednotlivých slov vo zvukovom súbore. Pomerne stereotypná a zdĺhavá práca, ktorá nám zaberie ešte veľa času.
6.3-13.3 - Znova label-ovanie nahovorených viet. Pokusné trénovania modelu. Dosiahnutá úspešnosť okolo 95%, závislých na rečníkovi. Písanie bash scriptu na zautomatizovanie procesu trénovania a python scriptu na hěadanie rozdielov medzi požadovaným výstupom a reálnym výstupom.
13.3-20.3 - Rozpoznávanie rečníka, ktorého dáta neboli použité na trénovanie. Dosiahnutá úspešnosť izolovaných slov cca. 67%, viet 55%.
20.3-27.3 - Testovanie rozpoznávania nie na vystrihnutých nahrávkach, ale na live vstupe z mikrofónu. Skúšanie automatickej detekcie hlasu. Neuspokojivé výsledky.
27.3-3.4 - Doplnenie funkcionality, kde si užívateľ klávesou spustí a zastaví rozpoznávač, na live vstup z mikrofónu použitá knižnica PyAudio.
3.4-10.4 - Študovanie VAD(voice activity detection) algoritmov. Techniky STE, ZCR, FFT atď.
10.4-17.4 - Kódenie vlastného VAD systému, za pomoci STE - short term energy. Dosiahnuté uspokojivé výsledky.
17.4-24.4 - Veľká noc. Prázdniny.
24.4-1.5. - Testovanie live systému na nenatrénovaných rečníkoch.
1.5.-8.5 - Zvyšovanie úspešnosti zvyšovaním počtu stavov modelov a zvyšovaním počtu gausiánov v jednotlivých stavoch.
8.5.-15.5 - Písanie kapitoly o spracovaní signálu - MFCC, LPC, Hammingovo okienko.