Bakalárska práca

Téma

Porovnanie slovných vektorov z hľadiska lexikálnej sémantiky

Autor

Barbora Vicianová

Kontakt

vicianova28@uniba.sk

Školiteľ

Mgr. Endre Hamerlik

Východisková kapitola

Hotová bakalárska práca

Cieľ

Cieľom predmetnej bakalárskej práce je vytvoriť softvérové riešenie (dielo), ktoré bude schopné vyhodnocovať sémantickú podobnosť slovných párov na základe podobnosti embeddingov (vektorových reprezentácii):
statických Word2vec
a kontextuálnych Slovak BERT

Anotácia

Predmetná práca má pomôcť vyhodnotiť psychologické experimenty, kde autori skúmajú sémantickú pamäť a vybavovanie pojmov. V týchto experimentoch participanti zvyčajne generujú slovné odpovede na slovné podnety podľa určitých pravidiel. Výstup z týchto kognitívnych úloh je množina slov), ktoré sú buď vo forme slovných párov resp. "edgelistov" (Podnet->Odpoveď).

Denník

1. týždeň 13.02. - 19.02.2023
Optimalizácia parametrov viacvrstvového perceptronu, ktorý vyhodnocuje semantickú podobnosť slovných párov. Pre Word2vec a aj pre Slovak BERT sa výsledky zlepšili.
2. týždeň 20.02. - 26.02.2023
Vykonala som ďalšie experimenty o tom, ako ovplivňujú rôzne parametre MLP výslednú presnosť a do tabuľky som zhrnula výsledky. Napísala som pár viet o vykonaných experimentov.
3. týždeň 27.02. - 05.03.2023
Pre slová zo súboru ActData.xlsx som získala vektorové reprezentácie, ktoré použijem pre natrénovanie MLP. Pre slová zo súborov na testovanie som získala vektorové reprezentácie, ktoré použijem pre testovane MLP. Prečitala som prácu SlovakBERT: Slovak Masked Language Model a Advances in Pre-Training Distributed Word Representations.
4. týždeň 06.03. - 12.03.2023
Napísala som o Umelej neurónovej sieťe, o aktivačných funkciách (tanh, sigmoid, Relu). Testovala som svoj MLP, spravila som ďalšie úpravy, pridala som early stopping na predchádzanie overfittingu.
5. týždeň 13.03. - 19.03.2023
Napísala som ako funguje forward propagation, backpropagation v ANN. Ďalej som písla o optimalizačnnom algoritme Adam, a o rôznych metódach na predchádzanie overfittingu, ako napríklad: Weight decay, Dropout a Early stopping. Pridala som do svojho MLP dropout a weight decay.
6. týždeň 20.03. - 26.03.2023
Napísala som kapitolu BERT a RoBERTa do východiskovej časti. Pridala som do MLP aby sa vykreslovalo priebeh učenia sa a validacie na dátach. Spúštala som trénovanie s rôznymi hyperparametrami.
7. týždeň 27.03. - 02.04.2023
Napísala som kapitolu SlovakBERT a word2vec do východiskovej časti. Implementovala MLP pre klasifikáciu s viacerými triedami.
8. týždeň 03.04. - 09.04.2023
Napísala som aké výsledky dosiahol MLP v binárnej klasifikácii, vykonala som ešte pár testov. Pridala som Confusion matrix na zobrazenie výsledkov v multi-class klasifikácii.
9. týždeň 10.04. - 16.04.2023
Napísala som aké výsledky dosiahol MLP v multi-class klasifikácii, vykonala som ešte pár testov. Doplnila som kapitolu, kde som písala o výledkoch binárnej klasifikii.
10. týždeň 17.04. - 23.04.2023
Do kapitoly discussion som napísala prečo dosiahol iné výsledky natrénovaný model na druhom type dát. Do kapitoly methods som napísala ako som postupovala pri porovnávaní slovných vektorov pomocou vypočítania vzdialeností.
11. týždeň 24.04. - 30.04.2023
Do kapitoly methods som napísala ako som postupovala pri binárnej klasifikacií a multi-class klasifikácií.