Bakalárska práca

Autor: Patrik Filipiak
Názov: Učenie posilňovaním v doméne symetrických hier
Školiteľ: doc. Ing. Peter Lacko, PhD.
Cieľ: Preskúmajte existujúce prístupy učenia posilňovaním a vybraný prístup aplikujte na zvolenú hru. Zamerajte sa na rýchlosť učenia a kvalitu nájdenej stratégie.
Kontakt: filipiak2@uniba.sk
Anotácia: Hlboké architektúry neurónových sietí preukázali schopnosť napodobňovať ľudí pri rôznych úlohách (rozpoznávanie obrazu, opis scény, alebo hranie hier). Veľký nárast výkonu grafických čipov nám umožňuje vytvárať a trénovať hlbšie a zložitejšie architektúry, ktoré zvyšujú úspešnosť umelých neurónových sietí. Učenie posilňovaním získava popularitu v doméne umelej intelligence. Stavový priestor väčšiny doskových hier je natoľko veľký, že klasické symbolické prístupy umelej inteligencie ho nedokážu efektívne prehľadávať. Preto je zaujímavé skúmať možnosť emergencie stratégie hry pri učení posilňovaním s využitím hlbokých architektúr neurónových sietí.

Denník:
25.2. Existujúce prostredie na, učenie agentov hranie šachu, z knižnice Pettingzoo, prerábam na účely mne vybranej stolnej hry Halma.
3.3. Prostredie som prerobil, už funguje hra dvoch náhodných agentov, teraz treba dosadiť samotné učenie.
10.3. Vyladené chyby spôsobované tvarmi násobených matíc pri zobrazovaní hry naučeného agenta.
17.3. Učenie spustené na dlhší čas s roznymi reward funciami, ale zatiaľ neúspešne. Po dlhšom učení sa agent zasekne a hýbe s jednou figúrkou hore dole.
24.3. Prerobenie hry na verziu s menej figúrkami a zmenenou podmienkou výhry za účelom testu učenia, ale stále pretrváva rovanký problém.
31.3. Opravená chyba kde sa agent zasekne a hýbe ibe jednou figúrkou a úspešné naučenie agenta vyhrať hru s 3 figúrkami proti náhodnému protivníkovi.
7.4. Pridaná knižnica Plotly na kreslenie grafov pre lepšiu vizualizáciu učenia. Pokus o pokračovanie učenia pustením hry natrénovaného agenta sám proti sebe.
14.4. Prišiel som na to ako zariadiť aby sa počiatočné váhy v neurónke nastavovali náhodne, lebo tam bol deafult a teda učenie prebiehalo stále rovnako. Okrem toho som začal písať prehľadovú kapitolu.
21.4. Písanie prehľadovej kapitoly.
28.4. Vznikol problém s algoritmami inými ako Deep Q-network. Nechcú fungovať, snažím sa ich opraviť.
5.5. Navrhli sme nový cieľ práce, namiesto porovnávania rôznych algoritmov budeme porovnávať výkon algoritmu Deep Q-network pri použití rôznych hyperparametrov a reward funkcií.

Text:
Doposiaľ napísaný text

Screenshoty prototypu:
Prebiehajúca hra medzi dvoma naučenými verziami programu
Rozohratá hra


Graf znázorňujúci dosiahnutú odmenu agenta počas 10 epoch učenia
Graf

Bibliografia:
Greg Brockman, Vicki Cheung, Ludwig Pettersson, Jonas Schneider, John Schulman, Jie Tang, and Wojciech Zaremba. Openai gym, 2016. https://github.com/openai/gym.

Issam El Naqa, Ruijiang Li, and Martin Murphy. Machine Learning in Radiation Oncology: Theory and Applications. 01 2015.

Charlie Giattino, Edouard Mathieu, Veronika Samborska, and Max Roser. Artificial intelligence. Our World in Data, 2023. https://ourworldindata.org/artificialintelligence.

David Heath and Derek Allum. The historical development of computer chess and its impact on artificial intelligence. In Proceedings of the 4th AAAI Conference on Deep Blue Versus Kasparov: The Significance for Artificial Intelligence, AAAIWS’97-04, page 63–68. AAAI Press, 1997.

Qiong Liu and Ying Wu. Supervised learning. 01 2012.

Martin Müller. Computer go. Artificial Intelligence, 134(1):145–179, 2002.

Vladimir Nasteski. An overview of the supervised machine learning methods. Horizons. b, 4:51–62, 2017.

Antonin Raffin, Ashley Hill, Adam Gleave, Anssi Kanervisto, Maximilian Ernestus, and Noah Dormann. Stable-baselines3: Reliable reinforcement learning implementations. Journal of Machine Learning Research, 22(268):1–8, 2021.

David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot, Laurent Sifre, Dharshan Kumaran, Thore Graepel, et al. Mastering chess and shogi by self-play with a general reinforcement learning algorithm. arXiv preprint arXiv:1712.01815, 2017.

David Silver, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert, Lucas Baker, Matthew Lai, Adrian Bolton, 25 et al. Mastering the game of go without human knowledge. nature, 550(7676):354– 359, 2017.

David J. Staley. Digital historiography: Kasparov vs. deep blue. Michigan Publishing, 3(2), 2000.

Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction. The MIT Press, Cambridge, Massachusetts, second edition, 2018.

Maciej Świechowski, Konrad Godlewski, Bartosz Sawicki, and Jacek Mańdziuk. Monte carlo tree search: A review of recent modifications and applications. Artificial Intelligence Review, 56(3):2497–2562, 2023.

Jordan Terry, Benjamin Black, Nathaniel Grammel, Mario Jayakumar, Ananth Hari, Ryan Sullivan, Luis Santos, Rodrigo Perez, Caroline Horsch, Clemens Dieffendahl, Niall Williams, and Yashas Lokesh. PettingZoo: Gym for multi-agent reinforcement learning.

Wu Yisi, Mohd Nor Akmal Khalid, and Hiroyuki Iida. Analyzing the sophistication of chinese checkers. Entertainment Computing, 34:100363, 2020.

Jie Zhu, Fengge Wu, and Junsuo Zhao. An overview of the action space for deep reinforcement learning. ACAI ’21, New York, NY, USA, 2022. Association for Computing Machinery