Review of the MuZero Algorithm with Implementation on Quoridor

Πτυχιακή Εργασία uoadl:3393068 55 Αναγνώσεις

Μονάδα:
Τμήμα Πληροφορικής & Τηλεπικοινωνιών
Πληροφορική
Ημερομηνία κατάθεσης:
2024-03-27
Έτος εκπόνησης:
2024
Συγγραφέας:
ΜΥΣΤΡΙΩΤΗΣ ΔΗΜΗΤΡΙΟΣ
Στοιχεία επιβλεπόντων καθηγητών:
Παναγιώτης Σταματόπουλος, Επίκουρος Καθηγητής, Τμήμα Πληροφορικής και Τηλεπικοινωνιών, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών
Πρωτότυπος Τίτλος:
Review of the MuZero Algorithm with Implementation on Quoridor
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Επισκόπηση του Αλγορίθμου MuZero και η Εφαρμογή του στο Quoridor
Περίληψη:
Αυτή η πτυχιακή εργασία πραγματεύεται την ανάπτυξη του αλγορίθμου MuZero από την DeepMind και την εφαρμογή του στο παιχνίδι του Quoridor. Ο αλγόριθμος είναι ένας αλγόριθμος βαθιάς ενισχυτικής μάθησης που επεκτείνει προηγούμενους αλγόριθμους επιτυγχάνοντας εξαιρετική απόδοση στη μάθηση και στον σχεδιασμό. Η βασική διαφορά με τους προγόνους του είναι η ικανότητα λειτουργίας σε πολύπλοκα περιβάλλοντα χωρίς προηγούμενη γνώση. Όλη η γνώση των κανόνων και της δυναμικής του παιχνιδιού μαθαίνεται μέσω των αλληλεπιδράσεων με το περιβάλλον. Ο αλγόριθμος εκπαιδεύεται μέσω του self-play, όπου μαθαίνει παίζοντας παιχνίδια εναντίον του εαυτού του και χρησιμοποιεί τα δεδομένα που δημιουργούνται για να βελτιώσει την απόδοσή του. Η πτυχιακή εργασία εξετάζει επίσης το περιβάλλον του Quoridor, ενός ανταγωνιστικού επιτραπέζιου παιχνιδιού στρατηγικής δύο παικτών, και την εφαρμογή του αλγορίθμου MuZero σε αυτό.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
Μηχανική μάθηση, Ενισχυτική μάθηση, βαθιά μάθηση, νευρωνικά δίκτυα, Μαρκοβιανή διαδικασία απόφασης, αλγόριθμος αναζήτησης δέντρου Monte Carlo, βαθιά ενισχυτική μάθηση, επιτραπέζια παιχνίδια
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
2
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
18
Αριθμός σελίδων:
54
DimitrisMystriotis_ptixiaki_v2.pdf (1 MB) Άνοιγμα σε νέο παράθυρο