Στοιχεία επιβλεπόντων καθηγητών:
Αντώνης Οικονόμου, Καθηγητής, Τμήμα Μαθηματικών, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών
Περίληψη:
Η Ενισχυτική Μάθηση αποτελεί μια από τις σπουδαιότερες και πιο ανερχόμενες κατηγορίες Μηχανικής Μάθησης, λόγω της μεγάλης ευελιξίας που διαθέτουν οι αλγόριθμοι της, στην διαχείριση μεγάλων χώρων καταστάσεων και άγνωστων πιθανοτήτων μετάβασης, σε προβλήματα που μοντελοποιούνται ως Μαρκοβιανές Διαδικασίες Αποφάσεων. Στόχος της παρούσας εργασίας είναι η παρουσίαση των βασικών αρχών την Ενισχυτικής Μάθησης, δίνοντας έμφαση τόσο στο απαραίτητο μαθηματικό πλαίσιο στο οποίο είναι δομημένη, όσο και σε αλγορίθμους, πολλοί εκ των οποίων υλοποιούνται στο λογισμικό R για την καλύτερη κατανόηση τους. Αν και οι πολύ τεχνικές μαθηματικές αποδείξεις, απουσιάζουν υπό το πρίσμα μιας εισαγωγής, έγινε προσπάθεια ένταξης εκείνων που κατά κύριο λόγο βασίζονται σε επιχειρήματα της Θεωρίας Πιθανοτήτων που συναντάει κανείς και σε προπτυχιακό επίπεδο.
H παρούσα εργασία είναι δομημένη σε 3 Κεφάλαια. Στο Κεφάλαιο 1, γίνεται μια σύντομη επισκόπηση στα 3 βασικότερα είδη Μηχανικής Μάθησης που είναι: η Επιβλεπόμενη Μάθηση, η Μη-Επιβλεπόμενη Μάθηση, και η Ενισχυτική Μάθηση, με σκοπό ο αναγνώστης της εργασίας να μπορεί να διαχωρίζει ποιος είναι ο στόχος του κάθε είδους, και σε ποιες περιπτώσεις το καθένα από αυτά είναι καταλληλότερο. Στο Κεφάλαιο 2, γίνεται μια εισαγωγή σε μια απλουστευμένη υποκατηγορία προβλημάτων Ενισχυτικής Μάθησης γνωστή και ως Multi-Armed Bandits, βασικό χαρακτηριστικό της οποίας είναι ότι η δέσμη των δυνατών αποφάσεων σε κάθε βήμα παραμένει σταθερή. Επίσης στο τέλος του Κεφαλαίου, γίνεται εφαρμογή των αλγορίθμων που διατυπώνονται στο λογισμικό R, με σκοπό την πειραματική επαλήθευση των θεωρητικών τους ιδιοτήτων.
Τέλος, το Κεφάλαιο 3 είναι αφιερωμένο στο γενικότερο πλαίσιο της Ενισχυτικής Μάθησης όπου κάθε κατάσταση χαρακτηρίζεται από το δικό της σύνολο αποφάσεων. Αφού διατυπωθούν με σαφήνεια κρίσιμες έννοιες όπως οι Εξισώσεις του Bellman, οι βέλτιστες συναρτήσεις αξίας, και οι οι βέλτιστες πολιτικές, θα προχωρήσουμε στη διατύπωση κάποιων από τους σημαντικότερους Αλγορίθμους Ενισχυτικής Μάθησης που προσεγγίζουν βέλτιστες πολιτικές, τόσο στην περίπτωση που οι πιθανότητες μετάβασης είναι γνωστές, όσο και στην περίπτωση που είναι άγνωστες.
Λέξεις-κλειδιά:
Ενισχυτική Μάθηση, Μηχανική Μάθηση, Στατιτική, Τεχνητή Νοημοσύνη