Μονάδα:
Κατεύθυνση Στατιστική και Επιχειρησιακή ΈρευναΒιβλιοθήκη Σχολής Θετικών Επιστημών
Ημερομηνία κατάθεσης:
2023-09-18
Συγγραφέας:
Ζάχαρης Δημήτριος
Στοιχεία επιβλεπόντων καθηγητών:
Απόστολος Μπουρνέτας, Καθηγητής, Τμήμα Μαθηματικών ΕΚΠΑ,
Παναγιώτης Μερτικόπουλος, Καθηγητής Τμήμα Μαθηματικών ΕΚΠΑ,
Αντώνης Οικονόμου, Καθηγητής, Τμήμα Μαθηματικών ΕΚΠΑ
Πρωτότυπος Τίτλος:
Mathematical Models and Algorithms for Contextual Multi-armed Bandit Problems
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Μαθηματικά Μοντέλα και Αλγόριθμοι Προβλημάτων για Παράλληλη Πληροφόρηση
Περίληψη:
Η παρούσα διπλωματική εργασία αναφέρεται σε μια ειδική κατηγορία των προβλημάτων bandit, τα contextual bandits, καθώς και σε αλγορίθμους για προβλήματα εκμάθησης. Τα contextual bandits ανήκουν στον τομέα της ενισχυτικής μάθησης και σε ένα τέτοιο πρόβλημα, ο αλγόριθμος πρέπει να λαμβάνει αποφάσεις για την επιλογή
ενεργειών με βάση τα contexts, τα οποία περιλαμβάνουν πληροφορίες για την τρέχουσα κατάσταση του συστήματος
και πιθανόν προηγούμενα αποτελέσματα που έχουν συλλεχθεί. Στόχος του αλγορίθμου είναι να μάθει μια πολιτική
που, με την πάροδο του χρόνου ,θα επιλέγει ενέργειες με το μεγαλύτερο πιθανό κέρδος.
Στην εργασία θα γίνει αναφορά σε βασικές έννοιες, ορισμούς, παραδείγματα και εφαρμογές σχετικά με τα
προβλήματα bandit. Αφού αναλυθούν τα κυριότερα αποτελέσματα σχετικά με τα stochastic και τα adversarial bandits,
θα εμβαθύνουμε τη διατριβή σε θεωρήματα και αλγορίθμους που αφορούν τα contextual bandits, με έμφαση στον
αλγόριθμο Thompson Sampling. Επίσης θα σχεδιαστούν μελέτες προσομοίωσης για την αξιολόγηση των αλγορίθμων
Thompson και LinUCB σε διάφορες κατηγορίες προβλημάτων ενισχυτικής μάθησης.
Κύρια θεματική κατηγορία:
Θετικές Επιστήμες
Λέξεις-κλειδιά:
Προβλήματα bandit,περιβάλλον,ανταμοιβή,μαθητής,αλγόριθμος δειγματοληψίας Thompson,στοχαστικά bandits,αντίπαλα bandits
Αρ. σελίδων ευρετηρίου:
0
Αρ. βιβλιογραφικών αναφορών:
15