Mathematical properties of the Stochastic Approximation and the Multi-Armed Bandit problem

Διπλωματική Εργασία uoadl:2944070 257 Αναγνώσεις

Μονάδα:
Κατεύθυνση Στατιστική και Επιχειρησιακή Έρευνα
Βιβλιοθήκη Σχολής Θετικών Επιστημών
Ημερομηνία κατάθεσης:
2021-04-26
Έτος εκπόνησης:
2021
Συγγραφέας:
Σταμάτης Νικόλαος
Στοιχεία επιβλεπόντων καθηγητών:
Απόστολος Μπουρνέτας (επιβλέπων), Καθηγητής, Τμήμα Μαθηματικών, ΕΚΠΑ
Κωνσταντίνος Μηλολιδάκης, Αν. Καθηγητής, Τμήμα Μαθηματικών, ΕΚΠΑ
Αντώνιος Οικονόμου, Καθηγητής, Τμήμα Μαθηματικών, ΕΚΠΑ
Πρωτότυπος Τίτλος:
Mathematical properties of the Stochastic Approximation and the Multi-Armed Bandit problem
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Μαθηματικές ιδιότητες της Στοχαστικής Προσέγγισης και του προβλήματος προσαρμοστικής βελτιστοποίησης υπό ελλιπή πληροφόρηση
Περίληψη:
Παρά το γεγονός ότι τα νευρωνικά δίκτυα χρησιμοποιούνταν επί δεκαετίες με εντυπωσιακά αποτελέσματα, η ανάπτυξη ενός θεωρητικού υπόβαθρου που θα εξηγούσε αυτήν τους την επιτυχία είναι σχετικά πρόσφατο επίτευγμα. Στο Κεφάλαιο 2, παρουσιάζουμε τα κυριότερα αποτελέσματα που έδωσαν απάντηση σε αυτά τα ερωτήματα. Αποδεικνύουμε το θεώρημα του Cybenko, σύμφωνα με το οποίο κάθε συνεχής και σιγμοειδής συνάρτηση είναι καθολικός προσεγγιστής. Παρουσιάζουμε επίσης αρκετές επεκτάσεις του θεωρήματος αυτού.
Το Κεφάλαιο 3 είναι αφιερωμένο στη μελέτη αλγορίθμων στοχαστικής προσέγγισης, οι οποίοι στοχεύουν στην εύρεση του σταθερού σημείου ενόςτελεστή, όταν οι ακριβείς τιμές που παίρνει δεν είναι γνωστές σε εμάς, αλλά μας αποκαλύπτονται με την παρουσία θορύβου. Παρουσιάζουμε επίσης την απόδειξη του αλγορίθμου της Q-Μάθησης, η οποία αποτελεί γενίκευση μιας μεθόδου που χρησιμοποιείται ευρέως στον κλασσικό δυναμικό προγραμματισμό, της μεθόδου των διαδοχικών προσεγγίσεων, για προβλήματα στα οποία δεν έχουμε γνώση των διαφόρων παραμέτρων (πιθανότητες μετάβασης και δομή κόστους), αλλά αντίθετα μπορούμε μόνο να προσομοιώνουμε παρατηρήσεις από αυτές.
Τέλος, στο Κεφάλαιο 4, μελετάμε το πρόβλημα των multi-armed bandit, το αντικείμενο του οποίου είναι ο προσδιορισμός της πιο κερδοφόρας δράσης από ένα δοσμένο σύνολο, μαζί με την ταυτόχρονη μεγιστοποίηση του αναμενόμενου κέρδους μας σε βάθος χρόνου. Αποδεικνύουμε το φράγμα των Lai-Robbins, σύμφωνα με το οποίο για μια συγκεκριμένη κλάση κατανομών, υπάρχουν όρια στο πόσο γρήγορα μπορούμε να πλησιάσουμε το βέλτιστο κέρδος, ενώ επίσης παρουσιάζουμε και έναν αλγόριθμο που επιτυγχάνει το φράγμα αυτό. Ο αλγόριθμος των Lai-robbins περιέχει αρκετά σκοτεινά σημεία τα οποία προσπαθεί να απλοποιήσει η μέθοδος upper confidence bounds των Auer et al., με την οποία ολοκληρώνουμε την εργασία μας.
Κύρια θεματική κατηγορία:
Θετικές Επιστήμες
Λέξεις-κλειδιά:
καθολική προσέγγιση, νευρωνικά δίκτυα, στοχαστική προσέγγιση, δυναμικός προγραμματισμός, βελτιστοποίηση
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
2
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
52
Αριθμός σελίδων:
161
Nikos Stamatis - Thesis (library).pdf (1023 KB) Άνοιγμα σε νέο παράθυρο