Building a Reinforcement Learning A.I. for the Iterated Prisoner's Dilemma using Soar cognitive architecture

Διπλωματική Εργασία uoadl:2778307 129 Αναγνώσεις

Μονάδα:
Κατεύθυνση Φιλοσοφία των Επιστημών και της Τεχνολογίας
Βιβλιοθήκη Σχολής Θετικών Επιστημών
Ημερομηνία κατάθεσης:
2018-07-14
Έτος εκπόνησης:
2018
Συγγραφέας:
Θωμάς Κωνσταντίνος
Στοιχεία επιβλεπόντων καθηγητών:
Αριστείδης Χατζής, Αναπληρωτής Καθηγητής, Τμήμα Ιστορίας και Φιλοσοφίας της Επιστήμης, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών
Γιούλη Φωκά-Καβαλιεράκη, Διδάκτωρ, Τμήμα Ιστορίας και Φιλοσοφίας της Επιστήμης, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών
Χρυσόστομος Μαντζαβίνος, Καθηγητής, Τμήμα Ιστορίας και Φιλοσοφίας της Επιστήμης, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών
Πρωτότυπος Τίτλος:
Building a Reinforcement Learning A.I. for the Iterated Prisoner's Dilemma using Soar cognitive architecture
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Κατασκευή προγράμματος Τεχνητής Νοημοσύνης με Ενισχυτική Μάθηση για το επαναλαμβανόμενο Δίλημμα του Φυλακισμένου, με την γνωστική αρχιτεκτονική Soar
Περίληψη:
Σε αυτή την εργασία φτιάχνουμε ένα πρόγραμμα Τεχνητής Νοημοσύνης το οποίο χρησιμοποιεί Ενισχυτική Μάθηση (Q-Learning) προκειμένου να καταλήξει σε μια αποτελεσματική λύση του επαναλαμβανόμενου Διλήμματος του Φυλακισμένου. Για την κατασκευή του προγράμματος χρησιμοποιούμε την Γνωστική Αρχιτεκτονική Soar. Το πρόγραμμα ξεκινάει το παιχνίδι με μόνη γνώση για τον κόσμο την ύπαρξη των δύο δυνατών κινήσεων του - Συνεργασία ή Προδοσία - και καμία περαιτέρω πληροφορία για τους κανόνες του παιχνιδιού. Καθώς το παιχνίδι εξελίσσεται, το πρόγραμμά μας, κάνοντας αρχικά τυχαίες κινήσεις, πολύ σύντομα αρχίζει να καταλαβαίνει πως να παίξει, μέσω των πόντων που λαμβάνει ως επιβράβευση. Καθώς οι γύροι εκτυλίσσονται, η κατανόηση του ξεπερνάει πια απλώς τους κανόνες του παιχνιδιού και αρχίζει να αναπτύσσει στρατηγικές για το πως να αντιμετωπίσει κάθε διαφορετική αντίπαλη στρατηγική, προκειμένου να αποσπάσει οσο το δυνατόν περισσότερους πόντους απο αυτήν. Αφού το πρόγραμμα μας παίξει μερικές δεκάδες χιλιάδες γύρους, συγκρίνουμε την απόδοσή του με αυτή της πιο αποτελεσματικής γνωστής στρατηγικής του επαναλαμβανόμενου Διλήμματος του Φυλακισμένου - της στρατηγικής Tit for Tat - νικήτρια και των δύο τουρνουά του καθηγητή Axelrod. Τέλος, αναλύουμε την ευριστική στρατηγική στην οποία το πρόγραμμα μας κατέληξε ως την πιο αποτελεσματική και την αντιπαραθέτουμε με τις γνωστές ντετερμινιστικές στρατηγικές του παιχνιδιού.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
Soar, Γνωστική Αρχιτεκτονική, Δίλημμα Φυλακισμένου, Τεχνητή Νοημοσύνη, Μηχανική Μάθηση, Ενισχυτική Μάθηση
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
1
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
22
Αριθμός σελίδων:
60
Soar Thesis - K. Thomas.pdf (1 MB) Άνοιγμα σε νέο παράθυρο