Στοιχεία επιβλεπόντων καθηγητών:
Θέμος Σταφυλάκης, Εκλεγμένος Αναπληρωτής Καθηγητής Ο.Π.Α
Περίληψη:
Στον τομέα των προσανατολισμένων διαλογικών συστημάτων, οι προθέσεις συνήθως αποτελούν τα κύρια συστατικά αναγνώρισης. Σε σενάρια του πραγματικού κόσμου, οι προτάσεις των χρηστών συχνά περιλαμβάνουν πολλαπλές προθέσεις, μια πτυχή που συχνά δεν λαμβάνεται υπόψη, με αποτέλεσμα να μην ενσωματώνεται στα περισσότερα σύνολα δεδομένων. Μάλιστα, πρόσφατες προσπάθειες κατασκευής τέτοιων συνόλων δεδομένων, ενισχύουν το κυρίαρχο σενάριο, δηλαδή αυτό της δημιουργίας συνόλου δεδομένων με προτάσεις ενός intent, είτε τείνουν να επικεντρώνονται αποκλειστικά στην απλή περίπτωση της παρατακτικής σύνδεσης δύο εκφωνημάτων μιας πρόθεσης με έναν σύνδεσμο. Ωστόσο, σε πραγματικά σενάρια συνομιλίας, τα δύο εκφωνήματα μπορεί να έχουν τα ίδια αντικείμενα αναφοράς, είτε να μοιράζονται κοινά ρήματα και ουσιαστικά, με αποτέλεσμα να δημιουργούνται αναφορικές, κατηφορικές ή και ελλειπτικές προτάσεις αντίστοιχα. Ο πρωταρχικός στόχος αυτής της διπλωματικής εργασίας είναι να δημιουργήσει ένα σύνολο δεδομένων με πολλαπλά intents που αποτελείται από προτάσεις που περιλαμβάνουν τα φαινόμενα της αναφοράς, της καταφοράς και της έλλειψης. Αυτές οι προτάσεις δημιουργήθηκαν αξιοποιώντας το ήδη υπάρχον σύνολο δεδομένων CLINC150. Επιπλέον, για την κατασκευή των αναφορικών, καταφορικών και ελλειπτικών εκφωνημάτων αξιοποιήθηκε το Σώμα Κειμένων English-Gum. Η ενσωμάτωση, ωστόσο, αυτών των σύνθετων γλωσσικά φαινομένων μέσα στο σύνολο δεδομένων κατέστησε αναγκαία τη δημιουργία του συνόλου δεδομένων χειροκίνητα. Για την αξιολόγηση, λοιπόν, του συνόλου δεδομένων ακολούθησε διαδικασία επισημείωσης, η οποία πραγματοποιήθηκε από Καναδούς φυσικούς ομιλητές της αγγλικής γλώσσας, οι οποίοι προσέφεραν εθελοντικά την γνώση τους ως φυσικοί ομιλητές στην αξιολόγηση μέρους των προτάσεων του συνόλου δεδομένων. Τέλος, πραγματοποιήθηκαν δύο πειράματα ακολουθώντας δύο βασικές προσεγγίσεις αντιμετώπισης πολλαπλών προθέσεων : μια τεχνική μάθησης πολλαπλών κατηγοριών που αντιμετώπιζε τις διπλές προθέσεις ως μια ενιαία οντότητα και μια μέθοδος ταξινόμησης πολλαπλών κατηγοριών βάση ενός κατωφλίου προβλέποντας μονές ή διπλές προθέσεις βασιζόμενη αποκλειστικά στις μονές προθέσεις. Αν και τα πειραματικά αποτελέσματα της πρώτης μεθόδου έδειξαν θετικά αποτελέσματα, συγκριτικά με την μέθοδο ταξινόμησης πολλαπλών κατηγοριών βάση ενός κατωφλιού, εντούτοις, η μεθοδολογία αξιοποίησης αποκλειστικά των μονών προθέσεων για την πρόβλεψη ταυτόχρονα μονών και διπλών προθέσεων μπορεί να αποβεί πιο αποτελεσματική, ειδικά δεδομένης της ανεξαρτησίας τους από τις διπλές προθέσεις στην χρήση τους στο σύνολο εκπαίδευσης.
Λέξεις-κλειδιά:
Σύνολο δεδομένων πολλαπλών προθέσεων, Ταξινόμηση πολλαπλών προθέσεων, διαλογικά συστήματα, αναφορά, καταφορά, έλλειψη