Πέργαμος - Βιβλιοθήκη και Κέντρο Πληροφόρησης Εθνικού και Καποδιστριακού Πανεπιστημίου Αθηνών

Μονάδα:

Κατεύθυνση Γλωσσική Τεχνολογία
Πληροφορική

Ημερομηνία κατάθεσης:

2023-12-05

Έτος εκπόνησης:

2023

Συγγραφέας:

Αρχοντή Βαΐα-Σταυρούλα

Στοιχεία επιβλεπόντων καθηγητών:

Θέμος Σταφυλάκης, Εκλεγμένος Αναπληρωτής Καθηγητής Ο.Π.Α

Πρωτότυπος Τίτλος:

Creation of a Dataset with utterances containing multiple intents including the linguistic phenomena of anaphora, cataphora & ellipsis

Γλώσσες εργασίας:

Αγγλικά
Ελληνικά

Μεταφρασμένος τίτλος:

Δημιουργία ενός συνόλου δεδομένων με εκφωνήματα πολλαπλών προθέσεων που περιλαμβάνουν τα γλωσσολογικά φαινόμενα της αναφοράς, της καταφοράς και της έλλειψης

Περίληψη:

Στον τομέα των προσανατολισμένων διαλογικών συστημάτων, οι προθέσεις συνήθως αποτελούν τα κύρια συστατικά αναγνώρισης. Σε σενάρια του πραγματικού κόσμου, οι προτάσεις των χρηστών συχνά περιλαμβάνουν πολλαπλές προθέσεις, μια πτυχή που συχνά δεν λαμβάνεται υπόψη, με αποτέλεσμα να μην ενσωματώνεται στα περισσότερα σύνολα δεδομένων. Μάλιστα, πρόσφατες προσπάθειες κατασκευής τέτοιων συνόλων δεδομένων, ενισχύουν το κυρίαρχο σενάριο, δηλαδή αυτό της δημιουργίας συνόλου δεδομένων με προτάσεις ενός intent, είτε τείνουν να επικεντρώνονται αποκλειστικά στην απλή περίπτωση της παρατακτικής σύνδεσης δύο εκφωνημάτων μιας πρόθεσης με έναν σύνδεσμο. Ωστόσο, σε πραγματικά σενάρια συνομιλίας, τα δύο εκφωνήματα μπορεί να έχουν τα ίδια αντικείμενα αναφοράς, είτε να μοιράζονται κοινά ρήματα και ουσιαστικά, με αποτέλεσμα να δημιουργούνται αναφορικές, κατηφορικές ή και ελλειπτικές προτάσεις αντίστοιχα. Ο πρωταρχικός στόχος αυτής της διπλωματικής εργασίας είναι να δημιουργήσει ένα σύνολο δεδομένων με πολλαπλά intents που αποτελείται από προτάσεις που περιλαμβάνουν τα φαινόμενα της αναφοράς, της καταφοράς και της έλλειψης. Αυτές οι προτάσεις δημιουργήθηκαν αξιοποιώντας το ήδη υπάρχον σύνολο δεδομένων CLINC150. Επιπλέον, για την κατασκευή των αναφορικών, καταφορικών και ελλειπτικών εκφωνημάτων αξιοποιήθηκε το Σώμα Κειμένων English-Gum. Η ενσωμάτωση, ωστόσο, αυτών των σύνθετων γλωσσικά φαινομένων μέσα στο σύνολο δεδομένων κατέστησε αναγκαία τη δημιουργία του συνόλου δεδομένων χειροκίνητα. Για την αξιολόγηση, λοιπόν, του συνόλου δεδομένων ακολούθησε διαδικασία επισημείωσης, η οποία πραγματοποιήθηκε από Καναδούς φυσικούς ομιλητές της αγγλικής γλώσσας, οι οποίοι προσέφεραν εθελοντικά την γνώση τους ως φυσικοί ομιλητές στην αξιολόγηση μέρους των προτάσεων του συνόλου δεδομένων. Τέλος, πραγματοποιήθηκαν δύο πειράματα ακολουθώντας δύο βασικές προσεγγίσεις αντιμετώπισης πολλαπλών προθέσεων : μια τεχνική μάθησης πολλαπλών κατηγοριών που αντιμετώπιζε τις διπλές προθέσεις ως μια ενιαία οντότητα και μια μέθοδος ταξινόμησης πολλαπλών κατηγοριών βάση ενός κατωφλίου προβλέποντας μονές ή διπλές προθέσεις βασιζόμενη αποκλειστικά στις μονές προθέσεις. Αν και τα πειραματικά αποτελέσματα της πρώτης μεθόδου έδειξαν θετικά αποτελέσματα, συγκριτικά με την μέθοδο ταξινόμησης πολλαπλών κατηγοριών βάση ενός κατωφλιού, εντούτοις, η μεθοδολογία αξιοποίησης αποκλειστικά των μονών προθέσεων για την πρόβλεψη ταυτόχρονα μονών και διπλών προθέσεων μπορεί να αποβεί πιο αποτελεσματική, ειδικά δεδομένης της ανεξαρτησίας τους από τις διπλές προθέσεις στην χρήση τους στο σύνολο εκπαίδευσης.

Κύρια θεματική κατηγορία:

Τεχνολογία – Πληροφορική

Λέξεις-κλειδιά:

Σύνολο δεδομένων πολλαπλών προθέσεων, Ταξινόμηση πολλαπλών προθέσεων, διαλογικά συστήματα, αναφορά, καταφορά, έλλειψη

Ευρετήριο:

Ναι

Αρ. σελίδων ευρετηρίου:

Εικονογραφημένη:

Ναι

Αρ. βιβλιογραφικών αναφορών:

Αριθμός σελίδων:

Αρχείο: