Ανάλυση ελληνικών σωμάτων κειμένων με τη χρήση τεχνικών μηχανικής μάθησης: Υπολογιστική αναπαράσταση της ιδιολέκτου.

Διδακτορική Διατριβή uoadl:2867153 450 Αναγνώσεις

Μονάδα:
Τμήμα Φιλολογίας
Βιβλιοθήκη Φιλοσοφικής Σχολής
Ημερομηνία κατάθεσης:
2019-03-28
Έτος εκπόνησης:
2019
Συγγραφέας:
Περήφανος Κωνσταντίνος
Στοιχεία επταμελούς επιτροπής:
Διονύσιος Γούτσος, Καθηγητής Γλωσσολογίας, Τμήμα Φιλολογίας, Φιλοσοφική Σχολή ΕΚΠΑ
Γεώργιος Μικρός, Καθηγητής Υπολογιστικής Γλωσσολογίας, Τμήμα Ιταλικής Γλώσσας και Φιλολογίας, Φιλοσοφική Σχολή, ΕΚΠΑ
Γεώργιος Μαρκόπουλος, Αναπληρωτής Καθηγητής Γλωσσολογίας, Τμήμα Φιλολογίας, Φιλοσοφική Σχολή ΕΚΠΑ Σπυριδούλα Μπέλλα, Καθηγήτρια Πραγματολογίας, Τμήμα Φιλολογίας, Φιλοσοφική Σχολή ΕΚΠΑ
Σταματία Κουτσουλέλου, Αναπληρώτρια Καθηγήτρια Γλωσσολογίας, Τμήμα Φιλολογίας, Φιλοσοφική Σχολή ΕΚΠΑ
Θεμιστοκλής Παναγιωτόπουλος, Καθηγητής Τεχνητής Νοημοσύνης, Τμήμα Πληροφορικής, Πανεπιστήμιο Πειραιώς
Άγγελος Πικράκης, Επίκουρος Καθηγητής Μηχανικής Μάθησης, Τμήμα Πληροφορικής, Πανεπιστήμιο Πειραιώς
Πρωτότυπος Τίτλος:
Ανάλυση ελληνικών σωμάτων κειμένων με τη χρήση τεχνικών μηχανικής μάθησης: Υπολογιστική αναπαράσταση της ιδιολέκτου.
Γλώσσες διατριβής:
Ελληνικά
Μεταφρασμένος τίτλος:
Ανάλυση ελληνικών σωμάτων κειμένων με τη χρήση τεχνικών μηχανικής μάθησης: Υπολογιστική αναπαράσταση της ιδιολέκτου.
Περίληψη:
Η ιδιόλεκτος, στο πλαίσιο της γλωσσολογίας, αναφέρεται στη μοναδική και ιδιαίτερη χρήση της γλώσσας ενός ατόμου και αποτελεί το αντίστοιχο της κοινωνιολέκτου με σημείο αναφοράς το άτομο. Η έρευνα για την έννοια της ιδιολέκτου στη γλωσσολογία είναι μάλλον περιορισμένη, ειδικά σε ό,τι αφορά την επικύρωσή της με εμπειρικούς τρόπους. Η σχετική έρευνα στη γλωσσολογία σωμάτων κειμένων και στην υφομετρία έχει επίσης περιορισμούς που αφορούν είτε τον αριθμό των υπό εξέταση συγγραφέων (μικρότερος των 10) είτε τον αριθμό των όρων του λεξιλογίου που χρησιμοποιούνται στην εξέταση της ιδιολεκτικής ομοιότητας (περί των 310 λειτουργικών λέξεων). Η παρούσα διατριβή χρησιμοποιεί κατανεμημένες αναπαραστάσεις (λεξικές ενθέσεις) για την ανάλυση κειμένων χρηστών κοινωνικών δικτύων, τα οποία θεωρείται ότι αντανακλούν το ιδιαίτερο προσωπικό ύφος κάθε συγγραφέα. Τα δεδομένα στα οποία βασίζεται η διατριβή αποτελούνται από ένα σώμα κειμένων του Twitter στα ελληνικά, που προέρχεται από 4.949 χρήστες από το 2009 έως το 2016 (περίπου 325 εκ. λέξεις), και το σώμα κειμένων Blog Authorship Corpus για σύγκριση και επαλήθευση. Με αφετηρία την Κατανεμητική Υπόθεση του Zellig Harris, σύμφωνα με την οποία σημασιολογικά παρόμοιες λέξεις τείνουν να εμφανίζονται σε παρόμοια περικείμενα, η έννοια της λεξικής ένθεσης αποτελεί τη βάση σύνθεσης υφολογικών ενθέσεων, παρέχοντας έτσι τη δυνατότητα να απαντηθεί το ερώτημα της ύπαρξης ιδιολέκτου και παρέχοντας έτσι ένα υφολογικό αποτύπωμα των υπό εξέταση συγγραφέων. Στη διατριβή εξετάζεται και συγκρίνεται η απόδοση διαφόρων μοντέλων κατασκευής κατανεμητικών αναπαραστάσεων. Πιο συγκεκριμένα, χρησιμοποιούνται λεξικές ενθέσεις που παράγονται από Νευρωνικά Γλωσσικά Μοντέλα (word2vec, doc2vec, fastText), καθώς και μοντέλα που προκύπτουν από παραγοντοποίηση πινάκων συνεμφάνισης όρων (GloVe). Τα επιλεγμένα μοντέλα εφαρμόζονται σε όλο το λεξιλόγιο των υπό εξέταση κειμένων και συνεπώς δεν περιορίζονται σε περιορισμένο λεξιλόγιο και ταυτόχρονα είναι εύκολα επεκτάσιμα σε σώματα κειμένων δεκάδων χιλιάδων συγγραφέων. Στην παρούσα διατριβή βρέθηκε ότι οι λεξικές ενθέσεις α) μπορούν να χρησιμοποιηθούν ως δομικό συστατικό αναπαράστασης του ατομικού κειμενικού ύφους και β) οι ιδιολεκτικές ενθέσεις παρέχουν τη δυνατότητα συσταδοποίησης ιδιολεκτικής ομοιότητας, δημιουργώντας έτσι ομάδες παρόμοιου ύφους, καθώς επίσης και μέτρα αποτίμησης της σταθερότητας του κειμενικού ύφους στο πέρασμα του χρόνου. Τα ευρήματα αυτά έχουν σημαντικές εφαρμογές σε πεδία όπως η αναγνώριση συγγραφέα, η ανίχνευση λογοκλοπής, η ανίχνευση διαδικτυακής παρενόχλησης και κακοποίησης. Επιπλέον, η παρούσα διατριβή είναι η πρώτη εκτεταμένη μελέτη της ιδιολέκτου στην ελληνική γλώσσα με τη χρήση τεχνικών μηχανικής μάθησης, γεγονός που υποδηλώνει ότι οι λεξικές ενθέσεις μπορούν να εφαρμοστούν με επιτυχία σε ευρύ φάσμα ερευνητικών περιοχών που αφορούν την ελληνική γλώσσα.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
Σώματα κειμένων, Ιδιόλεκτος, Μηχανική Μάθηση, Νευρωνικά Δίκτυα, Λεξικές Ενθέσεις
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
4
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
199
Αριθμός σελίδων:
217
phd_perifanos_final.pdf (4 MB) Άνοιγμα σε νέο παράθυρο