Ανίχνευση Σαρκασμού στο Twitter με την Αξιοποίηση Τεχνικών Βαθιάς Μάθησης

Διπλωματική Εργασία uoadl:3243366 13 Αναγνώσεις

Μονάδα:
Κατεύθυνση Τεχνολογίες Πληροφορικής και Επικοινωνιών
Πληροφορική
Ημερομηνία κατάθεσης:
2022-11-08
Έτος εκπόνησης:
2022
Συγγραφέας:
ΚΑΡΑΝΙΚΑ ΜΑΡΙΝΑ
ΓΕΩΡΓΙΟΥ ΔΗΜΗΤΡΑ
Στοιχεία επιβλεπόντων καθηγητών:
Χριστίνα Κ. Αλεξανδρή, Καθηγήτρια, Τμήμα Γερμανικής Γλώσσας και Φιλολογίας, ΕΚΠΑ
Πρωτότυπος Τίτλος:
Ανίχνευση Σαρκασμού στο Twitter με την Αξιοποίηση Τεχνικών Βαθιάς Μάθησης
Γλώσσες εργασίας:
Ελληνικά
Μεταφρασμένος τίτλος:
Ανίχνευση Σαρκασμού στο Twitter με την Αξιοποίηση Τεχνικών Βαθιάς Μάθησης
Περίληψη:
Η παρούσα έρευνα ασχολείται με το πρόβλημα της ανίχνευσης του σαρκασμού, σε τίτλους ειδήσεων του κοινωνικού δικτύου Twitter.
Η μεταφορική γλώσσα, η οποία αποτελείται από στοιχεία όπως η ειρωνεία, ο σαρκασμός και η σάτιρα, έχει θεωρηθεί διάχυτο φαινόμενο σε πλατφόρμες κοινωνικής δικτύωσης όπως το Twitter (Cambria κ.ά., 2016). Συγκεκριμένα, η σατιρική / σαρκαστική ειδησεογραφία είναι ιδιαίτερα δημοφιλής στα κοινωνικά δίκτυα, στα οποία είναι σχετικά εύκολο να μιμηθεί κανείς μια αξιόπιστη πηγή ειδήσεων, και συχνά μπορεί να συγχέεται με αληθινές ειδήσεις. Η ανίχνευση του σαρκασμού είναι, επομένως, θεμελιώδης για ορισμένες προσεγγίσεις σε πεδία όπως η Ανάλυση Συναισθημάτων, καθώς οι εκφράσεις με ειρωνεία / σαρκασμό μπορούν να παίξουν το ρόλο των αντιστροφέων πολικότητας.
Αρκετές υπολογιστικές προσεγγίσεις των οποίων ο στόχος είναι να εντοπιστεί η ειρωνεία, ο σαρκασμός και η σάτιρα έχουν εμφανιστεί τα τελευταία χρόνια και σε πολλές από αυτές οι όροι θεωρούνται συνώνυμοι. Η παρούσα έρευνα ακολουθεί αυτήν την προσέγγιση. Η σάτιρα είναι ένα σημαντικό γλωσσικό φαινόμενο που αποτελείται από τη χρήση του χιούμορ και της ειρωνείας για την κριτική και τη γελοιοποίηση κάποιου προσώπου ή μιας κατάστασης.
Η σάτιρα ειδήσεων είναι ιδιαίτερα δημοφιλής στα κοινωνικά δίκτυα στα οποία είναι σχετικά εύκολο να μιμηθεί κανείς μια αξιόπιστη πηγή ειδήσεων. Ωστόσο, η σάτιρα ειδήσεων συχνά συγχέεται με αληθινές ειδήσεις, ειδικά όταν διαχωρίζεται από την αρχική της πηγή. Μερικές ελληνικές σατιρικές πηγές ειδήσεων είναι «Το Βατράχι» και «Το Κουλούρι».
Για την ανίχνευση του σαρκασμού στα δεδομένα κειμένου στα ελληνικά, συλλέχθηκαν με
το χέρι, μέσω του Twitter API, τίτλοι ειδήσεων από τις προαναφερθείσες πηγές σατιρικών ειδήσεων καθώς και από τους ειδησεογραφικούς ιστότοπους «CNN Greece» και «HuffPost Greece». Στη συνέχεια, δημιουργήθηκαν 7 μοντέλα νευρωνικών δικτύων τα οποία ήταν ένας συνδυασμός από Νευρωνικά Δίκτυα Μακράς Βραχυπρόθεσμης Μνήμης (LSTM), Αμφίδρομα Δίκτυα Μακράς Βραχύχρονης Μνήμης (BiLSTM), τα οποία τροφοδοτήθηκαν με προ-εκπαιδευμένες αναπαραστάσεις λέξεων (word embeddings). Αυτές οι αναπαραστάσεις έχουν δημιουργηθεί από τα γλωσσικά μοντέλα Word2Vec, FastText και Greek-BERT. Εφαρμόζεται και μία σειρά μεθόδων που χρησιμοποιούνται ως συγκριτικό σημείο αναφοράς (benchmark), όπως οι Bag-of-Words και οι TF-IDF σε συνδυασμό με παραδοσιακούς ταξινομητές μηχανικής μάθησης, όπως η Λογιστική Παλινδρόμηση, ο πολυωνυμικός Naïve Bayes ταξινομητής και Μηχανές Διανυσμάτων Υποστήριξης. Τα μοντέλα αυτά αξιολογήθηκαν με διάφορες μετρικές όπως η ακρίβεια (accuracy) και το F1 Score.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
ανάλυση συναισθήματος, ανίχνευση σαρκασμού, επεξεργασία φυσικής γλώσσας, μηχανική μάθηση, τεχνητά νευρωνικά δίκτυα, βαθιά νευρωνικά δίκτυα, Νευρωνικά Δίκτυα Μακράς Βραχυπρόθεσμης Μνήμης, προ-εκπαιδευμένες αναπαραστάσεις λέξεων, wod2vec, fasttext, BERT, LSTM
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
7
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
112
Αριθμός σελίδων:
105