Offensive Language Detection in Tweets Using Machine Learning Methods

Διπλωματική Εργασία uoadl:3242449 133 Αναγνώσεις

Μονάδα:
Κατεύθυνση Γλωσσική Τεχνολογία
Πληροφορική
Ημερομηνία κατάθεσης:
2022-10-30
Έτος εκπόνησης:
2022
Συγγραφέας:
Χριστοδούλου Χριστίνα
Στοιχεία επιβλεπόντων καθηγητών:
Παναγάκης Ιωάννης, Αναπληρωτής Καθηγητής Ε.Κ.Π.Α
Πρωτότυπος Τίτλος:
Offensive Language Detection in Tweets Using Machine Learning Methods
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Εντοπισμός Προσβλητικής Γλώσσας Σε Tweets Χρησιμοποιώντας Μεθόδους Μηχανικής Μάθησης
Περίληψη:
Αναμφίβολα, η προσβλητική γλώσσα έχει γίνει διαδεδομένη στα μέσα κοινωνικής δικτύωσης τα τελευταία χρόνια λόγω της αυξανόμενης δημοτικότητάς τους. Ο αυξανόμενος αριθμός χρηστών που τείνουν να δημοσιεύουν προσβλητικό περιεχόμενο στοχεύοντας σε άτομα ή ομάδες επιφέρει σοβαρές επιπτώσεις όχι μόνο στην ευημερία των ατόμων, αλλά και στην ίδια την κοινωνία. Το γεγονός αυτό έχει προκαλέσει ανησυχία στις κυβερνήσεις, στις εταιρείες μέσων κοινωνικής δικτύωσης, αλλά και στις ακαδημαϊκές και κοινωνικές κοινότητες, οι οποίες έχουν καταβάλει συντονισμένες προσπάθειες για τον περιορισμό διάδοσης της προσβλητικής γλώσσας στο διαδίκτυο και τη δημιουργία ενός ασφαλέστερου διαδικτυακού χώρου. Ωστόσο, παρά τις προσπάθειές τους, η ανάγκη ταχείας επεξεργασίας ογκώδους πληροφορίας για τον εντοπισμό και την αναφορά προσβλητικής γλώσσας έχει καταστήσει την ανάπτυξη συστημάτων μηχανικής μάθησης κάτι παραπάνω από επιτακτική. Συνεπώς, στην παρούσα διπλωματική εργασία, εισάγονται τρία διαφορετικά μοντέλα μηχανικής μάθησης, τα οποία εκτελούν δυαδική ταξινόμηση κειμένου, για τον εντοπισμό προσβλητικής γλώσσας σε αγγλικά δημοσιεύματα κειμένων από το Twitter. Τα προτεινόμενα μοντέλα, τα οποία αποτελούνται από δύο απλούς ταξινομητές και ένα Bidirectional Stacked LSTM, αξιοποιούν τα contextual embeddings που προέρχονται από το BERTLARGE-Uncased με fine-tuning του σε τέσσερα σύνολα δεδομένων εκπαίδευσης συγκεντρωμένα σε ένα. Η διαδικασία προετοιμασίας των δεδομένων περιλαμβάνει καθαρισμό και προ-επεξεργασία των δεδομένων, καθώς και υποδειγματοληψίας των δεδομένων για την αντιμετώπιση της ανισορροπίας των κλάσεων. Η αποτελεσματικότητα των προτεινόμενων μεθόδων αξιολογείται σε δύο διαθέσιμα σύνολα δεδομένων αξιολόγησης, τα OLID 2019 και OLID 2020, με βάση έξι μετρικές, καθώς και τις καμπύλες μάθησης της απώλειας και της ακρίβειας. Η συγκριτική ανάλυση μεταξύ αυτών των μεθόδων αποδεικνύει ότι η συνένωση των τεσσάρων τελευταίων κρυφών επιπέδων του BERT που περνούν σε έναν ταξινομητή υπερτερεί των άλλων μοντέλων επιτυγχάνοντας 77,8% και 86,8% Macro-F1 σκορ στα δύο σύνολα δεδομένων αξιολόγησης αντίστοιχα. Η σύγκριση με προηγούμενες συναφείς μεθόδους αποκαλύπτει ότι, μολονότι τα αποτελέσματα είναι ικανοποιητικά, υπάρχουν περιθώρια για περισσότερο πειραματισμό και βελτίωση στο μέλλον.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
Εντοπισμός Προσβλητικής Γλώσσας, Προσβλητική Γλώσσα, Twitter, Μηχανική Μάθηση, Βαθιά Μάθηση, Επεξεργασία Φυσικής Γλώσσας, Ταξινόμηση κειμένου, Κοινωνικά Δίκτυα, Μέσα Κοινωνικής Δικτύωσης
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
4
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
57
Αριθμός σελίδων:
56
Thesis_Christodoulou_Christina.pdf (2 MB) Άνοιγμα σε νέο παράθυρο