Hate Speech Detection using different text representations in online user comments

Διπλωματική Εργασία uoadl:2800879 393 Αναγνώσεις

Μονάδα:
Κατεύθυνση / ειδίκευση Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ)
Πληροφορική
Ημερομηνία κατάθεσης:
2018-10-05
Έτος εκπόνησης:
2018
Συγγραφέας:
Θεμελή Χρυσούλα
Στοιχεία επιβλεπόντων καθηγητών:
Παναγιώτης Σταματόπουλος, Επίκουρος Καθηγητής, Τμήμα Πληροφορικής και Τηλεπικοινωνιών, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών
Πρωτότυπος Τίτλος:
Hate Speech Detection using different text representations in online user comments
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Εντοπισμός ρητορικής μίσους σε σχόλια χρηστών στο διαδίκτυο με χρήση διαφορετικών αναπαραστάσεων
Περίληψη:
Η ρητορική μίσους αφορά την διατύπωση προσβολών, απειλών ή στερεοτυπικών απόψεων
απέναντι σε μια ομάδα ανθρώπων εξαιτίας κάποιου χαρακτηριστικού όπως η καταγωγή,
το φύλο, η θρησκεία, οι σεξουαλικές προτιμήσεις κλπ. Τέτοιου είδους επιθέσεις είναι
εκτός νόμου σε όλες τις σύγχονες και ανεπτυγμένες κοινωνίες, πχ ΗΠΑ, ΕΕ. Παρόλα
αυτά το Διαδίκτυο και ιδιαίτερα οι πλατφόρμες κοινωνικής δικτύωσης δίνουν τη δυνατότητα
διάδοσης τέτοιου είδους περιεχομένου εύκολα, γρήγορα και ανώνυμα. Έτσι, σε συνδυασμό
με τη σημερινή οικονομική κρίση που ευνοεί την ανάπτυξη τέτοιων απόψεων, παρατηρούμε
μια έξαρση του φαινομένου που δίνει τη δυνατότητα ο λόγος αυτός να φτάσει ένα πολύ
μεγαλύτερο αριθμό ανθρώπων απ’ ότι στο παρελθόν. Ο τεράστιος αριθμός των δεδομένων
που παράγονται στις παραπάνω πλατφόρμες καθιστά αδύνατο τον εντοπισμό αναρτήσεων
από κάποιον διαχειριστή σελίδας ή από αναφορές χρηστών, κάνοντας αναγκαία τη χρήση
αυτόματων εργαλείων εντοπισμού ρητορικής μίσους. Στα πλαίσια αυτής της εφαρμογής,
στην παρούσα εργασία μελετάμε πολλαπλές τεχνικές αναπαραστάσεων κειμένου (Bag
of Words, Bag of word/character n-grams, sentiment, syntax and grammar analysis features,
word embeddings και n-gram graphs), καθώς και πληθώρα ενώ οι αλγορίθμων
ταξινόμησης (Naive Bayes, Logistic Regression, Random Forests, K-Nearest Neighbors
και Artificial Neural Networks). Υλοποιήσαμε πειράματα τόσο για δυαδική ταξινόμηση,
όπου ο σκοπός του μοντέλου είναι η απόφαση εάν το κείμενο εισόδου περιέχει ρητορική
μίσους ή όχι, όσο και για κατηγοριοποίηση πολλαπλών κλάσεων, όπου ο ταξινομητής
προσπαθεί να διαχωρίσει μεταξύ διαφορετικών ειδών ρητορικής μίσους (π.χ. σεξισμός,
ρατσισμός, κ.α.). Στόχος μας είναι να εξετάσουμε την απόδοση της κάθε τεχνικής αναπαρά-
στασης και ταξινόμησης και να αναδείξουμε τις μεθόδους με την καλύτερη απόδοση.
Επιπλέον, εξετάσαμε κατά πόσο οι συνδυασμοί διαφόρων τεχνικών αναπαράστασης κειμέ-
νων επιτυγχάνουν καλύτερα αποτελέσματα από τη μεμονωμένη χρήση τους. Τέλος, δεί-
χνουμε ότι η χρήση των n-gram graphs, που αναπαρίστανται από ένα διάνυσμα μικρών
διαστάσεων, μπορεί να συμβάλει σημαντικά στον εντοπισμό της ρητορικής μίσους. Τα
πειράματα έδειξαν ότι τα πιο αποδοτικά features είναι τα BoW, word embeddings με τους
NGGs να ακολουθούν με ελαφρώς χειρότερη απόδοση. Επιπρόσθετα, ο συνδυασμός των
προαναφερθέντων μεθόδων αναπαράστασης έχει την καλύτερη απόδοση σε σύγκριση με
όλα τα υπόλοιπα features, είτε αυτά εξετάστηκαν μεμονωμένα είτε σε συνδυασμό με άλλα
features. Τέλος, οι αλγόριθμοι ταξινόμησης φαίνεται να μην έχουν ιδιαίτερη στατιστική
σημασία, μιας και τα αποτελέσματα στα στατιστικα τεστ είναι παρόμοια για όλους τους
αλγορίθμους που χρησιμοποιήσαμε.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
μηχανική μάθηση, Ρητορική μίσους, επεξεργασία φυσικής γλώσσας, ταξινόμηση
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
5
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
34
Αριθμός σελίδων:
87