Πέργαμος - Βιβλιοθήκη και Κέντρο Πληροφόρησης Εθνικού και Καποδιστριακού Πανεπιστημίου Αθηνών

Μονάδα:

Τμήμα Πληροφορικής & Τηλεπικοινωνιών
Πληροφορική

Ημερομηνία κατάθεσης:

2021-10-18

Έτος εκπόνησης:

2021

Συγγραφέας:

ΧΑΝΔΡΙΝΟΣ ΘΕΟΔΩΡΟΣ- ΑΛΕΞΑΝΔΡΟΣ
ΖΑΜΠΑΤΗΣ ΘΕΟΔΩΡΟΣ

Στοιχεία επιβλεπόντων καθηγητών:

Δρ. Τσαλγατίδου Αφροδίτη, Αναπληρώτρια Καθηγήτρια, Τμήμα πληροφορικής και Τηλεπικοινωνιών, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών

Πρωτότυπος Τίτλος:

Τεχνικές Επεξεργασίας Φυσικής Γλώσσας για Εντοπισμό και Αποφυγή Ψευδών Ειδήσεων στα Μέσα Κοινωνικής Δικτύωσης

Γλώσσες εργασίας:

Ελληνικά

Μεταφρασμένος τίτλος:

Περίληψη:

Στην εργασία μας, διερευνούμε την ανίχνευση ψευδών tweets στο Twitter χρησιμοποιώντας την επεξεργασία φυσικής γλώσσας (NLP) με τη γλώσσα προγραμματισμού Python μέσω της εποπτευόμενης μηχανικής μάθησης. Μελετήσαμε μια ποικιλία προσεγγίσεων στο θέμα από διάφορες πηγές και συγγραφείς. Αυτό μας ενέπνευσε να συνδυάσουμε αυτές τις προσεγγίσεις με στόχο να μάθουμε ποιοι συνδυασμοί λειτουργούν καλύτερα.
Για αυτό τον σκοπό, έχουμε αναπτύξει ένα εργαλείο λογισμικού, το οποίο ελέγχει το ποσοστό επιτυχίας τεσσάρων (4) διαφορετικών συστημάτων για την ανίχνευση ψευδών ειδήσεων χρησιμοποιώντας τέσσερα (4) διαφορετικά σύνολα δεδομένων, με αποτέλεσμα συνολικά δεκαέξι (16) ποσοστά επιτυχίας, ένα για κάθε συνδυασμό.
Για τη δημιουργία του παραπάνω εργαλείου, χρησιμοποιήσαμε το σύνολο δεδομένων PHEME [15], το οποίο περιλαμβάνει χιλιάδες πραγματικά προ-επεξεργασμένα tweets με ετικέτα που εξάγονται μέσω του TweeterAPI [16]. Δημιουργήσαμε ένα πρόγραμμα python, το οποίο αναλύει το προαναφερθέν σύνολο δεδομένων και αποθηκεύει όλα τα tweets από αυτό σε αρχεία της μορφής .tsv. Έχουμε τέσσερα (4) διαφορετικά σύνολα δεδομένων που διαφοροποιούνται βάσει των ακόλουθων χαρακτηριστικών:
1. Πρέπει να αποδεχτούμε την ύπαρξη διπλών tweet: Μερικά από τα ίδια tweets μπορεί να έχουν κοινοποιηθεί από διάφορους χρήστες / προφίλ.
2. Πρέπει να αποδεχτούμε μια τρίτη ετικέτα για την εγκυρότητα των tweets εκτός από το "true" (αληθής είδηση) ή "false" (ψευδής είδηση) , το οποίο είναι το "undefined" (είδηση απροσδιόριστης εγκυρότητας).
Αφού επιλεγεί ένα αρχείο .tsv, πραγματοποιείται η ανάλυση συναισθήματος σε κάθε tweet με τη χρήση του αλγορίθμου Sentiment Intensity Analyzer [17]. Στη συνέχεια, επεξεργάζονται τα αποτελέσματα αυτής της ανάλυσης και αποφασίζεται εάν ένα tweet θα πρέπει να επισημαίνεται ως θετικό ή αρνητικό.
Στη συνέχεια, χρησιμοποιούμε ένα pipeline στο οποίο εκτελούνται κατά σειρά τα ακόλουθα βήματα:
1. Αναγνώριση λεξικών μονάδων (Tokenization) και λημματοποίηση (Lemmatization) σε αναπαράσταση σάρωσης λέξεων (bag of words) χρησιμοποιώντας NLTK
2. Διανυσματοποίηση (Vectorization) χρησιμοποιώντας τον απαριθμητή διανυσμάτων (Count Vectorizer) ή διανυσματοποιητή συχνότητας όρου – άνισης κατανομής του όρου (TF-IDF Vectorizer) μέσω της βιβλιοθήκης Scikit-Learn.
3. Ταξινόμηση (Classification) χρησιμοποιώντας Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machine) ή τον Πολυωνυμικό Απλοϊκό Ταξινομητή Bayes (Multinomial Naive Bayes) μέσω της βιβλιοθήκης Scikit-Learn.
Ο συνδυασμός της γλωσσικής και της συναισθηματικής επεξεργασίας εξάγει διαφορετικά αποτελέσματα με βάση την επιλογή του αρχείου, του διανυσματοποιητή και του ταξινομητή. Το ποσοστό επιτυχίας των σωστά επισημασμένων με ετικέτα δεδομένων κυμαίνεται μεταξύ 54,6% και 99,8%.

Κύρια θεματική κατηγορία:

Τεχνολογία – Πληροφορική

Λέξεις-κλειδιά:

Ψευδείς Ειδήσεις, Επεξεργασία Φυσικής Γλώσσας, Αλγόριθμος, Τουίτερ, Πάιθον, Εποπτευόμενη Μηχανική Μάθηση

Ευρετήριο:

Ναι

Αρ. σελίδων ευρετηρίου:

Εικονογραφημένη:

Ναι

Αρ. βιβλιογραφικών αναφορών:

Αριθμός σελίδων:

Αρχείο: