Πέργαμος - Βιβλιοθήκη και Κέντρο Πληροφόρησης Εθνικού και Καποδιστριακού Πανεπιστημίου Αθηνών

Μονάδα:

Κατεύθυνση / ειδίκευση Διαχείριση Πληροφορίας και Δεδομένων (ΔΕΔ)
Πληροφορική

Ημερομηνία κατάθεσης:

2021-03-22

Έτος εκπόνησης:

2021

Συγγραφέας:

Τρισπιώτης Οδυσσέας

Στοιχεία επιβλεπόντων καθηγητών:

Αλέξης Δελής, Καθηγητής, Τμήμα Πληροφορικής και Τηλεπικοινωνιών, ΕΚΠΑ

Πρωτότυπος Τίτλος:

Real-time Fake-news Detection in Greek using a Browser Extension

Γλώσσες εργασίας:

Αγγλικά

Μεταφρασμένος τίτλος:

Εύρεση Ψευδών Ελληνικών Ειδήσεων σε Πραγματικό Χρόνο με Επέκταση Φυλλομετρητή

Περίληψη:

Η διασπορά ψευδών ειδήσεων είναι ιδιαίτερα δημοφιλής τα τελευταία χρόνια, κυρίως λόγω της αυξανόμενης δημοτικότητας και χρήσης των κοινωνικών δικτύων (social media). Τέτοιου είδους ειδήσεις κάποιες φορές μπορεί να είναι πολύ επικίνδυνες, καθώς εξαπατούν τους αναγνώστες και μπορούν να τους ωθήσουν σε επικίνδυνες ενέργειες. Έτσι η ανίχνευση σε πραγματικό χρόνο τέτοιου είδους ειδήσεων είναι πολύ σημαντική.

Η συγκεκριμένη εργασία περιγράφει τη διαδικασία υλοποίησης ενός πειραματικού browser extension που αναγνωρίζει αν ο χρήστης βρίσκεται σε κάποια ιστοσελίδα ελληνικού ειδησεογραφικού άρθρου και προβλέπει σε πραγματικό χρόνο, χωρίς να γίνει αντιληπτή από τον χρήστη η διαδικασία της πρόβλεψης, την πιθανότητα το συγκεκριμένο άρθρο να αποτελεί ψευδή είδηση χρησιμοποιώντας machine learning.

Αρχικά, για τη δημιουργία της συγκεκριμένης επέκτασης, συλλέξαμε έναν σχετικά καλό αριθμό από ελληνικά ειδησιογραφικά άρθρα (~35.000) και ξεχωρίσαμε ποια από αυτά αποτελούν αληθινή και ποια ψευδή είδηση, ώστε να δημιουργήσουμε ένα dataset. Στη συνέχεια χρησιμοποιήσαμε το συγκεκριμένο dataset μαζί με τεχνικές για feature extraction από κείμενο ώστε να εκπαιδεύσουμε διάφορους αλγόριθμους ταξινόμησης. Το αποτέλεσμα της παραπάνω διαδικασίας παράγει ένα μοντέλο μηχανικής μάθησης, το οποίο μπορεί να αποθηκευτεί σε κάποιο αρχείο και να χρησιμοποιηθεί για προβλέψεις σε νέα δεδομένα. Έπειτα συγκρίναμε τα αποτελέσματά των παραγόμενων μοντέλων με βάση κοινές μετρικές. Τέλος επιλέξαμε το μοντέλο που έδινε τα καλύτερα αποτελέσματα και το χρησιμοποιήσαμε σαν βάση για να κατασκευάσουμε μια επέκταση browser που επικοινωνεί με το συγκεκριμένο μοντέλο αναγνώρισης ψευδών ειδήσεων.

Τα αποτελέσματα της παραπάνω διαδικασία ήταν αρκετά ενθαρρυντικά για το πλήθος των διαθέσιμων δεδομένων και έδειξαν πως η επέκτασή μας μπορεί να προβλέψει με αρκετά μεγάλη ακρίβεια (~95%) και γρήγορα (~35 ms) αν ένα άρθρο αποτελεί ψευδή είδηση. Βέβαια υπάρχουν αρκετά ανοιχτά κομμάτια προς βελτίωση και μελλοντική έρευνα, όπως η ανίχνευση ψευδών ειδήσεων με χρήση διαφόρων νευρωνικών δικτύων αντί για αλγορίθμους ταξινόμησης. Ακόμη κάποια ανοιχτά κομμάτια που χρήζουν επέκτασης στην παρούσα εργασία είναι το retrain του μοντέλου και η αναγνώριση για το ποιο μέρος της ιστοσελίδας αποτελεί ειδησεογραφικό άρθρο.

Κύρια θεματική κατηγορία:

Τεχνολογία – Πληροφορική

Λέξεις-κλειδιά:

ταξινόμηση, εξαγωγή χαρακτηριστικών, μοντέλο, πρόβλεψη πιθανότητας, επέκταση φυλλομετρητή, εξαγωγή δεδομένων, σήμανση δεδομένων

Ευρετήριο:

Ναι

Αρ. σελίδων ευρετηρίου:

Εικονογραφημένη:

Ναι

Αρ. βιβλιογραφικών αναφορών:

Αριθμός σελίδων:

Αρχείο: