Πέργαμος - Βιβλιοθήκη και Κέντρο Πληροφόρησης Εθνικού και Καποδιστριακού Πανεπιστημίου Αθηνών

Μονάδα:

Τμήμα Πληροφορικής & Τηλεπικοινωνιών
Πληροφορική

Ημερομηνία κατάθεσης:

2021-12-02

Έτος εκπόνησης:

2021

Συγγραφέας:

ΦΙΟΡΕΤΟΣ ΔΗΜΟΣΘΕΝΗΣ

Στοιχεία επιβλεπόντων καθηγητών:

Κουμπαράκης Μανόλης, Καθηγητής, Πληροφορικής και Τηλεπικοινωνιών, Θετικών Επιστημών

Πρωτότυπος Τίτλος:

Fake News Detection with the GREEK-BERT Model with a focus on COVID-19

Γλώσσες εργασίας:

Αγγλικά
Ελληνικά

Μεταφρασμένος τίτλος:

Αναγνώριση Ψευδών Ειδήσεων με το μοντέλο GREEK-BERT με εστίαση στoν COVID-19

Περίληψη:

Οι ψευδείς ειδήσης, αν και είναι ένα πρόβλημα που παρουσιάζεται από του αρχαίους καιρούς, είναι ένα απο τα κύρια πολιτικά και κοινωνικά προβλήματα τα τελευταία χρόνια. Το πρόβλημα γίνεται ακόμα μεγαλύτερο λόγω της διείσδησης των κοινωνικών δικτύων σε μεγάλο μέρος του πληθυσμού. Ειδικότερα κατά την διάρκεια της πανδημίας του COVID19, η διασπορά ψευδών ειδήσεων μπορεί να έχει πολύ σοβαρές και ακόμα και θανάσιμες παρενέργιες για τις κοινωνίες και τους πολίτες.
Η παρούσα εργασία περιγράφει την δουλειά γύρω από την δημιουργία δυο μοντέλων κατηγοριοποίησης ψευδών ειδήσεων και ψευδών αναρτήσεων κοινωνικών δικτύων, μαζί με μια διαδικτυακή εφαρμογή για την μελέτη των σχέσεων και των μοτίβων διάδοσης ψευδών και αληθών πληροφοριών σε πλατφόρμες κοινωνικής δικτύωσης. Η δουλειά μας χρησιμοποιεί την Ελληνική γλώσσα και στοχεύει σε πληροφορίες που έχουν σχέση με την τρέχουσα πανδημία του κορωνοϊού.
Επίσης παρουσιάζουμε μια επισκόπηση των ερευνών πάνω στις οποίες βασίζουμε τα μοντέλα μας, καθώς και άλλες έρευνες σχετικές με την αναγνώριση ψευδών ειδήσεων.
Για αυτό το σκοπό, επαναχρησιμοποιήσαμε ένα προϋπάρχον Ελληνικό σύνολο δεδομένων, το οποίο ήταν μέρος της Διπλωματικής του Οδυσσέα Τρισπιώτη [1], και επίσης δημιουργήσαμε ένα νέο σύνολο δεδομένων για τους σκοπούς αυτού του έργου. Κατα την διάρκεια της δημιουργίας αυτού του νέου συνόλου δεδομένω, παρατηρήσαμε πως η εύρεση αξιόπιστων πηγών ψευδών αναρτήσεων είναι ένα δύσκολο πρόβλημα, που γίνεται ακόμα δυσκολότερα αυτοματοποιήσιμο. Η βάση για τα μοντέλα κατηγοριοποίησης που αναπτύξαμε είναι τα μοντέλα τεχνολογίας αιχμής BERT [2] και GREEK-BERT [3].
Τα αποτελέσματα της άνωθι διαδικασίας ήταν εξόχως ενθαρυντικά, καθώς τα τελικά μοντέλα κατηγοριοποίησης έφτασαν accuracy επιπέδου μεγαλύτερου του 90%, και εξίσου καλά αποτελέσματα σε άλλες παραδοσιακές μετρικές κατηγοριοποίησης δεδομένων, όπως precision, recall, f1 score και AUROC.

Κύρια θεματική κατηγορία:

Τεχνολογία – Πληροφορική

Λέξεις-κλειδιά:

μηχανική μάθηση, επεξεργασία φυσικής γλώσσας, αυτόματη σήμανση δεδομένων, αναγνώριση ψευδών ειδήσεων, μοντέλο BERT, μοντέλο GREEK-BERT

Ευρετήριο:

Ναι

Αρ. σελίδων ευρετηρίου:

Εικονογραφημένη:

Ναι

Αρ. βιβλιογραφικών αναφορών:

124

Αριθμός σελίδων: