Author Profiling in Social Media using Topic Modeling Methods

Πτυχιακή Εργασία uoadl:1324484 595 Αναγνώσεις

Μονάδα:
Τομέας Υπολογιστικών Συστημάτων και Εφαρμογών
Βιβλιοθήκη Σχολής Θετικών Επιστημών
Ημερομηνία κατάθεσης:
2016-07-27
Έτος εκπόνησης:
2016
Συγγραφέας:
Ζεάκης Αλέξανδρος
Στοιχεία επιβλεπόντων καθηγητών:
Αναστασία Κριθαρά, Γεώργιος Παλιούρας, Παναγιώτης Σταματόπουλος
Πρωτότυπος Τίτλος:
Author Profiling in Social Media using Topic Modeling Methods
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Αναγνώριση Χαρακτηριστικών Συγγραφέα σε Μέσα Κοινωνικής Δικτύωσης με τη χρήση τεχνικών Θεματικής Μοντελοποίησης
Περίληψη:
Στην Αναγνώριση Χαρακτηριστικών Συγγραφέα, οι ερευνητές, δοθέντων έναν αριθμό
κειμένων, προσπαθούν να βρούνε τα χαρακτηριστικά του συγγραφέα, π.χ. Ηλικία και
Φύλο, στηριζόμενοι σε στυλομετρικά χαρακτηριστικά ή χαρακτηριστικά που
βασίζονται στο περιεχόμενο. Σε αυτήν την εργασία προσπαθούμε να λύσουμε το
παραπάνω πρόβλημα αξιοποιώντας τεχνικές θεματικής μοντελοποίησης, όπως Latent
Semantic Indexing και, κυρίως, Latent Dirichlet Allocation. Γι'αυτό,
αναπαραστήσαμε κάθε έγγραφο ως μίγμα θεμάτων και μετά χρησιμοποιήσαμε αυτήν την
λανθάνουσα αναπαράσταση σαν χαρακτηριστικά εισόδων σε γνωστούς αλγορίθμους
κατηγοριοποίησης, όπως ο Support Vector Machine, για να δημιουργηθεί το σύστημα
προβλέψεών μας. Να σημειωθεί ότι η προσέγγισή μας ήταν τμήμα της λύσης που
υποβλήθη στον 4ο διαγωνισμό Αναγνώρισης Χαρακτηριστικών Συγγραφέα στο PAN 2016.
Χρησιμοποιήσαμε 2 συλλογές κειμένων για αυτό το πρόβλημα, ένα βασιζόμενο σε
ιστολόγια κι ένα σε tweets, ενώ όλα τα κείμενα υπέστησαν προεπεξεργασία από
γνωστές μεθόδους Επεξεργασίας Φυσικής Γλώσσας. Η ανάπτυξη αυτού του συστήματος
αποτελείται από φάσεις, που σε κάθε μία συγκεκριμένες παράμετροι του μοντέλου
βελτιστοποιήθηκαν και οριστικοποιήθηκαν. Τα εμπειρικά αποτελέσματα δείχνουν ότι
η θεματική μοντελοποίηση και, γενικά, η προτεινόμενη μεθοδολογία μπορούν να
περιγράψουν καλά την ηλικία και το φύλο των συγγραφέων και παρέχουν νέα μέσα
για να διερευνηθούν οι διαφορές μεταξύ των ηλικιακών ομάδων και των 2 φύλων.
Λέξεις-κλειδιά:
Θεματική Μοντελοποίηση, Latent Dirichlet Allocation, Αναγνώριση Χαρακτηριστικών Συγγραφέα, Ανάκτηση Πληροφορίας, Latent Semantic Indexing
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
9, 11, 14
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
48
Αριθμός σελίδων:
63
Αρχείο:
Δεν επιτρέπεται η πρόσβαση στο αρχείο. H πρόσβαση επιτρέπεται μόνο εντός του δικτύου του ΕΚΠΑ.

document.pdf
1 MB
Δεν επιτρέπεται η πρόσβαση στο αρχείο. H πρόσβαση επιτρέπεται μόνο εντός του δικτύου του ΕΚΠΑ.