Ανάλυση Συναισθήματος και Εξόρυξη Κειμένου σε αξιολογήσεις στο TripAdvisor

Διπλωματική Εργασία uoadl:2836933 342 Αναγνώσεις

Μονάδα:
Κατεύθυνση Ψηφιακά Μέσα Επικοινωνίας και Περιβάλλοντα Αλληλεπίδρασης
Βιβλιοθήκη Πολιτικής Επιστήμης και Δημόσιας Διοίκησης - Επικοινωνίας και Μέσων Μαζικής Ενημέρωσης - Τουρκικών Σπουδών και Σύγχρονων Ασιατικών Σπουδών - Κοινωνιολογίας
Ημερομηνία κατάθεσης:
2018-12-05
Έτος εκπόνησης:
2018
Συγγραφέας:
Παπαδοπούλου Ευαγγελία
Στοιχεία επιβλεπόντων καθηγητών:
Κωνσταντίνος Μουρλάς, Επίκουρος Καθηγητής, Τμήμα Επικοινωνίας και Μέσων Μαζικής Ενημέρωσης, ΕΚΠΑ
Πρωτότυπος Τίτλος:
Ανάλυση Συναισθήματος και Εξόρυξη Κειμένου σε αξιολογήσεις στο TripAdvisor
Γλώσσες εργασίας:
Ελληνικά
Μεταφρασμένος τίτλος:
Sentiment Analysis and Text Mining in TripAdvisor reviews
Περίληψη:
Το αντικείμενο της παρούσας διπλωματικής εργασίας είναι η ανάλυση συναισθήματος σε δεδομένα της κοινωνικής πλατφόρμας TripAdvisor με την μέθοδο μη επιβλεπόμενης μάθησης βασισμένη σε λεξικό. Η ανάλυση συναισθήματος, που ονομάζεται επίσης εξόρυξη γνώμης (opinion mining), είναι ο τομέας της επιστήμης που αναλύει τις απόψεις, τα αισθήματα, τις εκτιμήσεις, τις στάσεις, τα συναισθήματα προς οντότητες και τα χαρακτηριστικά γνωρίσματά που εκφράζονται σε γραπτό κείμενο. Τα τελευταία χρόνια έχει παρουσιαστεί ραγδαία ανάπτυξη ως πεδίο έρευνας, εξαιτίας της μεγάλης επιρροής των κοινωνικών δικτύων και των πλατφόρμων κοινωνικής δικτύωσης στην καθημερινότητά μας, και λόγω του ότι παρέχει ένα αυτοματοποιημένο τρόπο για την ανάλυση της γραπτής πληροφορίας που αφθονεί στις διαδικτυακές πηγές.
Η αναγνώριση του συναισθήματος γίνεται σε δύο κατηγορίες, θετικό και αρνητικό συναίσθημα και για τις ανάγκες της εργασίας χρησιμοποιείται ένα σύνολο από περίπου 50.047 αξιολογήσεων από τους χρήστες του TripAdvisor σχετικά με πέντε βασικά σημεία τουρισμού της Αθήνας.
Το πρώτο μέρος της ανάλυσης αναφέρεται στην ανάκτηση των δεδομένων μέσω της χρήσης του scraping και αφού γίνει η προ-επεξεργασία των δεδομένων για όλους τους ειδικούς όρους που απαντώνται σε αυτά και μπορεί να δυσκολεύουν την ανάλυση τους, παράλληλα, εξετάζονται διάφοροι τρόποι εξαγωγής πληροφορίας από τα δεδομένα κειμένου και συγκεκριμένα η κλασσική μέθοδος Bag-of-Words με τις παραλλαγές term frequency και tf-idf (term frequency - inverse document frequency) και οι διανυσματικές αναπαραστάσεις λέξεων που καλούνται word vectors με την χρήση της γλώσσας python, της βιβλιοθήκης της pandas και του NRC-Emotion Lexicon. Οι παραπάνω ιδέες αξιολογούνται όλες στο σύνολο δεδομένων.
Η εργασία καταλήγει στο συμπέρασμα πως οι τεχνικές ανάλυσης συναισθήματος μέσω της χρήσης λεξικού ανταποκρίνονται πολύ καλά στο πρόβλημα παρέχοντας γρήγορες υλοποιήσεις και αξιόπιστες επιδόσεις.
Ακολουθώντας τις διαφορετικές μεθοδολογίες: (α) τη συχνότητα χρήσης μεμονωμένων λέξεων το σχήμα στάθμισης TF-IDF, (β) την εμφάνιση επιλεγμένων λέξεων πολικότητας με τη χρήση λεξικού καθώς και (γ) την τεχνική ομαδοποίησης K-means Clustering, παράγονται σημαντικές πληροφορίες σχετικά με την άποψη των χρηστών για τα πέντε αυτά τουριστικά σημεία της Αθήνας.
Τα αποτελέσματα της μελέτης αυτής αποδεικνύουν ότι οι αξιολογήσεις των χρηστών, οι οποίες είναι γραμμένες στην αγγλική γλώσσα, είναι δυνατό να ταξινομηθούν, με βάση την συναισθηματική τους πολικότητα, με έναν πολύ αποτελεσματικό τρόπο, παράγοντας επαρκή συμπεράσματα.
Η έρευνα αυτή μπορεί να βοηθήσει στην ελαχιστοποίηση του χρόνου που απαιτείται στην αναζήτηση εξόρυξη πληροφορίας σχετικά με τα πέντε τουριστικά σημεία μελέτης καθώς επίσης να βοηθήσει στην ανάπτυξη του τουρισμού στην περιοχή της Αθήνας και της Ελλάδας γενικότερα.

Λέξεις Κλειδιά: Ανάλυση συναισθήματος, Εξόρυξη κειμένου, TripAdvisor, Κ-means Clustering
Κύρια θεματική κατηγορία:
Κοινωνικές, Πολιτικές και Οικονομικές επιστήμες
Λοιπές θεματικές κατηγορίες:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
Ανάλυση συναισθήματος, Εξόρυξη Kκειμένου
Ευρετήριο:
Όχι
Αρ. σελίδων ευρετηρίου:
0
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
54
Αριθμός σελίδων:
111
EVANGELIA_PAPADOPOULOU_THESIS.pdf (2 MB) Άνοιγμα σε νέο παράθυρο