Στοιχεία επιβλεπόντων καθηγητών:
Γουνόπουλος Δημήτριος, Καθηγητής, Τμήμα Πληροφορικής & Τηλεπικοινωνιών, ΕΚΠΑ
Περίληψη:
Η παρούσα πτυχιακή εργασία είναι βασισμένη στη δημοσίευση (paper) “Automatic SubEvent Detection in Emergency Management using Social Media” και σκοπός της είναι να μελετήσει πειραματικά τα διάφορα στάδια υλοποίησης ενός μηχανισμού αυτόματης εύρεσης υπό-γεγονότων μέσα σε ένα αρχικό γεγονός, χρησιμοποιώντας μέσα κοινωνικά δικτύωσης όπως περιγράφονται στη δημοσίευση, κάνοντας ωστόσο ορισμένες διαφοροποιήσεις.
Ο μηχανισμός αυτός αποτελείται από τα εξής στάδια: εύρεση δεδομένων, προ-επεξεργασία (pre-processing) δεδομένων, συσταδοποίηση (clustering) και ανάλυση των τελικών συστάδων (clusters)-αποτελεσμάτων. Τα δεδομένα που θα χρησιμοποιήσουμε, θα τα λάβουμε από τη μεγαλύτερη πλατφόρμα κοινωνικής δικτύωσης, το Twitter , τα οποία δεν θα είναι άλλα από τα λεγόμενα tweets που έχουν κάνει διάφοροι χρήστες σε ένα καθορισμένο χρονικό διάστημα. Στη συνέχεια, θα εισάγουμε τα δεδομένα αυτά στο εργαλείο (tool) WEKA και θα κάνουμε μια προ-επεξεργασία, εφαρμόζοντας μια σειρά ενεργειών, για να τα φέρουμε στη μορφή που θέλουμε. Έπειτα, θα προχωρήσουμε σε συσταδοποίηση των δεδομένων, χρησιμοποιώντας τον αλγόριθμο k-means και τέλος σε εξαγωγή των αποτελεσμάτων για ανάλυση. Θα υπάρχουν κάποιες μικρές διαφορές σε σχέση με τη δημοσίευση που αναφέρεται παραπάνω, οι οποίες αφορούν κυρίως την πηγή των δεδομένων και τον αλγόριθμο συσταδοποίησης.
Συγκεκριμένα, στη δημοσίευση χρησιμοποιούνται δεδομένα από τις πλατφόρμες YouTube και Flickr σε αντίθεση με το Twitter που επιλέξαμε εμείς, ενώ ο αλγόριθμος συσταδοποίησης που χρησιμοποιούμε είναι ο k-means σε αντίθεση με τον SOM (Self Organizing Map). Παρά τις διαφοροποιήσεις αυτές, θα παρατηρήσουμε έπ(ειτα από πειραματική μελέτη, ότι τα αποτελέσματα που παράγονται, πλησιάζουν σε μεγάλο βαθμό εκείνα της δημοσίευσης, που σημαίνει ότι μέσα από κάποιο επείγον γεγονός, μπορούμε να χρησιμοποιήσουμε δεδομένα από μεγάλες πλατφόρμες προκειμένου να εντοπίσουμε μικρότερα σημαντικά γεγονότα και να αντιδράσουμε σε αυτά.
Λέξεις-κλειδιά:
προ επεξεργασία δεδομένων, συσταδοποίηση, κατηγοριοποίηση, ανάλυση, εργαλείο weka