Περιβάλλον Επιμέλειας των αποτελεσμάτων της Αυτόματης Θεματικής Κατηγοριοποίησης Κειμένων

Διπλωματική Εργασία uoadl:2884484 247 Αναγνώσεις

Μονάδα:
Κατεύθυνση / ειδίκευση Διαχείριση Πληροφορίας και Δεδομένων (ΔΕΔ)
Πληροφορική
Ημερομηνία κατάθεσης:
2019-11-01
Έτος εκπόνησης:
2019
Συγγραφέας:
Κούλαλης Αντώνιος
Στοιχεία επιβλεπόντων καθηγητών:
Ιωάννης Ιωαννίδης, Καθηγητής, Πληροφορικής και Τηλεπικοινωνιών, ΕΚΠΑ
Πρωτότυπος Τίτλος:
Περιβάλλον Επιμέλειας των αποτελεσμάτων της Αυτόματης Θεματικής Κατηγοριοποίησης Κειμένων
Γλώσσες εργασίας:
Αγγλικά
Ελληνικά
Μεταφρασμένος τίτλος:
Περιβάλλον Επιμέλειας των αποτελεσμάτων της Αυτόματης Θεματικής Κατηγοριοποίησης Κειμένων
Περίληψη:
Το Topic Modeling είναι ένας αλγόριθμος μηχανικής εκμάθησης που χρησιμοποιείται για την ταξινόμηση μιας μεγάλης βάσης δεδομένων με έγγραφα, σε κατηγορίες που χαρακτηρίζονται από ένα σύνολο λέξεων. Για την επιμέλεια αυτών των συνόλων, που ονομάζονται θέματα, χρειάζεται η ανθρώπινη παρέμβαση προκειμένου να γίνουν αναγνώσιμα από το σύνολο των αναλυτών. Απαραίτητη είναι λοιπόν η συμβολή των επιμελητών, οι οποίοι αναλαμβάνουν να δώσουν ευανάγνωστη μορφή στην έξοδο των διαφόρων μεθόδων του Topic Modeling. Η διαδικασία αυτή ονομάζεται επιμέλεια δεδομένων και είναι μια αρκετά επίπονη και χρονοβόρα διαδικασία. Ένας επιμελητής καλείται να μελετήσει τεράστιους όγκους από δεδομένα, συνήθως γραμμένα μέσα σε πίνακες λογιστικών φύλλων, προτού προχωρήσει στην αξιολόγηση, τη διόρθωση και τη γενικότερη επιμέλειά τους. Ως εκ τούτου η διαδικασία αυτή μπορεί να διαρκέσει αρκετά μεγάλο χρονικό διάστημα για έναν επιμελητή. Επιπλέον η έλλειψη αρκετών επιμελητών, αυξάνει τον όγκο εργασίας που καλείται καθένας από αυτούς να αναλάβει. Η απουσία ενός εργαλείου που θα μειώνει τον χρόνο εργασίας τους και θα τους παρέχει τη δυνατότητα πρόσβασης σε άλλες επιμέλειες δεδομένων που θα τους ήταν χρήσιμες, επιβαρύνει ακόμα περισσότερο το έργο τους. Η πολύωρη ενασχόληση προκαλεί την κούραση του επιμελητή, αυξάνει την πιθανότητα λαθών, μειώνοντας έτσι την ποιότητα των αποτελεσμάτων του. Στην παρούσα διπλωματική εργασία, παρουσιάζουμε μια φιλική προς τον χρήστη δικτυακή εφαρμογή που θα μπορέσει να αντιμετωπίσει τα παραπάνω προβλήματα και να διευκολύνει το έργο των επιμελητών. Ο χρήστης πέρα από την εξερεύνηση των δεδομένων, έχει τη δυνατότητα να τα αξιολογήσει, να τα διορθώσει και γενικότερα να τα επιμεληθεί. Ενέργειες όπως κατηγοριοποίηση, συγχώνευση, διαχωρισμό, ονοματοδοσία δεδομένων και πολλές άλλες θα μπορεί πλέον να τις πραγματοποιήσει μέσω της εφαρμογής μας εύκολα και γρήγορα. Πλούσια γραφήματα έρχονται να συμπληρώσουν τις παραπάνω λειτουργικότητες και όλα μαζί να συνθέσουν ένα εργαλείο απαραίτητο για τους επιμελητές δεδομένων.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
αξιολόγηση δεδομένων, εξερεύνηση δεδομένων, αξιολόγηση δεδομένων στατιστικών μοντέλων, επιστημονικές δικτυακές εφαρμογές, διαδραστικές οπτικοποιήσεις
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
4
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
33
Αριθμός σελίδων:
62
Koulalhs_EKPA_diplwmatikh_2019.pdf (3 MB) Άνοιγμα σε νέο παράθυρο