Αυτόματη ανάκτηση παγκόσμιας ειδησεογραφίας και κατηγοριοποίηση της με χρήση εξαγόμενων μέτα-δεδομένων

Πτυχιακή Εργασία uoadl:1324114 407 Αναγνώσεις

Μονάδα:
Τομέας Υπολογιστικών Συστημάτων και Εφαρμογών
Βιβλιοθήκη Σχολής Θετικών Επιστημών
Ημερομηνία κατάθεσης:
2015-07-19
Έτος εκπόνησης:
2015
Συγγραφέας:
Κωτσομητόπουλος Αριστοτέλης
Παπαπαναγιωτάκης-Μπουσύ Ιάσων
Στοιχεία επιβλεπόντων καθηγητών:
Ιζαμπώ Καράλη
Πρωτότυπος Τίτλος:
Αυτόματη ανάκτηση παγκόσμιας ειδησεογραφίας και κατηγοριοποίηση της με χρήση εξαγόμενων μέτα-δεδομένων
Γλώσσες εργασίας:
Ελληνικά
Μεταφρασμένος τίτλος:
Automatic retrieval of world news and classification based on extracted metadata
Περίληψη:
Η εργασία αυτή ασχολείται με την κατασκευή ενός συστήματος για την αυτόματη
ανάκτηση άρθρων παγκόσμιας ειδησεογραφίας, την εξαγωγή πληροφοριών από αυτά και
την κατηγοριοποίηση τους σε θεματικές ενότητες με όσο το δυνατό μεγαλύτερη
σημασιολογική συνάφεια. Για την διεκπεραίωση αυτής της εργασίας ασχοληθήκαμε
τόσο με τεχνικά προβλήματα όπως αυτά που παρουσιάζονται για την αυτόματη
ανάκτηση άρθρων από το διαδίκτυο όσο και με την διερεύνηση των επιστημονικών
πεδίων της επεξεργασίας φυσικής γλώσσας και εξαγωγής μέτα-πληροφοριών.
Για την κατασκευή του συστήματος αξιολογήσαμε πολλές τεχνολογίες και εργαλεία
και το σύστημα πέρασε πολλά στάδια και κατευθύνσεις κάποιες από τις οποίες
αργότερα χρειάστηκε να αναθεωρήσουμε. Αυτό πιστεύουμε ότι μας οδήγησε στην
δημιουργία ενός ώριμου και λειτουργικού συστήματος.
Καταλήγουμε σε πολύ καλά αποτελέσματα ως προς την ποιότητα των θεματικών ομάδων
που δημιουργούνται. Στην περίπτωση μας θεωρούμε ότι μια θεματική ομάδα είναι
καλή όταν περιέχει όσο το δυνατόν περισσότερα άρθρα που πραγματεύονται το ίδιο
θέμα χωρίς την παρουσία άσχετων άρθρων καθώς επίσης και η θεματική ενότητα να
αντιπροσωπεύει ένα γεγονός. Τέλος το σύστημα μας παρουσιάζει μεγάλους χρόνους
εκτέλεσης κάτι το οποίο αιτιολογούμε αλλά και προτείνουμε μελλοντικές
κατευθύνσεις για την βελτίωση του.
Λέξεις-κλειδιά:
επεξεργασία φυσικής γλώσσας, εξόρυξη γνώσης, κατηγοριοποίηση, διαδίκτυο, παγκόσμια ειδησεογραφία
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
9,10,11
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
40
Αριθμός σελίδων:
57
Αρχείο:
Δεν επιτρέπεται η πρόσβαση στο αρχείο. H πρόσβαση επιτρέπεται μόνο εντός του δικτύου του ΕΚΠΑ.

document.pdf
2 MB
Δεν επιτρέπεται η πρόσβαση στο αρχείο. H πρόσβαση επιτρέπεται μόνο εντός του δικτύου του ΕΚΠΑ.

 


attachments.zip
34 MB
Δεν επιτρέπεται η πρόσβαση στο αρχείο.