Extending the temporal tagger HeidelTime for the Greek language

Διπλωματική Εργασία uoadl:2922239 162 Αναγνώσεις

Μονάδα:
Κατεύθυνση Πληροφορική στην Ιατρική
Πληροφορική
Ημερομηνία κατάθεσης:
2020-09-10
Έτος εκπόνησης:
2020
Συγγραφέας:
Καπερνάρος Εμμανουήλ
Στοιχεία επιβλεπόντων καθηγητών:
Μανόλης Κουμπαράκης, Καθηγητής, Τμήμα Πληροφορικής και Τηλεπικοινωνιών, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών
Πρωτότυπος Τίτλος:
Extending the temporal tagger HeidelTime for the Greek language
Γλώσσες εργασίας:
Αγγλικά
Ελληνικά
Μεταφρασμένος τίτλος:
Επεκτείνοντας τον χρονικό σχολιαστή HeidelTime για την Ελληνική γλώσσα
Περίληψη:
Εδώ περιγράφουμε την δουλειά μας για την επέκταση του λογισμικού σχολιασμού
χρονικών εκφράσεων HeidelTime για υποστήριξη της Ελληνικής γλώσσας. Το
HeidelTime είναι ένας πολυγλωσσικός χρονικός σχολιαστής που λειτουργεί βάση
κανόνων ο οποίος εκτελεί την πλήρη διαδικασία σχολιασμού συμπεριλαμβανομένων
της εξαγωγής και κανονικοποίησης. Επιτυγχάνει πολυγλωσσικότητα με ειδικούς
γλωσσικούς πόρους οι οποίοι είναι διαχωρισμένοι από τον πηγαίο κώδικά του και
μπορούν εύκολα να προσαρμοστούν. Περιλαμβάνει χειροκίνητα ανεπτυγμένους πόρους
για 13 γλώσσες και αυτόματα ανεπτυγμένους για περισσότερες από 200 γλώσσες
συμπεριλαμβανομένης και της Ελληνικής. Το HeidelTime μπορεί να εξάγει χρονικές
εκφράσεις και να τις ταξινομεί σε ημερομηνία, ώρα, διάρκεια και σύνολα και μετά να τις
κανονικοποιεί με μια τυποποιημένης μορφής τιμή. Για παράδειγμα, όταν ανιχνευθεί η
έκφραση “13 Μαρτίου 2013”, εξάγεται και κανονικοποιείται με την τιμή “2013-03-11”. Ο
σκοπός αυτή της εργασίας είναι να αναπτύξουμε δημόσια διαθέσιμους χειροκίνητους
Ελληνικούς πόρους επεκτείνοντας τους αυτόματα ανεπτυγμένους. Αυτό το κάναμε
αναπτύσσοντας ειδικούς γλωσσικούς πόρους οι οποίοι είναι .txt αρχεία με μια
συγκεκριμένη σύνταξη. Για την διαδικασία της ανάπτυξης ήταν απαραίτητο ένα
Ελληνικό σώμα για την εκπαίδευση. Για τον σκοπό αυτό δημιουργήσαμε το
WikiWarsEL, ένα σώμα με Ελληνικές σχολιασμένες εκφράσεις που περιέχει 19
πολεμικά κείμενα από την Ελληνική Wikipedia. Τέλος, αξιολογήσαμε τους νέους πόρους
με περισσότερα πολεμικά κείμενα από τη Wikipedia τα οποία δεν χρησιμοποιήθηκαν
κατά την εκπαίδευση. Το αποτέλεσμα του στατιστικού μέτρου F1-score ήταν 82.31%,
μια σημαντική βελτίωση από το 2.19% των αυτόματων πόρων.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
χρόνος, χρονικές εκφράσεις, χρονικός σχολιαστής
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
4
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
8
Αριθμός σελίδων:
42