Named Entity Recognition and Linking in Greek Legislation

Διπλωματική Εργασία uoadl:2766525 437 Αναγνώσεις

Μονάδα:
Κατεύθυνση / ειδίκευση Διαχείριση Πληροφορίας και Δεδομένων (ΔΕΔ)
Πληροφορική
Ημερομηνία κατάθεσης:
2018-06-01
Έτος εκπόνησης:
2018
Συγγραφέας:
Αγγελίδης Ιωσήφ
Στοιχεία επιβλεπόντων καθηγητών:
Μανόλης Κουμπαράκης, Καθηγητής, Τμήμα Πληροφορικής και Τηλεπικοινωνιών, ΕΚΠΑ
Πρωτότυπος Τίτλος:
Named Entity Recognition and Linking in Greek Legislation
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Αναγνώριση Ονομασμένων Οντοτήτων και Σύνδεση στην Ελληνική Νομοθεσία
Περίληψη:
Δείχνουμε πώς η αναγνώριση οντοτήτων σε κείμενα Ελληνικής νομοθεσίας μπορεί να
επιτευχθεί με την χρήση ενός αναγνωριστή ονομασμένων οντοτήτων (named entity rec-
ognizer, NER). Η δουλειά μας είναι η πρώτη του είδους της που ασχολείται με την ελλη-
νική γλώσσα σε τόσο βάθος και μία από ελάχιστες που μελετούν νομικό κείμενο. Εφαρ-
μόζουμε αναζήτηση δικτύου (grid search) σε πολλαπλές αρχιτεκτονικές νευρωνικών δι-
κτύων και συνδυασμούς υπερ-παραμέτρων (hyper-parameters) για να μεγιστοποιήσουμε
την αποτε- λεσματικότητα της προσέγγισής μας. Δείχνουμε ότι, χρησιμοποιώντας ένα με-
γάλο νομικό λεξικό χτίσαμε ενσωματωμένες/συμβολικές λέξεις (word/token-shaped em-
beddings) χρη- σιμοποιώντας το Word2Vec και τελικά πετυχαίνουμε κατά μέσο όρο 86%
ακρίβεια σε ανα- γνώριση οργανισμών, νομικών αναφορών, γεωγραφικών τοποθεσιών,
ανθρώπων, γεω-πολιτικών οντοτήτων (GPEs) και δημοσίων εγγράφων. Η αξιολόγηση
της μεθοδολογίας μας βασίζεται στις μετρικές της ακριβείας (precision), της ανάκλησης
(recall) και της f 1 μετρικής (f1-score) ανά τύπο οντότητας για κάθε νευρωνικό δίκτυο. Τέ-
λος, μετράμε την αναλογία των σωστά προβλεπόμενων συνδέσμων για την διασύνδεση
RDF συνόλων δεδομένων (datasets) που παράγονται από την προσέγγισή μας με άλλα
γνωστά σύνολα δεδομένων που έχουν εκδοθεί δημόσια και πώς μπορούμε να εξάγουμε
νέα γνώση έμμεσα με την προσέγγισή μας από την DBpedia, το ELI (Europeal Legislation
Identifier) και το GAG (Greek administrative geography, Ελληνική διοικητική γεωγραφία)
του Καλλικράτη.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
Αναγνώριση Ονομασμένων Οντοτήτων και Σύνδεση, Αναπαράσταση Νομικής Γνώσης, Αναπαράσταση Αναφορών Οντοτήτων, Ανοιχτά Συνδεδεμένα Δεδομένα, Βαθιά Μάθηση, Παραγωγή Οντοτήτων
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
7
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
63
Αριθμός σελίδων:
105