Named Entity Recognition using a Novel Linguistic Model for Greek Legal Corpora based on BERT model

Πτυχιακή Εργασία uoadl:2927727 333 Αναγνώσεις

Μονάδα:
Τμήμα Πληροφορικής & Τηλεπικοινωνιών
Πληροφορική
Ημερομηνία κατάθεσης:
2020-11-11
Έτος εκπόνησης:
2020
Συγγραφέας:
Αθηναίος Κωνσταντίνος
Στοιχεία επιβλεπόντων καθηγητών:
Μανόλης Κουμπαράκης, Καθηγητής, Τμήμα Πληροφορικής & Τηλεπικοινωνιών, Εθνικό & Καποδιστριακό Πανεπιστήμιο Αθηνών
Πρωτότυπος Τίτλος:
Named Entity Recognition using a Novel Linguistic Model for Greek Legal Corpora based on BERT model
Γλώσσες εργασίας:
Αγγλικά
Ελληνικά
Μεταφρασμένος τίτλος:
Αναγνώριση Ονοματισμένων Οντοτήτων με χρήση ενός Νέου Γλωσσικού Μοντέλου για Ελληνικά Νομικά Κείμενα βασισμένο στο Μοντέλο BERT
Περίληψη:
Στόχος αυτής της πτυχιακής εργασίας ήταν η δημιουργία ενός αναγνωριστή
ονοματισμένων οντοτήτων (Named Entity Recognizer) για εφαρμογή πάνω σε κείμενα
Ελληνικής Νομοθεσίας.
Οι βασικοί πυλώνες αυτού του εγχειρήματος είναι το καινοτόμο μοντέλο BERT της
Google [1][2] και η εξελληνισμένη του εκδοχή (GreekBERT)[3], καθώς και η διπλωματική
εργασία στα πλαίσια μεταπτυχιακού του Ιωσήφ Αγγελίδη που αφορά επίσης την
αναγνώριση ονοματισμένων οντοτήτων πάνω σε νομικά δεδομένα [4].
Ο απώτερος σκοπός μας είναι να εκμεταλευτούμε την ήδη υπάρχουσα γνώση και
τεχνογνωσία και να την συνδυάσουμε αρμονικά και αποτελεσματικά, ώστε να
σημειώσουμε πρόοδο και να προσφέρουμε το δικό μας έργο στον τομέα της
Επεξεργασίας Φυσικής Γλώσσας.
Επιλέγουμε συνειδητά να ξεκινήσουμε την μελέτη μας με μια αναδρομή στο φάσμα της
Τεχνητής Νοημοσύνης και της Μηχανικής Μάθησης, προκειμένου να γνωρίσουμε το
γενεαλογικό δέντρο των μοντέλων, αλγορίθμων και μηχανισμών που οδήγησαν
καταληκτικά στην εμφάνιση του BERT, μαθαίνοντας την εσωτερική δομή και
λειτουργικότητά του και δικαιολογώντας την επιλογή του.
Έχοντας, πλέον, μια σφαιρική και ουσιαστική αντίληψη γύρω από το μοντέλο BERT,
συνεχίζουμε με την ανάπτυξη του δικού μας αντίστοιχου Ελληνικού Νομικού μοντέλου.
Προετοιμάζουμε, λοιπόν, κατάλληλα τα Νομικά μας Δεδομένα και τις παραμέτρους που
θα θέσουμε στο μοντέλο, με μοναδική μας βλέψη και επιδίωξη την μεγιστοποίηση της
αποτελεσματικότητάς του κατά την διαδικασία της εκπαίδευσης.
Ολοκληρώνουμε το έργο μας με δοκιμές του νεοσύστατου μοντέλου σε ρεαλιστικές
προκλήσεις και το συγκρίνουμε με το γενικό Ελληνικό μοντέλο BERT (GreekBERT).
Η αξιολόγηση της μεθοδολογίας μας βασίζεται στις μετρικές της ακριβείας (precision),
της ανάκλησης (recall) και της F1 μετρικής (F1 Score) ανά τύπο οντότητας για κάθε
μοντέλο. Πετυχαίνουμε εφάμιλλα αποτελέσματα στα δύο μοντέλα, με το δικό μας Νομικό
Μοντέλο να έχει ένα πλεονέκτημα σε οντότητες προσώπων, εγκαταστάσεων,
οργανισμών, καθώς και γεωπολιτικές οντότητες, ενώ το γενικό μοντέλο υπερισχύει σε
οντότητες τοποθεσιών και δημοσίων εγγράφων. Ο σταθμισμένος μέσος όρος της
μετρικής F1 και για τα δύο μοντέλα είναι 75%.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
Αναγνώριση Ονοματισμένων Οντοτήτων, Μοντέλο BERT, Επεξεργασία & Αναπαράσταση Νομικής Γνώσης, Εξελληνισμός & Εξειδίκευση μοντέλου σε Νομικά Δεδομένα, Σύγκριση Γενικού & Νομικού Μοντέλου
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
3
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
40
Αριθμός σελίδων:
66
Konstantinos_Athinaios_thesis.pdf (2 MB) Άνοιγμα σε νέο παράθυρο