Hierarchical Large Multi-Label Text Classification of Greek Legal Documents by Utilizing Label Augmentation

Πτυχιακή Εργασία uoadl:2975516 81 Αναγνώσεις

Μονάδα:
Τμήμα Πληροφορικής & Τηλεπικοινωνιών
Πληροφορική
Ημερομηνία κατάθεσης:
2022-03-04
Έτος εκπόνησης:
2022
Συγγραφέας:
ΚΑΛΛΙΝΙΚΟΣ ΓΡΗΓΟΡΙΟΣ
Στοιχεία επιβλεπόντων καθηγητών:
Μανόλης Κουμπαράκης, Καθηγητής, Τμήμα Πληροφορικής και Τηλεπικοινωνιών, ΕΚΠΑ
Πρωτότυπος Τίτλος:
Hierarchical Large Multi-Label Text Classification of Greek Legal Documents by Utilizing Label Augmentation
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Κατηγοριοποίηση Ιεραρχικά Δομημένων Ελληνικών Νομικών Εγγράφων πολλών Ετικετών με τη χρήση Επαύξησης Ετικετών
Περίληψη:
Ο σκοπός αυτής της πτυχιακής είναι η υλοποίηση ενός μοντέλου, για ταξινόμηση κειμένων με ιεραρχική δομή και με πολλαπλές ετικέτες. Το μοντέλο αξιοποιεί την τεχνική της επαύξησης ετικετών και η εκπαίδευση γίνεται σε ένα πολύ μεγάλο σύνολο δεδομένων. Η ιεραρχική δομή περιέχει μικρό αριθμό επιπέδων αλλά μεγάλο αριθμό ετικετών και το μοντέλο βασίζεται στην τεχνική της εκπαίδευσης με οδηγό τα επίπεδα του μοντέλου. Στη συνέχεια, η σύγκριση του μοντέλου με άλλα μοντέλα που δέν αξιοποιούν την ίδια τεχνική θα μας αποδείξει την αποτελεσματικότητά της.
Η έρευνα βασίζεται στο μοντέλο BERT και της ελληνικής του μορφής, το GreekBERT καθώς και στο κείμενο πάνω στην οδηγούμενη από τα επίπεδα εκπαίδευσης που επίσης παρουσιάζει την τεχνική της επαύξησης ετικετών. Πολύ βασική είναι η χρήση της βιβλιοθήκης των Transformers μέσω των οποίων φτάνουμε στην εκπαίδευση και σύγκριση των μοντέλων πολύ γρήγορα.
Η πτυχιακή ξεκινά με μια αναλυτική παρουσίαση των τεχνικών που χρησιμοποιήθηκαν από τους ερευνητές της Επεξεργασίας Φυσικής Γλώσσας μέχρι τις πλέον πιο διαδεδομένες αναφέροντας τα θετικά και τα αρνητικά τους. Πιστεύουμε πως αυτό είναι απαραίτητο στην κατανόηση της λειτουργίας των μοντέλων που θα υλοποιήσουμε.
Μετά από την ιστορική αναδρομή, συνεχίζουμε με μια αναλυτική παρουσίαση του συνόλου δεδομένων που θα χρησιμοποιήσουμε. Κάποια χαρακτηριστικά του περιλαμβάνουν το μεγάλο μέγεθος των εγγράφων, τον μεγάλο αριθμό των ετικετών και την ύπαρξη πολλών κλάσεων με λίγα έγγραφα ανά κλάση.
Στη συνέχεια, παρουσιάζουμε τις λεπτομέρειες της τεχνικής της επαύξησης ετικετών, καθώς και της εκπαίδευσης με οδηγό τα επίπεδα του μοντέλου, που θα χρησιμοποιηθούν από το βασικό μοντέλο μας.
Εν τέλει, παρουσιάζεται η υλοποίηση των μοντέλων και γίνεται σύγκρισή τους με βάση την μετρική R-Precision. Από τα αποτελέσματα συμπεραίνουμε ότι η τεχνικές που αξιοποιεί το βασικό μοντέλο μας οδηγούν σε αύξηση της απόδοσης, δίχως να έχουμε σοβαρές χρονικές καθυστερήσεις σε σύγκριση με τα πιό απλά μοντέλα μας.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
Ιεραρχική Ταξινόμηση, Επαύξηση Ετικετών, Νομικά Έγγραφα, Pretrained Transformers, Greek Legal Code
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
5
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
44
Αριθμός σελίδων:
51