Comp-­BERT-­ition: Which BERT model is better for Greek legal text classification?

Πτυχιακή Εργασία uoadl:2960898 185 Αναγνώσεις

Μονάδα:
Τμήμα Πληροφορικής & Τηλεπικοινωνιών
Πληροφορική
Ημερομηνία κατάθεσης:
2021-09-16
Έτος εκπόνησης:
2021
Συγγραφέας:
ΒΑΜΒΟΥΡΕΛΛΗΣ ΕΥΣΤΡΑΤΙΟΣ
Στοιχεία επιβλεπόντων καθηγητών:
Μανόλης Κουμπαράκης, Καθηγητής, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών , Τμήμα Πληροφορικής και Τηλεπικοινωνιών
Δέσποινα-Αθανασία Πανταζή, Υποψήφια Διδάκτωρ , Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών , Τμήμα Πληροφορικής και Τηλεπικοινωνιών
Πρωτότυπος Τίτλος:
Comp-­BERT-­ition: Which BERT model is better for Greek legal text classification?
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Ποιο BERT μοντέλο είναι καλύτερο στην κατηγοριοποίηση Ελληνικών νομικών εγγράφων;
Περίληψη:
Τα βαθιά νευρωνικά δίκτυα είναι ένας σύγχρονος τομέας της Τεχνητής Νοημοσύνης. Πολλοί επιστήμονες πιστεύουν ότι μπορεί να είναι το μέλλον των υπολογιστών. Η επεξεργασία
φυσικής γλώσσας είναι μια περιοχή της Τεχνητής Νοημοσύνης και της Γλωσσολογίας που
εξετάζει την αλληλεπίδραση των υπολογιστών με την ανθρώπινη γλώσσα, και πιο συγκεκριμένα, πώς θα μάθουμε σε ένα πρόγραμμα να επεξεργάζεται και να καταλαβαίνει
δεδομένα φυσικής γλώσσας. Με τη δημιουργία του μοντέλου BERT [5], ενός μεγάλου βαθιού νευρωνικού δικτύου που κατασκευάστηκε για να καταλαβαίνει την Αγγλική γλώσσα,
το 2019, και την ενσωμάτωσή του στη μηχανή αναζήτησης της Google, ο τομέας της εξεργασίας φυσικής γλώσσας έκανε ένα άλμα μπροστά. Από τότε, μόνο λίγα μοντέλα έχουν
καταφέρει να ξεπεράσουν το BERT κατά ελάχιστο. Αυτή η πτυχιακή εξετάζει διαφορετικές
εκδοχές του BERT, που έχουν εκπαιδευτεί σε διαφορετικά δεδομένα, και την ικανότητά
τους να κατηγοριοποιήσουν Ελληνικά νομικά έγγραφα. Επίσης σχολιάζει τους τρόπους
που μπορούμε να βελτιώσουμε τα μοντέλα μας, προσαρμόζοντάς τα σε ένα συγκεκριμένο
γλωσσικό τομέα και επεκτείνοντας το λεξιλόγιό τους. Χρησιμοποιούμε τη συλλογή δεδομένων RAPTARCHIS [3] που περιέχει Ελληνικά νομικά έγγραφα διαθέσιμα για τρία διαφορετικά προβλήματα κατηγοριοποίησης. Τα τελικά Ελληνικά μοντέλα πετυχαίνουν πολύ
παρόμοια απόδοση, ενώ το πολυγλωσσικό μοντέλο υστερεί. Καταλήγουμε ότι προσαρμόζοντας τα μοντέλα μας στο συγκεκριμένο γλωσσικό τομέα των νομικών κειμένων, σίγουρα
θα βελτιώσουμε την απόδοση τους. Επίσης, βασισμένοι σε γνωστές ευρετικές μεθόδους,
που περιγράφονται στο κεφάλαιο 5, υποθέτουμε ότι το πολυγλωσσικό μοντέλο θα μπορούσε να ξεπεράσει τα άλλα. Οι μετρικές αποτίμησης της αποτελεσματικότητας που χρησιμοποιούμε είναι η ακρίβεια (precision), η ανάκληση (recall) και η μετρική F1. Διαλέξαμε
αυτές τις μετρικές αποτίμησης για να έχουμε απευθείας σύγκριση αποτελεσματικότητας
σε σχέση με προηγμενα μοντέλα που αξιολογήθηκαν στο ίδιο σύνολο δεδομένων.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
BERT, Νευρωνικά Δίκτυα, Επεξεργασία Φυσικής Γλώσσας, Νομικά ’Εγγραφα
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
3
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
27
Αριθμός σελίδων:
37