Πέργαμος - Βιβλιοθήκη και Κέντρο Πληροφόρησης Εθνικού και Καποδιστριακού Πανεπιστημίου Αθηνών

Μονάδα:

Τμήμα Πληροφορικής & Τηλεπικοινωνιών
Πληροφορική

Ημερομηνία κατάθεσης:

2022-03-09

Έτος εκπόνησης:

2022

Συγγραφέας:

ΚΑΜΠΥΛΗ ΠΑΝΑΓΙΩΤΑ

Στοιχεία επιβλεπόντων καθηγητών:

Εμμανουήλ Κουμπαράκης, Καθηγητής, Τμήμα Πληροφορικής & Τηλεπικοινωνιών, Εθνικό & Καποδιστριακό Πανεπιστήμιο Αθηνών

Πρωτότυπος Τίτλος:

Large-Scale Multi-label Classification of Greek legislation

Γλώσσες εργασίας:

Αγγλικά

Μεταφρασμένος τίτλος:

Κατηγοριοποίηση πολλαπλών ετικετών μεγάλης κλιμάκας σε κείμενα ελληνικής νομοθεσίας

Περίληψη:

Η επεξεργασία φυσικής γλώσσας είναι ένας τομεάς της Τεχνητής Νοημοσύνης που διαρκώς προσεγγίζει επιστημονικό ενδιαφέρον και διευκολύνει ανάγκες της καθημερινότητας. Θα επικεντρωθούμε σε μια συγκεκριμένη περίπτωση κατηγοριοποίησης πολλαπλών ετικετών, η οποία με την πάροδο του χρόνου και το διαρκώς αυξανόμενο όγκο δεδομένων, γίνεται όλο και πιο συχνή. Η Κατηγοριοποίηση Πολλαπλής Ετικέτας Μεγάλης Κλίμακας χαρακτηρίζεται απο μεγάλο χώρο ετικετών, οργανωμένες με ιεραρχικό τρόπο και ανισσοροπία στην κατανομή των ετικετών. Ο τομέας ενδιαφέροντός μας είναι η νομική επιστήμη και επιλέξαμε να ασχοληθούμε με την ελληνική γλώσσα, και πιο συγκεκριμένα με το σύνολο δεδομένων "RAPTARCHIS47K“, το οποίο αποτελείται απο πάνω απο 47 χιλιάδες νομικές πηγές. Στόχος αυτής της πτυχιακής είναι η πρακτική αξιολόγηση μεθόδων κατηγοριοποίησησς πάνω σε ελληνικά νομικά κείμενα, η σύγκριση μεθόδων ειδικά διαμορφωμένων για προβλήματα κατηγοιοποίησης πολλαπλών ετικετών μεγάλης κλίμακας με σύγχρονες τεχνολογίες αιχμής, καθώς και ο πειραματισμός στην εκμάθηση πρόβλεψης ετικετέων που εμφανίζονται σπάνια στο σύνολο εκμάθησης. Θα επικεντρωθούμε σε κάποιες απο τις πιο διαδεδομένες και υποσχόμενες μεθόδους πιθανοτικών δέντρων ετικέτας, υβριδικών μεθόδων πιθανοτικών δέντρων, και νευρωνικών δικτύων κάθως επίσης και σε τεχνικές διαδιδόμενης μάθησης που αξιοπούν τις σύγχρονες μεθόδους βασισμένες σε μετασχηματιστές (Transformers). Αξιολογούμε αυτές τις μεθόδους πάνω σε τρία διαφορετικά επίπεδα συχνότητας εμφάνισης ετικετών (όλες οι ετικές, οι πιο συχνές, οι πιο σπάνιες), και ερευνούμε μια πληθώρα παραμαετροποιήσεων για κάθε μέθοδο ξεχωριστά. Τα πειράματα μας έδειξαν ότι δεν υπάρχει κανόνας για το ποια μέθοδος πρέπει να προτιμάται πάντα καθώς διαφορετικές επιλογές έδωσαν τα καλύτερα αποτελέσματα στα διαφορετικά επιπεδα εξέτασης. Τα μοντέλα βασισμένα σε τελευταίας τεχνολογίας μετασχηματιστές έδωσαν καλύτερα αποτελέσματα στα προβλήματα όπου οι συχνές ετικέτες κυριαρχούσαν, ενώ οι μέθοδοι βασισμένες σε πιθανοτικά δέντρα έδειξαν την υπεροχή τους σε προβλήματα που υπήρχαν κυρίως σπάνιες ετικέτες. Από όσο γνωρίζουμε, η επιστημονική περιοχή της κατηγοριοποίησης πολλαπλών ετικετών μεγάλης κλίμακας είναι υπομελετημένη ειδικά στην περίπτωση της ελληνικής γλώσσας, και ελπίζουμε ότι αυτή η μελέτη θα αποτελέσει σημείο αναφοράς για μελλοντικές έρευνες.

Κύρια θεματική κατηγορία:

Τεχνολογία – Πληροφορική

Λέξεις-κλειδιά:

Νομικά Κείμενα, Κατηγοριοποίηση πολλαπλών ετικετών, Πιθανοτικά δέντρα ετικετών, Νευρωνικά Δίκτυα

Ευρετήριο:

Ναι

Αρ. σελίδων ευρετηρίου:

Εικονογραφημένη:

Ναι

Αρ. βιβλιογραφικών αναφορών:

Αριθμός σελίδων:

Αρχείο: