DistilBERT-EL-KLD: Knowledge Distillation and Greek Language Modeling

Διπλωματική Εργασία uoadl:3398449 28 Αναγνώσεις

Μονάδα:
Κατεύθυνση Γλωσσική Τεχνολογία
Πληροφορική
Ημερομηνία κατάθεσης:
2024-05-13
Έτος εκπόνησης:
2024
Συγγραφέας:
Κουρσάρης Αθανάσιος
Στοιχεία επιβλεπόντων καθηγητών:
Όνομα: Εμμανουήλ
Επώνυμο: Κουμπαράκης
Βαθμίδα: Καθηγητής
Τμήμα: Πληροφορικής και Επικοινωνιών
Ίδρυμα: ΕΚΠΑ
Πρωτότυπος Τίτλος:
DistilBERT-EL-KLD: Knowledge Distillation and Greek Language Modeling
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
DistilBERT-EL-KLD: Απόσταξη Γνώσης και Μοντελοποίηση της Ελληνικής Γλώσσας
Περίληψη:
Σκοπός της εν λόγω διπλωματικής εργασίας είναι η ανάπτυξη, εκπαίδευση και αξιολόγηση ενός μοντέλου DistilBERT, εξειδικευμένου αποκλειστικά στην Ελληνική γλώσσα. Μετά από εμβριθή ανασκόπηση του θεωρητικού υποβάθρου (κλασική μηχανική μάθηση, βαθιά μάθηση και νευρωνικά δίκτυα) με σκοπό να καταστεί αντιληπτή η αρχιτεκτονική των νευρωνικών δικτύων της οικογένειας των δικτύων μετασχηματιστών (Transformers) και συγκεκριμένα των μοντέλων BERT και DistilBERT, περιγράφεται αναλυτικά η διαδικασία ανάπτυξης και προεκπαίδευσης του μοντέλου σε μεγάλα σώματα ελληνικών κειμένων (OSCAR, Wikipedia, Europarl) μέσω της διαδικασίας Απόσταξης Γνώσης, καθώς και της περαιτέρω εκπαίδευσης σε διεργασίες φυσικής γλώσσας, όπως η Αναγνώριση Επώνυμων Οντοτήτων (NER), η αυτοματοποιημένη Αναγνώριση Μερών του Λόγου (PoS Tagging), καθώς και η διαδικασία Διεξαγωγής Συμπερασμάτων σε Φυσική Γλώσσα (NLI). Η τεχνική της απόσταξης γνώσης, η οποία αποτελεί μία μορφή συμπίεσης των παραμέτρων ενός νευρωνικού δικτύου, φαίνεται να συμβάλλει καταλυτικά στη δημιουργία μοντέλων βαθιάς μάθησης, τα οποία αν και, συγκρινόμενα με συγγενικά μοντέλα, είναι κατά πολύ ταχύτερα και πιο οικονομικά από υπολογιστική άποψη, δεν παρουσιάζουν μεγάλες απώλειες όσον αφορά την ακρίβεια σε διεργασίες Επεξεργασίας Φυσικής Γλώσσας. Το μοντέλο που αναπτύχθηκε στα πλαίσια αυτής της διπλωματικής εργασίας (DistilBERT-EL-KLD), το οποίο αποτελεί συμπιεσμένη μορφή του GREEK-BERT, έχει τη δυνατότητα να παράγει αποτελέσματα απολύτως συγκρίσιμα με αυτά του προκατόχου του.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
συμπίεση, απόσταξη γνώσης, νευρωνικά δίκτυα, βαθιά μάθηση, ταξινόμηση
Ευρετήριο:
Όχι
Αρ. σελίδων ευρετηρίου:
0
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
30
Αριθμός σελίδων:
60
Thesis-Koursaris-2024.pdf (2 MB) Άνοιγμα σε νέο παράθυρο