Στοιχεία επιβλεπόντων καθηγητών:
Όνομα: Εμμανουήλ
Επώνυμο: Κουμπαράκης
Βαθμίδα: Καθηγητής
Τμήμα: Πληροφορικής και Επικοινωνιών
Ίδρυμα: ΕΚΠΑ
Περίληψη:
Σκοπός της εν λόγω διπλωματικής εργασίας είναι η ανάπτυξη, εκπαίδευση και αξιολόγηση ενός μοντέλου DistilBERT, εξειδικευμένου αποκλειστικά στην Ελληνική γλώσσα. Μετά από εμβριθή ανασκόπηση του θεωρητικού υποβάθρου (κλασική μηχανική μάθηση, βαθιά μάθηση και νευρωνικά δίκτυα) με σκοπό να καταστεί αντιληπτή η αρχιτεκτονική των νευρωνικών δικτύων της οικογένειας των δικτύων μετασχηματιστών (Transformers) και συγκεκριμένα των μοντέλων BERT και DistilBERT, περιγράφεται αναλυτικά η διαδικασία ανάπτυξης και προεκπαίδευσης του μοντέλου σε μεγάλα σώματα ελληνικών κειμένων (OSCAR, Wikipedia, Europarl) μέσω της διαδικασίας Απόσταξης Γνώσης, καθώς και της περαιτέρω εκπαίδευσης σε διεργασίες φυσικής γλώσσας, όπως η Αναγνώριση Επώνυμων Οντοτήτων (NER), η αυτοματοποιημένη Αναγνώριση Μερών του Λόγου (PoS Tagging), καθώς και η διαδικασία Διεξαγωγής Συμπερασμάτων σε Φυσική Γλώσσα (NLI). Η τεχνική της απόσταξης γνώσης, η οποία αποτελεί μία μορφή συμπίεσης των παραμέτρων ενός νευρωνικού δικτύου, φαίνεται να συμβάλλει καταλυτικά στη δημιουργία μοντέλων βαθιάς μάθησης, τα οποία αν και, συγκρινόμενα με συγγενικά μοντέλα, είναι κατά πολύ ταχύτερα και πιο οικονομικά από υπολογιστική άποψη, δεν παρουσιάζουν μεγάλες απώλειες όσον αφορά την ακρίβεια σε διεργασίες Επεξεργασίας Φυσικής Γλώσσας. Το μοντέλο που αναπτύχθηκε στα πλαίσια αυτής της διπλωματικής εργασίας (DistilBERT-EL-KLD), το οποίο αποτελεί συμπιεσμένη μορφή του GREEK-BERT, έχει τη δυνατότητα να παράγει αποτελέσματα απολύτως συγκρίσιμα με αυτά του προκατόχου του.
Λέξεις-κλειδιά:
συμπίεση, απόσταξη γνώσης, νευρωνικά δίκτυα, βαθιά μάθηση, ταξινόμηση