Στοιχεία επιβλεπόντων καθηγητών:
Δημήτριος Γαλάνης, Ερευνητής Γ', Ερευνητικό κέντρο "Αθηνά", Ινστιτούτο Επεξεργασίας του Λόγου (ΙΕΛ)
Αικατερίνη Γκίρτζου, Επιστημονική Συνεργάτιδα, Ερευνητικό κέντρο "Αθηνά", Ινστιτούτο Επεξεργασίας του Λόγου (ΙΕΛ)
Σωκράτης Σοφιανόπουλος, Επιστημονικός Συνεργάτης, Ερευνητικό κέντρο "Αθηνά", Ινστιτούτο Επεξεργασίας του Λόγου (ΙΕΛ)
Περίληψη:
Ο εντοπισμός των βασικών θέσεων μέσα σε ένα μεγάλο όγκο ιδεολογικά
χρωματισμένων κειμένων, που παρουσιάζονται καθημερινά στα κοινωνικά δίκτυα και τις
διαδικτυακές συζητήσεις, αποτελεί ένα απαραίτητο εργαλείο για την συνειδητή λήψη
αποφάσεων. Στη διάρκεια του 8ου Εργαστηρίου πάνω στην Εξόρυξη Επιχειρημάτων στο
Συνέδριο EMNLP το 2021, σε μια προσπάθεια να προταθούν συναφείς λύσεις σε αυτό
το καινούριο πρόβλημα, παρουσιάστηκε ένα έργο προς κοινή επίλυση με τίτλο
«Quantitative Argument Summarization - Key Point Analysis». Το έργο χωρίζεται στην
Παραγωγή Keypoints (ΠΚ), που ασχολείται με τον εντοπισμό και την παραγωγή
δηλώσεων-κλειδιά από ένα σώμα κειμένων, και την Αντιστοίχιση Keypoints (ΑΚ), που
αντιστοιχεί αυτές τις δηλώσεις πίσω σε επιχειρήματα του αρχικού σώματος κειμένων.
Αυτός ο συνδυασμός υπο-εργασιών προτείνει μια ποσοτική και επεξηγήσιμη λύση στον
τομέα της πολυκειμενικής περίληψης επιχειρημάτων, η οποία έχει διερευνηθεί αρκετά
στην Αγγλική γλώσσα, ωστόσο το σημερινό τοπίο στερείται έρευνας σε ένα
πολυγλωσσικό περιβάλλον. Η παρούσα διπλωματική εργασία αποτελεί μια προσπάθεια
προσαρμογής του έργου της Ανάλυσης Keypoints στην Ελληνική, μια γλώσσα με
χαμηλό επίπεδο πόρων. Προτείνουμε βασικές λύσεις για κάθε υπο-εργασία,
αξιοποιώντας τα πιο σύγχρονα διαθέσιμα ελληνικά γλωσσικά μοντέλα, εστιάζοντας στο
πρόσφατο μεγάλο γλωσσικό μοντέλο με αρχιτεκτονική decoder-only, το Meltemi, σε μια
προσπάθεια να εξερευνήσουμε τις δυνατότητές του στην Κατανόηση και την Παραγωγή
Κειμένου. Σε κάθε υπο-εργασία χρησιμοποιούμε το επίσημο σύνολο δεδομένων του
έργου, το οποίο μεταφράσαμε στα Ελληνικά με μεθόδους μηχανικής μετάφρασης και με
ανθρώπινη παρέμβαση. Για την ΑΚ χρησιμοποιήθηκε το θεμελιώδες μοντέλο,
κβαντοποιημέμο σε 4 bits, και εκπαιδευμένο με Parameter Efficient Fine Tuning (PEFT)
μεθόδους για κειμενική ταξινόμηση, ενώ το συγκρίνουμε με δύο υπάρχουσες
υλοποιήσεις με encoder-only μοντέλα. Για την ΠΚ πειραματιζόμαστε με μεθόδους
abstractive παραγωγής κειμένου, βασισμένες σε μεθόδους συσταδοποίησης, με
μοντέλα encoder-decoder και decoder-only (θεμελιώδη και instruction-tuned) σε 0-shot
και few-shot πειράματα. Τα ευρήματά μας δείχνουν την εξέχουσα απόδοση του
Meltemi-base-v1.0 στην ΑΚ ως έργο κειμενικής ταξινόμησης (avg mAP: 89.06) σε
σχέση με encoder-only μοντέλα (avg mAP: 82.01) που έχουν εκπαιδευτεί για τον ίδιο
σκοπό, καθώς και την εξέχουσα απόδοση του Meltemi-Instruct-v1.5 (R_1: 20.2, R_2:
8.0, R_L: 19.1, BERTScore P: 74.0, R: 72.8, F1: 73.4 ), που ξεπερνάει μοντέλα της
σειράς GreekT5 στην abstractive ΠΚ (R_1: 12.3, R_2: 3.6, R_L: 11.0, BERTScore P:
66.0, R: 67.5, F1: 66.7). Οι προτεινόμενες προσεγγίσεις παρέχουν μια πολλά
υποσχόμενη μεθοδολογία για την επέκταση έργου της Ανάλυσης Keypoints σε ένα
πολύγλωσσο περιβάλλον.
Λέξεις-κλειδιά:
πολυκειμενική, ποσοτική περίληψη επιχειρημάτων, ταξινόμηση κειμένου, μέθοδοι συσταδοποίησης, αφηρημένη παραγωγή κειμένου