Πέργαμος - Βιβλιοθήκη και Κέντρο Πληροφόρησης Εθνικού και Καποδιστριακού Πανεπιστημίου Αθηνών

Μονάδα:

Τμήμα Πληροφορικής & Τηλεπικοινωνιών
Πληροφορική

Ημερομηνία κατάθεσης:

2022-11-10

Έτος εκπόνησης:

2022

Συγγραφέας:

ΣΙΑΤΡΑΣ ΕΥΣΤΑΘΙΟΣ

Στοιχεία επιβλεπόντων καθηγητών:

Μανόλης Κουμπαράκης, Καθηγητής, Τμήμα Πληροφορικής και Τηλεπικοινωνιών, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών

Πρωτότυπος Τίτλος:

GreekQA: A Crowdsourcing Platform and its Use for Creating a Greek Question Answering Dataset

Γλώσσες εργασίας:

Αγγλικά

Μεταφρασμένος τίτλος:

GreekQA: Πλατφόρμα Πληθοπορισμού και η Χρήση της για την Δημιουργία Ελληνικού Συνόλου Δεδομένων Ερωτήσεων και Απαντήσεων

Περίληψη:

Η εκμάθηση των μηχανών να κατανοούν, να επεξεργάζονται και να παράγουν ανθρώπινη γλώσσα αποτελεί μια διαρκή πρόκληση από τις πρώτες δεκαετίες των ηλεκτρονικών ψηφιακών προγραμματιζόμενων υπολογιστών. Στη σύγχρονη εποχή, η πρόοδος που έχει σημειωθεί στον ερευνητικό τομέα της Επεξεργασίας Φυσικής Γλώσσας είναι παρούσα στην καθημερινή ζωή και διευκολύνει τους ανθρώπους με ένα αυξανόμενο σύνολο ανέσεων. Αυτός ο τομέας για άλλη μια φορά άνθησε με την πρόσφατη άφιξη ολοένα και πιο εξελιγμένων και ευέλικτων γλωσσικών μοντέλων. Αυτά τα μοντέλα τελευταίας τεχνολογίας αντιμετωπίζουν μια πληθώρα εργασιών Επεξεργασίας Φυσικής Γλώσσας αυξάνοντας την απόδοση. Η Αναγνωστική Κατανόηση είναι μια από τις βασικές εργασίες που επωφελήθηκαν από αυτές τις πρόσφατες εξελίξεις. Αυτή η δύσκολη εργασία απαιτεί από τις μηχανές να διαβάζουν ένα απόσπασμα κειμένου και να απαντούν σε ερωτήσεις με βάση το περιεχόμενο. Εκτός από τη δομή αυτών των μοντέλων, τα σύνολα δεδομένων κατανόησης ανάγνωσης έχουν διαδραματίσει αποφασιστικό ρόλο στην επίτευξη επιτυχημένων αποτελεσμάτων. Έχοντας ως κίνητρο αυτή την τάση στην Αναγνωστική Κατανόηση, ολοένα και περισσότερα συνόλα δεδομένων ερωτήσεων και απαντήσεων έχουν εμφανιστεί στα αγγλικά και ένα συγκεκριμένο σύνολο άλλων γλωσσών. Όσον αφορά την ελληνική γλώσσα, δεν έχει σημειωθεί κάποια πρόοδος σε εγγενή σύνολα δεδομένων ερωτήσεων και απαντήσεων, πέρα από αυτόματα μεταφρασμένα σύνολα από άλλες γλώσσες.

Υπό το φως των παραπάνω, παρουσιάζουμε το Ελληνικό Σύνολο Δεδομένων Ερωτήσεων και Απαντήσεων GreekQA, ένα σύνολο δεδομένων Αναγνωστικής Κατανόησης στα ελληνικά το οποίο βασίζεται σε άρθρα της Wikipedia. Το σύνολο δεδομένων GreekQA1.0 αποτελείται από 1.000+ ερωτήσεις που τέθηκαν από εθελοντές σε επιμελημένα αποσπάσματα από ένα σύνολο άρθρων της Wikipedia στα ελληνικά. Για την ανάπτυξη του συνόλου δεδομένων GreekQA, εισάγουμε επίσης την ομώνυμη Πλατφόρμα Πληθοπορισμού και Επισημείωσης Δεδομένων GreekQA, μια διαδικτυακή εφαρμογή ειδικά σχεδιασμένη και υλοποιημένη για τον πληθοπορισμό της συλλογής ζευγών ερωτήσεων και απαντήσεων για αυτό το σύνολο δεδομένων. Αναλύουμε τις απαιτήσεις και τις επιλεγμένες τεχνολογίες της πλατφόρμας, περιγράφουμε τον σχεδιασμό και παρουσιάζουμε διεξοδικά την υλοποίηση. Έπειτα, περιγράφουμε τη διαδικασία συλλογής και επιμέλειας αποσπασμάτων κειμένου και τις καθορισμένες κατευθυντήριες γραμμές για τη συλλογή ζευγών ερωτήσεων και απαντήσεων. Προκειμένου να κατανοήσουμε τις ιδιότητες του συνόλου δεδομένων GreekQA1.0, αναλύουμε την ποικιλομορφία στις ερωτήσεις και τις απαντήσεις καθώς και το σκεπτικό που απαιτείται για να απαντηθούν οι ερωτήσεις με βάση το αντίστοιχο απόσπασμα. Τέλος, αξιολογούμε την Ανθρώπινη Απόδοση ως βάση για μελλοντική πειραματική αξιολόγηση γλωσσικών μοντέλων που χρησιμοποιούν αυτό το σύνολο δεδομένων.

Κύρια θεματική κατηγορία:

Τεχνολογία – Πληροφορική

Λέξεις-κλειδιά:

Μηχανική Αναγνωστική Κατανόηση, Απάντηση σε Ερωτήσεις, Συλλογή Συνόλου Δεδομένων, Πλατφόρμα Πληθοπορισμού

Ευρετήριο:

Ναι

Αρ. σελίδων ευρετηρίου:

Εικονογραφημένη:

Ναι

Αρ. βιβλιογραφικών αναφορών:

Αριθμός σελίδων:

Αρχείο: