Advancing GeoSPARQL Query Generation on YAGO2Geo: Leveraging Large Language Models and Automated URI Injection from Natural Language Questions

Πτυχιακή Εργασία uoadl:3420253 59 Αναγνώσεις

Μονάδα:
Τμήμα Πληροφορικής & Τηλεπικοινωνιών
Πληροφορική
Ημερομηνία κατάθεσης:
2024-10-19
Έτος εκπόνησης:
2024
Συγγραφέας:
ΚΑΚΑΛΗΣ ΕΥΣΤΡΑΤΙΟΣ-ΠΑΣΧΑΛΗΣ
Στοιχεία επιβλεπόντων καθηγητών:
Μανώλης Κουμπαράκης, Καθηγητής, Τμήμα πληροφορικής και τηλεπικοινωνιών, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών
Σέργιος-Ανέστης Κεφαλίδης, Συνεργαζόμενος Ερευνητής, Τμήμα πληροφορικής και τηλεπικοινωνιών, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών
Πρωτότυπος Τίτλος:
Advancing GeoSPARQL Query Generation on YAGO2Geo: Leveraging Large Language Models and Automated URI Injection from Natural Language Questions
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Προώθηση της Δημιουργίας GeoSPARQL Ερωτημάτων στο YAGO2Geo: Αξιοποίηση Μεγάλων Γλωσσικών Μοντέλων και Αυτοματοποιημένης Εισαγωγής URI από Ερωτήσεις σε Φυσική Γλώσσα
Περίληψη:
Πρόσφατα επιτεύγματα των Μεγάλων Γλωσσικών Μοντέλων (ΜΓΜ) σε διάφορα προβλήματα Επεξεργασίας Φυσικής Γλώσσας (ΕΦΓ) επιτρέπουν την δημιουργία καινοτόμων συστημάτων ερωταπαντήσεων που βασίζονται σε Γνωσιακά Διαγράμματα (ΓΔ), αξιοποιώντας τη δύναμη των ΜΓΜ. Στόχος είναι η δημιουργία ενός συστήματος που θα μετατρέπει
φυσική γλώσσα σε GeoSPARQL ερωτήματα που την απαντούν, χρησιμοποιώντας ένα
ανοιχτού-κώδικα ΜΓΜ. Ωστόσο, προκύπτουν πολλές προκλήσεις, καθώς η παραγωγή
SPARQL ερωτημάτων αποτελεί δύσκολο έργο ακόμη και για προηγμένα μοντέλα τελευταίας τεχνολογίας.
Η μελέτη επικεντρώνεται στο ΓΔ YAGO2Geo και χρησιμοποιεί το μεγαλύτερο σχετικό σύνολο δεδομένων, το GeoQuestions1089. Υπάρχουσες μέθοδοι για την παραγωγή ερωτημάτων αδυνατούν να διαχειριστούν μεγάλο πλήθος ερωτήσεων λόγο σταθερών λεξιλογίων
και πολύπλοκων δομών ΓΔ, ιδιαίτερα όσον αφορά τα γεωχωρικά δεδομένα. Για την αντιμετώπιση αυτών των προκλήσεων, η εργασία επικεντρώνεται στη χρήση ΜΓΜ, με ιδιαίτερη
έμφαση στο μοντέλο Mistral 7B, και εισάγει μια καινοτόμο τεχνική εισαγωγής URIs για την
αύξηση της ακρίβειας και αποδοτικότητας στην παραγωγή SPARQL ερωτημάτων.
Η μελέτη αξιολογεί αρκετά μοντέλα κορυφαίας τεχνολογίας όπως το Mistral, το Llama και το
GPT-4o. Μέσω της αποσαφήνισης οντοτήτων, της προσαρμοσμένης εκπαίδευσης (finetuning) και της μηχανικής προτροπών (prompt engineering), η εργασία δείχνει πώς η εισαγωγή σχετικών URIs κατά τη διάρκεια της παραγωγής ερωτημάτων μπορεί να βελτιώσει
σημαντικά την απόδοση των μοντέλων, ιδιαίτερα σε περιπτώσεις όπου η γνώση για συγκεκριμένες οντότητες είναι περιορισμένη. Τα προσαρμοσμένα μοντέλα, εκπαιδευμένα σε
ένα προσεκτικά επεξεργασμένο σύνολο δεδομένων, παρουσιάζουν σημαντικές βελτιώσεις
στην ακρίβεια των ερωτημάτων, υπερβαίνοντας μεγαλύτερα και πιο απαιτητικά μοντέλα,
και καθιερώνουν ένα νέο σημείο αναφοράς για την παραγωγή GeoSPARQL ερωτημάτων
έναντι του YAGO2Geo ΓΔ. Επιπλέον, επισημαίνονται οι τομείς στους οποίους τα τρέχοντα μοντέλα δεν ανταποκρίνονται πλήρως, υποδεικνύοντας μελλοντικές ερευνητικές κατευθύνσεις, όπως η προσαρμοσμένη εκπαίδευση για τη βελτιωμένη αυτόματη δημιουργία
URIs.
Οι κύριες συνεισφορές αυτής της εργασίας είναι:
• Μια διεξοδική ανάλυση δημοφιλών ΜΓΜ στην παραγωγή GeoSPARQL, χρησιμοποιώντας τρεις διαφορετικές μεθόδους αξιολόγησης, οι οποίες θα επιβεβαιωθούν
μέσω διασταυρωμένης εξέτασης (cross-examination).
• Ένα καινοτόμο πλαίσιο μηχανικής προτροπών, η "Εισαγωγή URIs", σχεδιασμένο για να ενισχύει την απόδοση των ΜΓΜ στην παραγωγή SPARQL ερωτημάτων
χωρίς την ανάγκη δαπανηρής εκπαίδευσης.
• Ένα προσαρμοσμένο και κβαντισμένο μοντέλο Mistral v0.2 7b, που θέτει νέο
σημείο αναφοράς στην ακρίβεια στο σύνολο δεδομένων GeoQuestions1089, διατηρώντας παράλληλα την αποδοτικότητα μέσω 4-bit ακρίβειας.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
Επεξεργασία Φυσικής Γλώσσας, Μεγάλα Γλώσσικά Μοντέλα, Γνωσιακά Διαγράμματα, Συστήματα Ερωτωαπαντήσεων, Τεχνητή Νοημοσύνη
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
2
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
50
Αριθμός σελίδων:
70