Data Democratisation with Deep Learning: Structured Query Translation from and to Natural Language

Διπλωματική Εργασία uoadl:3320444 242 Αναγνώσεις

Μονάδα:
Κατεύθυνση Μεγάλα Δεδομένα και Τεχνητή Νοημοσύνη
Πληροφορική
Ημερομηνία κατάθεσης:
2023-04-10
Έτος εκπόνησης:
2023
Συγγραφέας:
Κατσογιάννης-Μεϊμαράκης Γιώργος
Στοιχεία επιβλεπόντων καθηγητών:
Γεωργία Κούτρικα, Διευθύντρια Ερευνών, Ερευνητικό Κέντρο Αθηνά
Πρωτότυπος Τίτλος:
Data Democratisation with Deep Learning: Structured Query Translation from and to Natural Language
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Δημοκρατικοποίηση Δεδομένων με Βαθιά Μάθηση: Μετάφραση Δομημένων Ερωτημάτων από και σε Φυσική Γλώσσα
Περίληψη:
Ενώ τα δεδομένα οδηγούν και επηρεάζουν πολλές ανθρώπινες δραστηριότητες, τα εμπόδια που τίθενται από τα εργαλεία που χρειάζονται για να ανακτηθούν, όπως η γλώσσα δομημένων ερωτημάτων (SQL), κάνουν τα δεδομένα μη προσβάσιμα για πολλούς χρήστες. Για να εξαλείψουν αυτά τα εμπόδια, οι ερευνητές έχουν στραφεί προς τη δημιουργία διεπαφών φυσικής γλώσσας που θα επιτρέπουν την πρόσβαση σε βάσεις δεδομένων αποκλειστικά μέσω φυσικής γλώσσας.

Οι διεπαφές φυσικής γλώσσας χρησιμοποιούν συστήματα κειμένου-σε-SQL τα οποία μεταφράζουν τη φυσική γλώσσα από το χρήστη σε ερωτήματα SQL τα οποία ανακτούν τα δεδομένα που ζητάει.Πρόσφατα, νέα συστήματα κειμένου-σε-SQL υιοθετούν τεχνικές βαθιάς μάθησης, δείχνοντας πολύ υποσχόμενα αποτελέσματα. Την ίδια στιγμή, πολλές προκλήσεις παραμένουν ανοιχτές, καθιστώντας αυτήν την περιοχή ένα ενεργό και ανθηρό πεδίο για έρευνα και ανάπτυξη. Για να πετύχουμε αληθινή πρόοδο στη δημιουργία συστημάτων κειμένου-σε-SQL, πρέπει να διαλευκάνουμε όσα έχουν προταθεί, να καταλάβουμε πώς και πότε μπορούμε να χρησιμοποιήσουμε την κάθε μέθοδο, και, τελικά, να αναγνωρίσουμε τις ερευνητικές προκλήσεις που παραμένουν μπροστά μας. Παρουσιάζουμε μια αναλυτική ταξινομία νευρωνικών συστημάτων κειμένου-σε-SQL που θα βοηθήσει στην βαθύτερη μελέτη όλων των μερών ενός τέτοιου συστήματος. Αυτή η ταξινομία θα μας επιτρέψει να κάνουμε καλύτερες συγκρίσεις μεταξύ διαφορετικών προσεγγίσεων, αλλά και να εντοπίσουμε συγκεκριμένες προκλήσεις σε κάθε βήμα της διαδικασίας, βοηθώντας τους ερευνητές να σχεδιάσουν καλύτερα την αναζήτησή τους προς το «ιερό δισκοπότηρο» της προσβασιμότητας στις βάσεις δεδομένων.

Ωστόσο, πώς μπορεί ο χρήστης να επαληθεύσει ότι το ερώτημα SQL που δημιουργήθηκε ταιριάζει με την πρόθεσή του εάν δεν είναι εξοικειωμένος με την SQL; Για την αντιμετώπιση αυτού του προβλήματος, απαιτείται ένα σύστημα που μπορεί να μεταφράσει το ερώτημα SQL στη φυσική γλώσσα (γνωστό και ως σύστημα SQL-σε-κείμενο). Εξερευνούμε το πρόβλημα της μετάφρασης SQL σε κείμενο, εξετάζουμε τις προκλήσεις και τις ιδιαιτερότητές του και παρουσιάζουμε ένα μοντέλο που βασίζεται σε δίκτυα Transformer που μπορεί να δημιουργήσει εύγλωττες επεξηγήσεις ερωτημάτων. Επιπλέον, εξετάζουμε τις δυσκολίες της αυτόματης αξιολόγησης της απόδοσης ενός τέτοιου συστήματος και εξετάζουμε πώς συμπεριφέρονται διαφορετικές αυτόματες μετρικές στα πλαίσια του προβλήματος μετάφρασης SQL σε κείμενο.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
Σημασιολογική Ανάλυση, Παραγωγή Φυσικής Γλώσσας, Βάσεις Δεδομένων, Βαθιά Μάθηση, Μάθηση Μετρικών, Μηχανική Μετάφραση
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
4
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
136
Αριθμός σελίδων:
89
katsogiannis_master_thesis.pdf (1 MB) Άνοιγμα σε νέο παράθυρο