The Best of Both Worlds? Exploring a Hybrid Approach in RAG

Διπλωματική Εργασία uoadl:3475986 35 Αναγνώσεις

Μονάδα:
Κατεύθυνση Γλωσσική Τεχνολογία
Πληροφορική
Ημερομηνία κατάθεσης:
2025-03-20
Έτος εκπόνησης:
2025
Συγγραφέας:
Μπάτση Ελένη
Στοιχεία επιβλεπόντων καθηγητών:
ΕΠΙΒΛΕΠΟΥΣΑ: Αικατερίνη Γκίρτζου, Επιστημονική Συνεργάτιδα, Ινστιτούτο Επεξεργασίας Λόγου
ΕΞΕΤΑΣΤΙΚΗ ΕΠΙΤΡΟΠΗ: Αθανάσιος Κατσαμάνης, Διευθυντής Ερευνών, Ινστιτούτο Επεξεργασίας Λόγου
Δημήτριος Γαλάνης, Κύριος Ερευνητής, Ινστιτούτο Επεξεργασίας Λόγου
Πρωτότυπος Τίτλος:
The Best of Both Worlds? Exploring a Hybrid Approach in RAG
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Αξιοποιώντας τα Θετικά Στοιχεία Δύο Μεθόδων: Διερεύνηση μιας Υβριδικής Προσέγγισης στο RAG
Περίληψη:
Η παρούσα μελέτη διερευνά την επίδραση της ανάκτησης δομημένων και μη δομημένων δεδομένων σε Retrieval-Augmented Generation (RAG) συστήματα για Mεγάλα Γλωσσικά μοντέλα. Ο κύριος στόχος είναι να εκτιμηθεί κατά πόσο μια υβριδική προσέγγιση RAG, η οποία συνδυάζει την τεχνική DocumentRAG (ανάκτηση βάσει διανυσμάτων) και GraphRAG (ανάκτηση βάσει δομημένης γνώσης) μπορεί να ξεπεράσει την επίδοση των επιμέρους προσεγγίσεων. Για να επιτευχθεί αυτό, συλλέχθηκε ένα σύνολο δεδομένων από άρθρα ειδήσεων, τα οποία μετατράπηκαν αφενός σε κειμενικές αναπαραστάσεις και αφετέρου σε αναπαραστάσεις βασισμένες σε γραφήματα. Η μελέτη συγκρίνει συστηματικά τις επιδόσεις τριών μεθόδων ανάκτησης (DocumentRAG, GraphRAG και HybridRAG), ενώ αξιολογεί παράλληλα την επίδοση του βασικού γλωσσικού μοντέλου, Mistral-7B-v0.3, ως σημείο αναφοράς. Οι προσεγγίσεις αξιολογούνται μέσω πρότυπων μετρικών (ROUGE-2, ROUGE-L και BERTScore). Τα ευρήματα δείχνουν ότι το DocumentRAG υπερτερεί σταθερά του GraphRAG, ενώ το HybridRAG δεν παρουσιάζει σημαντικές βελτιώσεις συγκριτικά με το DocumentRAG, παρά τα θεωρητικά του πλεονεκτήματα. Για την περαιτέρω διερεύνηση αυτών των ευρημάτων, διεξήχθη ένα δεύτερο πείραμα σε ένα επιλεγμένο υποσύνολο δεδομένων, εφαρμόζοντας graph augmentation και ένα πιο εκλεπτυσμένο entity extraction, με στόχο την βελτίωση του GraphRAG και κατ’επέκτασιν του HybridRAG. Ενώ οι αλλαγές αυτές οδήγησαν σε ορισμένες βελτιώσεις της επίδοσης του GraphRAG, το HybridRAG δεν κατάφερε να ξεπεράσει το DocumentRAG. Συνεπώς, εξάγεται το συμπέρασμα ότι, ενώ το HybridRAG συνιστά μια πολλά υποσχόμενη μέθοδο, το σύστημα πρέπει να βελτιστοποιηθεί περαιτέρω για να επιτευχθούν τα επιθυμητά αποτελέσματα. Ωστόσο, η διαδικασία των πειραμάτων ήταν εξίσου ενδιαφέρουσα και επιμορφωτική, συντελώντας σε μια βαθύτερη κατανόηση του RAG.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
ανάκτηση μέσω εγγράφων, ανάκτηση μέσω γράφων, υβριδική ανάκτηση, σύστημα ερωταποκρίσεων, γράφοι γνώσεων, εμπλουτισμός γράφων, εξαγωγή οντοτήτων
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
2
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
99
Αριθμός σελίδων:
76
Αρχείο:
Δεν επιτρέπεται η πρόσβαση στο αρχείο. H πρόσβαση επιτρέπεται μόνο εντός του δικτύου του ΕΚΠΑ.

Masters_thesis_eleni_mpatsi.pdf
2 MB
Δεν επιτρέπεται η πρόσβαση στο αρχείο. H πρόσβαση επιτρέπεται μόνο εντός του δικτύου του ΕΚΠΑ.