AutoER: Auto-Configuring Entity Resolution pipelines

Διπλωματική Εργασία uoadl:3417680 53 Αναγνώσεις

Μονάδα:
Κατεύθυνση Διαχείριση Δεδομένων, Πληροφορίας και Γνώσης
Πληροφορική
Ημερομηνία κατάθεσης:
2024-09-26
Έτος εκπόνησης:
2024
Συγγραφέας:
Νικολέτος Κωνσταντίνος
Στοιχεία επιβλεπόντων καθηγητών:
Βασίλης Ευθυμίου, Επίκουρος Καθηγητής, Τμήμα Πληροφορικής και Τηλεματικής, Χαροκόπειο Πανεπιστήμιο
Γιώργος Παπαδάκης, Ερευνητής, Τμήμα Πληροφορικής και Τηλεπικοινωνιών, ΕΚΠΑ
Κωνσταντίνος Στεφανίδης, Καθηγητής, Τμήμα Τεχνολογιών Πληροφορικής και Επικοινωνιών, Tampere University Finland
Μανόλης Κουμπαράκης, Καθηγητής, Τμήμα Πληροφορικής και Τηλεπικοινωνιών, ΕΚΠΑ
Πρωτότυπος Τίτλος:
AutoER: Auto-Configuring Entity Resolution pipelines
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
AutoER: Αυτόματη Παραμετροποίηση Entity Resolution μεθόδων
Περίληψη:
Η ίδια οντότητα στον πραγματικό κόσμο (π.χ. μία ταινία, ένα εστιατόριο, ένα άτομο) μπορεί να περιγραφεί με διάφορους τρόπους σε διαφορετικά σύνολα δεδομένων. Η ανίχνευση οντοτήτων (Entity Resolution, ER) είναι το πρόβλημα της εύρεσης περιγραφών που αναφέρονται στην ίδια οντότητα, βελτιώνοντας έτσι την ποιότητα των δεδομένων και, κατ’ επέκταση, την αξία τους. Ωστόσο, μια μεθοδολογία ER συνήθως περιλαμβάνει αρκετά στάδια (π.χ. αποκλεισμός, εκτίμηση ομοιότητας, ομαδοποίηση), με κάθε στάδιο να απαιτεί τη δική του διαμόρφωση και ρύθμιση. Η επιλογή των καλύτερων παραμέτρων και μεθόδων, ανάμεσα σε έναν τεράστιο αριθμό πιθανών συνδυασμών, είναι συγκεκριμένη για κάθε σύνολο δεδομένων, όπως έχει αποδειχθεί πειραματικά, ενώ συχνά απαιτεί την ύπαρξη κάποιων προεπισημασμένων παραδειγμάτων, δηλαδή των αληθινών ζευγαριών απο όμοιες οντότητες (ground truth). Ουσιαστικά, η εύρεση της βέλτιστης παραμετροποίησης, για την εύρεση των όμοιων οντοτήτων ενός συνόλου δεδομένων αποτελεί μια δύσκολη εργασία, όχι μόνο για απλούς χρήστες που θέλουν να καθαρίσουν τα δεδομένα τους, αλλά και για ειδικούς στο ER. Σε αυτή την διπλωματική εργασία, παρουσιάζουμε το AutoER, μια προσέγγιση που προτείνει αυτόματα την πιο υποσχόμενη μεθολογία ER, ακόμη και όταν δεν υπάρχει διαθέσιμο σύνολο αληθινά όμοιων ζευγαριών. Το AutoER βασίζεται σε στρατηγικές δειγματοληψίας που μπορούν να μειώσουν σημαντικά τον χώρο αναζήτησης των τιμών παραμετροποίησης, στο σενάριο όπου υπάρχει διαθέσιμο σύνολο αλήθειας. Όταν δεν υπάρχουν προεπισημασμένα παραδείγματα για ένα δεδομένο σύνολο δεδομένων, το AutoER στηρίζεται σε ένα προκαθορισμένο σύνολο χαρακτηριστικών του συνόλου δεδομένων που σχετίζονται με το ER, μαζί με χαρακτηριστικά της μεθοδολογίας και άλλα σύνολα δεδομένων που έχουν διαθέσιμο σύνολο αλήθειας, για να εκπαιδεύσει ένα μοντέλο παλινδρόμησης. Δείχνουμε πειραματικά ότι το AutoER προτείνει με συνέπεια και αποτελεσματικότητα σχεδόν βέλτιστες μεθοδολογίες ER, συγκρίνοντάς το με εξαντλητική αναζήτηση σε πλέγμα (Grid Search), σε έντεκα σύνολα δεδομένων αναφοράς για το ER.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
Ανίχνευση Οντοτήτων, Αυτόματη Παραμετροποίηση, Τεχνητή Νοημοσύνη
Ευρετήριο:
Όχι
Αρ. σελίδων ευρετηρίου:
0
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
70
Αριθμός σελίδων:
41
Αρχείο:
Δεν επιτρέπεται η πρόσβαση στο αρχείο έως 2025-03-26.

AutoER_MSC_Thesis.pdf
970 KB
Δεν επιτρέπεται η πρόσβαση στο αρχείο έως 2025-03-26.