PyJedAI Parallelization with MPIRE

Πτυχιακή Εργασία uoadl:3395772 14 Αναγνώσεις

Μονάδα:
Τμήμα Πληροφορικής & Τηλεπικοινωνιών
Πληροφορική
Ημερομηνία κατάθεσης:
2024-04-08
Έτος εκπόνησης:
2024
Συγγραφέας:
ΚΟΝΤΟΝΗΣ ΗΛΙΑΣ-ΕΛΕΥΘΕΡΙΟΣ
Στοιχεία επιβλεπόντων καθηγητών:
Manolis Koubarakis, Professor and Director of Graduate Studies in the Department of Informatics and Telecommunications, National and Kapodistrian University
Πρωτότυπος Τίτλος:
PyJedAI Parallelization with MPIRE
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Παραλληλοποίηση του PyJedAI με τη χρήση του MPIRE
Περίληψη:
Η ανάλυση οντοτήτων είναι μια κρίσιμη εργασία σε διάφορες εφαρμογές, αλλά αντιμετω-
πίζει την τετραγωνική πολυπλοκότητα. Για να καταστεί εφικτή η ανάλυση οντοτήτων με
μεγάλα σύνολα δεδομένων, χρησιμοποιείται η ομαδοποίηση. Συντακτικές μέθοδοι ομαδο-
ποίησης (blocking) συνήθως οργανώνουν παρόμοιες οντότητες σε αλληλοκαλυπτόμενα
μπλοκ, μειώνοντας τον αριθμό των απαραίτητων συγκρίσεων. Περαιτέρω κέρδη απόδο-
σης επιτυγχάνονται με τη μετα-ομαδοποίηση (meta-blocking), το οποίο περιορίζει τις πε-
ριττές συγκρίσεις σε επικαλυπτόμενα μπλοκ, βελτιώνοντας σημαντικά την ακρίβεια χωρίς
να μειώνεται πολύ η ανάκληση.
Παρά τη χρονική του απόδοση, η εφαρμογή της μετα-ομαδοποίησης (meta-blocking) για
την επίλυση προβλημάτων επίλυσης οντοτήτων σε πολύ μεγάλα σύνολα δεδομένων πα-
ραμένει μια πρόκληση. Για παράδειγμα, η επεξεργασία 7,4 εκατομμυρίων οντοτήτων μπο-
ρεί να διαρκέσει σχεδόν οκτώ ολόκληρες ημέρες σε έναν διακομιστή υψηλής τεχνολογίας.
Σε αυτή τη διατριβή, εξετάζουμε την παραλληλοποίηση του python πακέτου PyJedAI. Η
Python εισάγει νέες προκλήσεις λόγω του Global Interpreter Lock (GIL) και της ανάγκης
να ενσωματωθεί ένα μοντέλο fork-join αντί της δημιουργίας πολλαπλών νημάτων. Χρησι-
μοποιούμε τη βιβλιοθήκη MPIRE για την υλοποίηση των παράλληλων αλγορίθμων μετα-
ομαδοποίησης σε python.
Η πειραματική ανάλυση επικυρώνει την επεκτασιμότητα της παράλληλης υλοποίησης κα-
θώς και τη σημαντική μείωση χρόνου σε ορισμένα στάδια της μετα-ομαδοποίησης. Επίσης,
θα αναλύσουμε και τα αδιέξοδα που συναντήσαμε στη χρονική απόδοση της υλοποίησής
μας λόγω του μοντέλου fork-join και πώς είναι δυνατόν να τα ξεπεράσουμε.
Κύρια θεματική κατηγορία:
Θετικές Επιστήμες
Λέξεις-κλειδιά:
Ανάλυση οντοτήτων, Meta-blocking, παραλληλοποίηση, fork-join, GIL, MPIRE, PyJedAI
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
2
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
33
Αριθμός σελίδων:
43
BSc_Thesis_on_pyJedAI_Parallelization_with_MPIRE.pdf (1 MB) Άνοιγμα σε νέο παράθυρο