Elastic Infrastructure for Joining Stream Data

Διπλωματική Εργασία uoadl:1321034 668 Αναγνώσεις

Μονάδα:
ΠΜΣ Πληροφορικής και Τηλεπικοινωνιών με ειδίκευση Τεχνολογία Συστημάτων Υπολογιστών
Βιβλιοθήκη Σχολής Θετικών Επιστημών
Ημερομηνία κατάθεσης:
2016-07-19
Έτος εκπόνησης:
2016
Συγγραφέας:
Μαραβίτσας Νικόλαος
Στοιχεία επιβλεπόντων καθηγητών:
Αλέξης Δελής
Πρωτότυπος Τίτλος:
Elastic Infrastructure for Joining Stream Data
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Χρήση Ελαστικής Υποδομής για Σύζευξή Δεδομένων Ροών
Περίληψη:
Σε αυτή την εργασία στοχεύουμε στη βελτίωση της απόδοσης των
εργασιών επιχειρηματικής ευφυΐας σημαντικό κομμάτι των οποίων είναι οι
εργασίες Εξόρυξη-Μετασχηματισμού-Φόρτωσης (ETL). Στην συντριπτική
πλειοψηφία οι διαδικασίες ETL περιλαμβάνουν πολύ ακριβά joins μεταξύ
δεδομένων ροών και σχεσιακών δεδομένων. Παρουσιάζουμε μια αρχιτεκτονική
για την ελαστική προσαρμογή του αλγορίθμου Semi-Streamed Index Join
(SSIJ) που με επιτυχία αντιμετωπίζει εργασίες τύπου-ETL. Υιοθετούμε μια
ελαστική κατανεμημένη αρχιτεκτονική που το βασικό της μέλημα είναι η
δίκαιη διανομή του υπολογιστικού φόρτου του SSIJ σε πολλαπλούς κόμβους.
Έχουμε αναπτύξει αλγόριθμους που κατευθύνουν αποδοτικά την ροή των
δεδομένων μέσα συστάδες κόμβων, προκειμένου να κάνουμε αποτελεσματικό
caching. Έχουμε επίσης τη δυνατότητα να προσθέσουμε ή να αφαιρέσουμε
δυναμικά υπολογιστικούς κόμβους ανάλογ
α με τον όγκο της κυκλοφορίας προκειμένου να διατηρηθεί η απόδοση του
συστήματος σε σταθερά επίπεδα και ταυτόχρονα να μην σπαταλώνται
πολύτιμοι πόροι. Στην υλοποίησή της υποδομής χρησιμοποιήσαμε container
cluster με Docker μαζί το Kubernetes framework για την οργάνωση και
διαχείριση της υπολογιστικής συστάδας. Ο πειραματισμός πραγματοποιήθηκε
στο Google Cloud.
Λέξεις-κλειδιά:
επεξεργασία ροών δεδομένων, βάσεις δεδομένων, μεγάλα δεδομένα, αναλυτική, αποθήκες δεδομένων
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
11
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
10
Αριθμός σελίδων:
56