Μονάδα:
Τομέας Θεωρητικής ΠληροφορικήςΒιβλιοθήκη Σχολής Θετικών Επιστημών
Ημερομηνία κατάθεσης:
2016-03-19
Συγγραφέας:
Πατσουράκος Κωνσταντίνος
Μπορεκτσίογλου Ιωάννης
Στοιχεία επιβλεπόντων καθηγητών:
Γιάννης Ζ. Εμίρης
Πρωτότυπος Τίτλος:
clustering and classification in high dimensional sparse data
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
ομαδοποίηση και κατηγοριοποίηση σε πολυδιάστατα αραιά δεδομένα
Περίληψη:
Ο βασικός στόχος της συγκεκριμένης πτυχιακής είναι η κατηγοριοποίηση
πραγματικών πολυδιάστατων δεδομένων στο τομέα της ομοιοπαθητηκής. Για να το
πετύχουμε αυτό συγκεντρώσαμε αρκετές μεθοδολογίες από το χώρο της εξόρυξης
δεδομένων. Υλοποιήθηκαν μερικοί ιδανικοί αλγόριθμοι ομαδοποιήσης μέχρι να
υπάρξει ένα καλό και χρήσιμο αποτέλεσμα σύμφωνα με τους ειδικούς του τομέα.
Πιο συγκεκριμένα, για να πετύχουμε αυτό το αποτέλεσμα, υλοποιήσαμε έναν
διαιρετικό αλγόριθμο ομαδοποιησης. Ξεκινήσαμε με τη μέθοδο του k-medoids με
αρχικοποιήση k-medoids++, ανάθεση PAM και ανανέωση CLARANS. Επειδη τα δεδομένα
ακολουθούσαν μμια ιεραρχική δομή παραπάνω μεθόδοι δεν έδωσαν ένα χρήσιμο
αποτέλεσμα σύμφωνα με τις μεθοδους αξιολόγησης που χρησιμοποιήσαμε, έτσι
υλοποιήσαμε ιεραρχικούς αλγορίθμους, ενας εκ των οποίων ο αλγόριθμος Connected
components.
Τελος, για να βγάλουμε κάποια συμπεράσματα για τις λέξεις που είχαμε στα
δεδομένα, υλοποίησαμε τον αλγόριθμο hitting set.Ήταν σημαντικό να βούμε τις
λέξεις που ήταν ανεξάρτητες από τις υπόλοιπες και για αυτό είδαμε το πρόβλημα
σαν το γνωστό πρόβλημα set covering
Λέξεις-κλειδιά:
ομαδοποίηση, κατηγοριοποίηση, μεγάλα δεδομένα, αραιά, πολυδιάστατα
Αρ. σελίδων ευρετηρίου:
9, 10, 11
Αρ. βιβλιογραφικών αναφορών:
26