clustering and classification in high dimensional sparse data

Πτυχιακή Εργασία uoadl:1324495 599 Αναγνώσεις

Μονάδα:
Τομέας Θεωρητικής Πληροφορικής
Βιβλιοθήκη Σχολής Θετικών Επιστημών
Ημερομηνία κατάθεσης:
2016-03-19
Έτος εκπόνησης:
2016
Συγγραφέας:
Πατσουράκος Κωνσταντίνος
Μπορεκτσίογλου Ιωάννης
Στοιχεία επιβλεπόντων καθηγητών:
Γιάννης Ζ. Εμίρης
Πρωτότυπος Τίτλος:
clustering and classification in high dimensional sparse data
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
ομαδοποίηση και κατηγοριοποίηση σε πολυδιάστατα αραιά δεδομένα
Περίληψη:
Ο βασικός στόχος της συγκεκριμένης πτυχιακής είναι η κατηγοριοποίηση
πραγματικών πολυδιάστατων δεδομένων στο τομέα της ομοιοπαθητηκής. Για να το
πετύχουμε αυτό συγκεντρώσαμε αρκετές μεθοδολογίες από το χώρο της εξόρυξης
δεδομένων. Υλοποιήθηκαν μερικοί ιδανικοί αλγόριθμοι ομαδοποιήσης μέχρι να
υπάρξει ένα καλό και χρήσιμο αποτέλεσμα σύμφωνα με τους ειδικούς του τομέα.

Πιο συγκεκριμένα, για να πετύχουμε αυτό το αποτέλεσμα, υλοποιήσαμε έναν
διαιρετικό αλγόριθμο ομαδοποιησης. Ξεκινήσαμε με τη μέθοδο του k-medoids με
αρχικοποιήση k-medoids++, ανάθεση PAM και ανανέωση CLARANS. Επειδη τα δεδομένα
ακολουθούσαν μμια ιεραρχική δομή παραπάνω μεθόδοι δεν έδωσαν ένα χρήσιμο
αποτέλεσμα σύμφωνα με τις μεθοδους αξιολόγησης που χρησιμοποιήσαμε, έτσι
υλοποιήσαμε ιεραρχικούς αλγορίθμους, ενας εκ των οποίων ο αλγόριθμος Connected
components.

Τελος, για να βγάλουμε κάποια συμπεράσματα για τις λέξεις που είχαμε στα
δεδομένα, υλοποίησαμε τον αλγόριθμο hitting set.Ήταν σημαντικό να βούμε τις
λέξεις που ήταν ανεξάρτητες από τις υπόλοιπες και για αυτό είδαμε το πρόβλημα
σαν το γνωστό πρόβλημα set covering
Λέξεις-κλειδιά:
ομαδοποίηση, κατηγοριοποίηση, μεγάλα δεδομένα, αραιά, πολυδιάστατα
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
9, 10, 11
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
26
Αριθμός σελίδων:
45