Model-based clustering on high dimensional data

Διπλωματική Εργασία uoadl:1315021 325 Αναγνώσεις

Μονάδα:
Κατεύθυνση Βιοστατιστική
Βιβλιοθήκη Επιστημών Υγείας
Ημερομηνία κατάθεσης:
2012-09-11
Έτος εκπόνησης:
2012
Συγγραφέας:
Αγγελής Κωνσταντίνος
Στοιχεία επιβλεπόντων καθηγητών:
Αν. Καθ. Καρλής Δημήτριος
Πρωτότυπος Τίτλος:
Model-based clustering on high dimensional data
Γλώσσες εργασίας:
Ελληνικά
Περίληψη:
Η παρούσα εργασία αφορά τη μεθοδολογία του model-based clustering ως μια
εναλλακτική προσέγγιση στο πρόβλημα ομαδοποίησης δεδομένων έναντι των κλασικών
μεθόδων που βασίζονται στην έννοια της απόστασης. Στην εργασία αυτή ιδιαίτερη
έμφαση δίνεται στην περίπτωση εφαρμογής του model-based clustering σε
high-dimensional δεδομένα καθώς και στη χρήση της πολυμεταβλητής t κατανομής
αντί της πολυμεταβλητής κανονικής που χρησιμοποιείται ευρέως στην πράξη. Επίσης
παρέχονται αρκετά παραδείγματα και εφαρμογές για την καλύτερη επεξήγηση και
κατανόηση των μεθόδων.
Πιο συγκεκριμένα, πριν την περίπτωση των high-dimensional δεδομένων και της t
πολυμεταβλητής κατανομής γίνεται μια εισαγωγή στη μεθοδολογία του model-based
clustering. Περιγράφεται η θεωρία για μίξεις πολυμεταβλητών κανονικών κατανομών
και πως αυτές χρησιμοποιούνται στο πλαίσιο του model-based clustering καθώς
επίσης γίνεται και μια εκτενής αναφορά στη χρήση του EM αλγορίθμου για την
εκτίμηση των παραμέτρων των διάφορων μοντέλων. Επιπλέον, περιγράφονται πλήρως
τα μοντέλα της GPCM οικογένειας και μελετώνται αμφιλεγόμενα ζητήματα του
model-based clustering όπως ο τρόπος επιλογής μοντέλου, σωστού αριθμού ομάδων,
κατάλληλων αρχικών τιμών κ.α.
Στη συνέχεια παρουσιάζεται η περίπτωση ομαδοποίησης high-dimensional δεδομένων.
Αναφέρονται τα προβλήματα που υπάρχουν στην εφαρμογή της GPCM οικογένειας
μοντέλων για αυτή την περίπτωση και εισάγεται η χρήση των factor-analyzers για
αυτό το σκοπό. Επίσης, περιγράφεται πλήρως η εφαρμογή του AECM αλγορίθμου για
την εκτίμηση των παραμέτρων.
Επιπρόσθετα, παρουσιάζονται δύο οικογένειες μοντέλων (PGMM και EPGMM)
κατάλληλες για την ομαδοποίηση high-dimensional δεδομένων, οι οποίες βασίζονται
σε μίξεις πολυμεταβλητών κανονικών κατανομών (στην ουσία πρόκειται για μία μόνο
οικογένεια καθώς η PGMM είναι υποσύνολο της EPGMM). Παρέχονται παραδείγματα
εφαρμογών των μοντέλων αυτών των οικογενειών αλλά ταυτόχρονα αναλύονται τα
πλεονεκτήματα και μειονεκτήματά τους.
Κατόπιν, παρουσιάζεται η περίπτωση της χρήσης της t πολυμεταβλητής κατανομής
και τα οφέλη που αυτή παρέχει, τόσο για high-dimensional δεδομένα όσο και για
μη. Επίσης, περιγράφονται πλήρως οι αλγόριθμοι AECM και EM που 108
χρησιμοποιούνται για εκτίμηση των παραμέτρων αντίστοιχα. Επιπλέον, περιγράφεται
και η MMtFA οικογένεια μοντέλων, η οποία είναι ανάλογη της EPGMM για την
περίπτωση της t κατανομής.
Τέλος, περιγράφεται μια εφαρμογή των μοντέλων των PGMM και MMtFA οικογενειών σε
high dimensional δεδομένα από τη μελέτη έκφρασης γονιδίων των van 't Veer et
al. (2002). Τα δεδομένα αφορούν τη γενετική έκφραση 24.182 γονιδίων
(μεταβλητών) όπως αυτή αποτυπώθηκε μέσω microarray μεθόδου για 78 γυναίκες
(παρατηρήσεις) με καρκίνο του μαστού. Αρχικά εφαρμόζονται τα μοντέλα UUU (PGMM)
και UUC (MMtFA) για 100 τυχαία γονίδια. Στη συνέχεια επιλέγονται μέσω μιας
τεχνικής παρόμοιας της EMMIX-GENE (χρησιμοποιώντας κανονική κατανομή αντί t
κατανομής) 646 "κατάλληλα" γονίδια και η ομαδοποίηση προχωρά χρησιμοποιώντας
όλα τα μοντέλα της PGMM οικογένειας.
Εν κατακλείδει, το model-based clustering αποτελεί ένα πολύ ισχυρό εργαλείο
στην ομαδοποίηση δεδομένων και ειδικά στην περίπτωση high-dimensional
δεδομένων. Ωστόσο, υπάρχουν μερικά προβλήματα που πρέπει να ξεπεραστούν με πιο
βασικό την εξεύρεση ενός αποδοτικού κριτηρίου για την επιλογή του μοντέλου με
την καλύτερη ομαδοποίηση.
Λέξεις-κλειδιά:
Model-based clustering, High-dimensional data, EPGMM, MMtFA, EMMIX-GENE
Ευρετήριο:
Όχι
Αρ. σελίδων ευρετηρίου:
0
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
43
Αριθμός σελίδων:
123