Kernel Support Vector Machine learning of imbalanced classes with application to reproductive medicine on the UK population

Διπλωματική Εργασία uoadl:3232068 72 Αναγνώσεις

Μονάδα:
Κατεύθυνση Βιοστατιστική
Βιβλιοθήκη Επιστημών Υγείας
Ημερομηνία κατάθεσης:
2022-09-16
Έτος εκπόνησης:
2022
Συγγραφέας:
Δημητρίου Ευάγγελος
Στοιχεία επιβλεπόντων καθηγητών:
Απόστολος Μπουρνέτας, Καθηγητής, Τμήμα Μαθηματικών, ΕΚΠΑ
Φώτιος Σιάννης, Επίκουρος Καθηγητής, Τμήμα Μαθηματικών, ΕΚΠΑ
Ορέστης Τσώνης, MD MSc PhD, Assisted Conception Unit, Guy's ad St Thomas' NHS Foundation Trust
Πρωτότυπος Τίτλος:
Kernel Support Vector Machine learning of imbalanced classes with application to reproductive medicine on the UK population
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Αλγόριθμος στατιστικής μάθησης Support Vector Machines με την μέθοδο των πυρήνων σε τάξεις διαφορετικού μεγέθους με εφαρμογή στην αναπαραγωγική ιατρική στον πληθυσμό του Ηνωμένου Βασιλείου
Περίληψη:
Το θέμα της εργασίας αναφέρεται στην κατηγορία αλγορίθμων Μηχανικής Μάθησης Support Vector Machines (SVM) με την μέθοδο των πυρήνων (Kernel Support Vector Machines) για την ταξινόμηση δεδομένων που ανήκουν σε δύο κατηγορίες (τάξεις). Η μέθοδος εφαρμόζεται σε δεδομένα προερχόμενα από τον τομέας της υποβοηθούμενης αναπαραγωγής με σκοπό την πρόβλεψη επιτυχούς γέννησης νεογνού.
Αρχικά, μελετώνται οι αλγόριθμοι Kernel SVM και τα προβλήματα που μπορεί να παρουσιαστούν όταν οι τάξεις έχουν διαφορετικό μέγεθος. Στην συνέχεια συζητούνται πιθανές μέθοδοι αντιμετώπισης του προβλήματος όπως αυτές εντοπίστηκαν στην βιβλιογραφία, υπογραμμίζονται τα πλεονεκτήματα και τα μειονεκτήματα κάθε μεθόδου. Προτείνεται επίσης μια νέα μεθοδολογία μείωσης των παρατηρήσεων (under-sampling) με βάση το cosine similarity, ένα μέτρο ομοιότητας μεταξύ των παρατηρήσεων.
Στην συνέχεια, εφαρμόζονται οι παραπάνω μέθοδοι, τόσο οι προϋπάχουσες όσο και η νέα μέθοδος, σε δεδομένα που προέρχονται από τον τομέα της αναπαραγωγικής ιατρικής στον πληθυσμό του Ηνωμένου Βασιλείου, ώστε να προβλεφθεί το αποτέλεσμα της επιτυχούς γέννησης μετά από τεχνικές υποβοηθούμενης αναπαραγωγής. Συγκεκριμένα, τα δεδομένα παρέχονται από την Αρχή Ανθρώπινης Αναπαραγωγής και Εμβρυολογίας του Ηνωμένου Βασιλείου (Human Fertilization and Embryology Authority) και αφορούν κύκλους θεραπειών γονιμότητας που λαμβάνουν χώρα κάθε χρόνο στο Ηνωμένο Βασίλειο. Τα δεδομένα από την συγκεκριμένη αρχή συλλέγονται από το 1991 έως σήμερα και εφόσον είναι ανώνυμα, είναι διαθέσιμα για ερευνητικούς σκοπούς. Στα δεδομένα αυτά εφαρμόζονται επίσης κλασικές μέθοδοι ταξινόμησης της στατιστικής όπως η λογιστική παλινδρόμηση (logistic regression).
Οι μέθοδοι που χρησιμοποιούνται για την ταξινόμηση των δεδομένων υποβοηθούμενης αναπαραγωγής εφαρμόζονται επίσης σε προσομοιωμένα δεδομένα, τόσο συνεχή όσο και μικτού τύπου (συνεχή και διακριτά) ώστε να επιβεβαιωθεί την απόδοση τους.
Οι διαφορετικές μέθοδοι συγκρίνονται με την χρήση κατάλληλων μετρικών αξιολόγησης (evaluation metrics) καταλήγοντας στο συμπέρασμα ότι η προτεινόμενη μέθοδος υπερτερεί έναντι των άλλων κατά την ταξινόμηση του μικτού τύπου δεδομένων και των δεδομένων υποβοηθούμενης αναπαραγωγής, ενώ κατά την ταξινόμηση των συνεχών προσομοιωμένων δεδομένων έρχεται δεύτερη αποδοτικά.
Κύρια θεματική κατηγορία:
Επιστήμες Υγείας
Λέξεις-κλειδιά:
Support vector machine, Κλάσεις διαφορετικού μεγέθους, Επιβλεπόμενη μάθηση, Ταξινόμηση, Αναπαραγωγική ιατρική
Ευρετήριο:
Όχι
Αρ. σελίδων ευρετηρίου:
0
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
103
Αριθμός σελίδων:
125
Αρχείο:
Δεν επιτρέπεται η πρόσβαση στο αρχείο. H πρόσβαση επιτρέπεται μόνο εντός του δικτύου του ΕΚΠΑ.

dissertation_evangelos_dimitriou.pdf
2 MB
Δεν επιτρέπεται η πρόσβαση στο αρχείο. H πρόσβαση επιτρέπεται μόνο εντός του δικτύου του ΕΚΠΑ.