Κατηγοριοποίηση ασθενών COVID-19 με τη χρήση αλγορίθμων μηχανικής μάθησης

Διπλωματική Εργασία uoadl:3246493 4 Αναγνώσεις

Μονάδα:
Κατεύθυνση Πληροφορική της Υγείας
Βιβλιοθήκη Επιστημών Υγείας
Ημερομηνία κατάθεσης:
2022-11-24
Έτος εκπόνησης:
2022
Συγγραφέας:
Κουρμπάνης Νικόλαος
Στοιχεία επιβλεπόντων καθηγητών:
Ιωάννης Μαντάς, Καθηγητής, Τμήμα Νοσηλευτικής, ΕΚΠΑ
Ιωσήφ Λίασκος, Ε.ΔΙ.Π., Τμήμα Νοσηλευτικής, ΕΚΠΑ
Εμμανουήλ Ζούλιας, Ε.ΔΙ.Π., Τμήμα Νοσηλευτικής, ΕΚΠΑ
Πρωτότυπος Τίτλος:
Κατηγοριοποίηση ασθενών COVID-19 με τη χρήση αλγορίθμων μηχανικής μάθησης
Γλώσσες εργασίας:
Ελληνικά
Μεταφρασμένος τίτλος:
Κατηγοριοποίηση ασθενών COVID-19 με τη χρήση αλγορίθμων μηχανικής μάθησης
Περίληψη:
Στα τέλη του 2019 έκανε την εμφάνισή της η ασθένεια του νέου κορονοϊού 2019 (COVID-19), η οποία προκαλείται από τον ιό SARS-CoV-2. Ο ιός ανιχνεύτηκε για πρώτη φορά στην πόλη της Γουχάν της Κίνας το Δεκέμβριο του 2019 και έκτοτε έχει εξαπλωθεί παγκοσμίως ως η νέα πανδημία [1], η οποία συνεχίζεται μέχρι και σήμερα. Ο SARS-CoV-2 (Severe Acute Respiratory Syndrome Corona Virus 2) διασπείρεται αερογενώς μέσω αναπνευστικών σταγονιδίων ή αερολυμάτων που παράγονται από τον βήχα ή το φτέρνισμα, ενός μολυσμένου ατόμου. Ο SARS-CoV-2 ως RNA ιός εμφανίζει μεταλλάξεις λόγω του τρόπου αναπαραγωγής του με αποτέλεσμα τη δημιουργία αρκετών παραλλαγών του οι οποίες και κατατάσσονται σε παραλλαγές ανησυχίας (Variants of Consern-VOCs) και παραλλαγές ενδιαφέροντος (Variants of Interest-VOIs) από τον Παγκόσμιο Οργανισμό Υγείας (WHΟ). Βασικός παράγοντας που αυξάνει τον κίνδυνο επιπλοκών και τη σοβαρότητα νόσησης με COVID-19 είναι η ηλικία, καθώς οι ηλικιωμένοι είναι πιο πιθανό να αρρωστήσουν σοβαρά από COVID-19.
Τα μέτρα πρόληψης που λήφθηκαν παγκοσμίως για την ελαχιστοποίηση μετάδοσης του SAR-CoV-2 περιλαμβάναν την κοινωνική αποστασιοποίηση, τον αερισμό εσωτερικών χώρων, την κάλυψη του προσώπου κατά το βήχα ή το φτάρνισμα, το πλύσιμο των χεριών και την χρήση μάσκας προσώπου σε εσωτερικούς χώρους και φυσικά τον εμβολιασμό. Μέχρι και σήμερα τουλάχιστον δέκα εμβόλια έχουν λάβει έγκριση από τουλάχιστον μία εθνική ρυθμιστική αρχή για χρήση στο ευρύ κοινό.
Στην αντιμετώπιση αυτής της παγκόσμιας κρίσης έρχεται να συμβάλει η Τεχνητή Νοημοσύνη μέσω των δυνατότητων που προσφέρει στης δημιουργίας μοντέλων πρόβλεψης μέσω των αλγορίθμων της Μηχανικής Μάθησης. Οι αλγόριθμοι Μηχανικής Μάθησης επεξεργάζονται τη γνώση και την αναπαριστούν με πιο μαθηματικοποιημένους τρόπους και εφαρμόζονται με επιτυχία στην επίλυση πληθώρας προβλημάτων, για πολλούς επιστημονικούς τομείς, όπως η Εξόρυξη Δεδομένων, οι Πιθανότητες και η Στατιστική, η Νευροβιολογία, κ.α.
Στόχος της παρούσας εργασίας, είναι η σύγκριση διαφορετικών αλγοριθμικών μοντέλων, με σκοπό την εύρεση της καλύτερου τρόπου μοντέλου πρόβλεψης της θνησιμότητας των ασθενών με COVID-19, μέσα από 6 αλγορίθμους κατηγοριοποίησης, χρησιμοποιώντας δεδομένα τα κλινικά χαρακτηριστικά και το ιστορικό των ασθενών. Πιο συγκεκριμένα το σύνολο των δεδομένων αποτελείται από 12.425.179 άτομα ύποπτα για COVID-19, τα οποία προσήλθαν σε υγειονομικές μονάδες του Μεξικού, με τα 3.993.464 από αυτά να είναι θετικά στον SARS-CoV-2. Οι 6 αλγόριθμοι που χρησιμοποιήθηκαν, είναι η Λογιστική Παλινδρόμηση (LR), τα Δέντρα Απόφασης (DTs), το Τυχαίο Δάσος (RF), η Ακραία Ενίσχυση Κλίσης (ΧGB), τα ΤΝΔ Πολυστρωματικών Αντιλήπτρων (MLPs) και οι Κ Εγγύτερων Γειτόνων (KNN).
Μετά από την ολοκλήρωση της Προεπεξεργασίας των δεδομένων, η οποία περιελάμβανε τον καθαρισμό των δεδομένων από δείγματα με ελλείπεις τιμές, την απαλοιφή κυρίως γεωγραφικών χαρακτηριστικών (columns), τα οποία δε σχετιζόντουσαν με τη θνησιμότητα από COVID-19 και τέλος την μετασχηματισμό των συνεχών δεδομένων με 6 διαφορετικούς τρόπους (No Scaling, Standard Scaling, Min-Max Scaling με εύρη 0-1, 0-10, 0-100, 0-1000), τα δεδομένα τροφοδοτήθηκαν στα διαφορετικά μοντέλα των αλγορίθμων. Για κάθε αλγόριθμο προέκυψαν 54 μοντέλα (6 τρόποι προεπεξεργασίας x 3 σετ χαρακτηριστικών x 3 σετ υπερπαραμέτρων) με τον κάθε μοντέλο να εκτελείται 10 φόρες (iterations), με διαφορετικά υποσύνολα του συνόλου των δεδομένων, ώστε να ληφθεί η μέση τιμή (mean) των μετρικών του, φτάνοντας έτσι τις 540 εκτελέσεις για τον κάθε αλγόριθμο, με τελικό σύνολο τις 3.240 εκτελέσεις και για τους 6 αλγορίθμους.
Έπειτα προχωρήσαμε στην αξιολόγηση τους με βάση 5 μετρικά την Ακρίβεια (Precision), την Ευαισθησία-Ανάκληση (Recall), την Βαθμολογία F1 (F1 Score), την Περιοχή κάτω από την καμπύλη ROC (Area Under Curve ROC, AUC_ROC) και την Διάρκεια (Runtime). Η κατάταξη των αλγορίθμων, με βάση την απόδοση των μοντέλων τους, έφερε 1α τα μοντέλα της Ακραίας Ενίσχυσης Κλίσης (XGB), 2α αυτά του Τυχαίο Δάσος (RF), 3α εκείνα των Τεχνητών Νευρωνικών Δικτύων Πολυστρωματικών Αντιλήπτρων (MLPs), 4α αυτά των Δέντρα Αποφάσεως (DTs), 5α εκείνα των Κ Εγγύτερων Γειτόνων (KNN) και 6α αυτά της Λογιστικής Παλινδρόμησης (LR). Το βέλτιστο μοντέλο ήταν αυτό της XGB τα οποία χρησιμοποίησαν και τα 22 χαρακτηριστικά (columns), με τον Μin-Max scaler με εύρος 0-100 και με τις optimal_01 τιμές υπερπαραμέτρων, με μέσο όρο (mean) για τα μετρικά της Precision 0,93764 (93,76%), της Recall 0,95472 (95,47%), του F1-score 0,9113, της AUC_ROC 0,97855 και της Runtime τα 6,67306 sec.
Κύρια θεματική κατηγορία:
Επιστήμες Υγείας
Λέξεις-κλειδιά:
COVID-19, SARS-CoV-2, RNA ιοί, Κορονοϊοί, Πρωτεΐνη spike, Yποδοχέας ACE2, Π.Ο.Υ., Γουχάν, Παραλλαγές ανησυχίας, Παραλλαγές ενδιαφέροντος, Ανάλυση αλυσιδωτής αντίδρασης πολυμεράσης μετά από αντίστροφη μεταγραφή, Εμβόλια mRNA, Εμβόλια ιϊκών φορέων, Τεχνητή νοημοσύνη, Μηχανική μάθηση, Υπολογιστική νοημοσύνη, Ασαφής λογική, Εξελικτικοί αλγόριθμοι, Λογιστική παλινδρόμηση, Δέντρα απόφασης, Τυχαίο δάσος, Ακραία ενίσχυση κλίσης, Τεχνητά νευρωνικά δίκτυά πολυστρωματικών αντιλήπτρων, Κ-εγγύτεροι γείτονες, Διασταυρούμενη επικύρωση 10 τμημάτων, Σημαντικότητα χαρακτηριστικών, Μετρικές αξιολόγησης αλγορίθμων, Πίνακας σύγχυσης, Ακρίβεια, Ευαισθησία, Ανάκληση, Βαθμολογία F1, Διάρκεια, Περιοχή κάτω από την καμπύλη ROC
Ευρετήριο:
Όχι
Αρ. σελίδων ευρετηρίου:
0
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
500
Αριθμός σελίδων:
238
[Katigoriopoiisi.as8enwn.COVID-19.me.ti.xrisi.algori8mwn.ML]~[TELIKO-PERGAMOS].pdf (10 MB) Άνοιγμα σε νέο παράθυρο