Πέργαμος - Βιβλιοθήκη και Κέντρο Πληροφόρησης Εθνικού και Καποδιστριακού Πανεπιστημίου Αθηνών

Μονάδα:

Κατεύθυνση Βιοπληροφορική-Επιστήμη Βιοϊατρικών Δεδομένων
Πληροφορική

Ημερομηνία κατάθεσης:

2021-11-15

Έτος εκπόνησης:

2021

Συγγραφέας:

Λιώλη Μαρία

Στοιχεία επιβλεπόντων καθηγητών:

Θεόδωρος Δαλαμάγκας, Διευθυντής Έρευνας, Ερευνητικό Κέντρο Αθηνά
Ιωάννης Εμίρης, Καθηγητής, Τμήμα Πληροφορικής και Επικοινωνιών, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών και Γενικός Διευθυντής, Ερευνητικό Κέντρο Αθηνά
Martin Reczko, Ερευνητής, Ερευνητικό Κέντρο Βιοϊατρικών Επιστημών "Αλέξανδρος Φλέμινγκ"

Πρωτότυπος Τίτλος:

Machine Learning-Assisted Unbiased miRNA Enrichment Analysis

Γλώσσες εργασίας:

Αγγλικά

Μεταφρασμένος τίτλος:

Αμερόληπτη ανάλυση εμπλουτισμού miRNA με την βοήθεια της Μηχανικής Μάθησης

Περίληψη:

Ένα αρκετά δημοφιλές θέμα στον κλάδο της βιοπληροφορικής είναι η διερεύνηση του ρόλου των μικρών βιομορίων που ονομάζονται microRNA(miRNA), τα οποία έχει αποδειχθεί ότι παίζουν σημαντικό ρόλο σε διάφορες σοβαρές ασθένειες (π.χ., καρκίνος ή Ηπατίτιδα C). Γι’ αυτό το λόγο είναι σημαντικό να αποσαφηνιστεί η σχέση μεταξύ των γκρουπ των miRNA και των βιολογικών διαδικασιών. Πολλές διαφορετικές στατιστικές μέθοδοι έχουν χρησιμοποιηθεί για να αποσαφηνίσουν αυτή την σχέση. Η πιο δημοφιλής είναι το Fisher extract test το οποίο υπολογίζει τις τιμές του p-value, ενός μέτρου που εκφράζει την συσχέτιση μεταξύ των γκρουπ των miRNA και των βιολογικών διαδικασιών χρησιμοποιώντας την υπεργεωμετρική κατανομή. Όμως η συγκεκριμένη κατανομή υποδηλώνει ότι τα miRNA έχουν ίδια πιθανότητα να στοχεύσουν κάθε γονίδιο. Αυτός ο ισχυρισμός οδήγησε στην χρήση μιας εμπειρικής κατανομής χρησιμοποιώντας τεστ τυχαιοποίησης. Παρόλα αυτά, τέτοιου είδους τεστ, χρειάζονται μεγάλο αριθμό επαναλήψεων για να παράγουν ακριβές αποτέλεσμα, καθιστώντας την ανάλυση υπολογιστικά μη αποδοτικό.
Η παρούσα διπλωματική εργασία προτείνει μία καινοτόμα προσέγγιση για την ανάλυση εμπλουτισμού των miRNA χρησιμοποιώντας μεθόδους Μηχανικής Μάθησης για να προβλέπει τα p-values αντί να τα υπολογίζει με την χρήση των τεστ τυχαιοποίησης. Αυτή η προσέγγιση θα βοηθήσει τους αναλυτές να τρέχουν πολλαπλές αναλύσεις σε πολύ μικρό χρόνο, αποδοτικά.
Η προσέγγιση μας αποτελείται από πολλά διαφορετικά μέρη. Αρχικά οριοθετήσαμε το πρόβλημα και δημιουργήσαμε το σύνολο των δεδομένων μας. Εν συνεχεία, κάναμε μία προ επεξεργασία στα δεδομένα μας και καταλήξαμε στην επιλογή μίας λίστας έξι πολλά υποσχόμενων αλγορίθμων για να ερευνήσουμε. Αυτοί είναι: η Γραμμική παλινδρόμηση, Δέντρα αποφάσεων, Random Forest και Adaboost, LightGBM και Multi-layer Perceptron που είναι και το μοναδικό νευρωνικό δίκτυο που χρησιμοποιείται. Οι συγκεκριμένοι αλγόριθμοι είναι υπεύθυνοι για να προβλέψουν αριθμητικές τιμές, στην συγκεκριμένη περίπτωση το p-value, δεδομένου ενός κατάλληλου συνόλου δεδομένων εκπαίδευσης. Εν συνεχεία, επιλέξαμε τις κατάλληλες τιμές για τις μεταβλητές του κάθε μοντέλου και τέλος αξιολογήσαμε τα υποψήφια μοντέλα βάσει των επόμενων τεσσάρων μετρικών: μέσο τετραγωνικό σφάλμα (MSE), μέσο απόλυτο σφάλμα (MAE), η ρίζα του μέσου τετραγωνικού σφάλματος (RMSE) και ο συντελεστής προσδιορισμού (R^2)
Τα αποτελέσματα δείξανε ότι το καλύτερο μοντέλο είναι ο LightGBM που προβλέπει τις τιμές p-value με μεγάλη ακρίβεια.
Συνοψίζοντας, τα αποτελέσματα της παρούσας εργασίας έδειξαν ότι οι τιμές p-value μπορούν να προβλεφθούν με την χρήση μοντέλων Μηχανικής Μάθησης με καλή ακρίβεια, ανοίγοντας τον δρόμο στην διεξαγωγή πολλαπλών αναλύσεων ταυτόχρονα και εξαλείφοντας το θέμα του χρόνου.

Κύρια θεματική κατηγορία:

Θετικές Επιστήμες

Λέξεις-κλειδιά:

miRNAs, Ανάλυση εμπλουτισμού miRNA, Παλινδρόμηση, Βιολογική διαδικασία, Στατιστική σημαντικότητα

Ευρετήριο:

Ναι

Αρ. σελίδων ευρετηρίου:

Εικονογραφημένη:

Ναι

Αρ. βιβλιογραφικών αναφορών:

Αριθμός σελίδων:

Αρχείο: