Flexible single-cell RNAseq data analysis pipelines using MLscAN

Διπλωματική Εργασία uoadl:2968464 214 Αναγνώσεις

Μονάδα:
Κατεύθυνση Βιοπληροφορική-Επιστήμη Βιοϊατρικών Δεδομένων
Πληροφορική
Ημερομηνία κατάθεσης:
2021-12-21
Έτος εκπόνησης:
2021
Συγγραφέας:
Κολιοπάνος Γεώργιος
Στοιχεία επιβλεπόντων καθηγητών:
Ηλίας Μανωλάκος, Kαθηγητής, Πληροφορικής και Τηλεπικοινωνιών, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών
Πρωτότυπος Τίτλος:
Flexible single-cell RNAseq data analysis pipelines using MLscAN
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Eυέλικτες ροές ανάλυσης δεδομένων single-cell RNAseq με χρήση του MLscAN
Περίληψη:
Οι τεχνολογίες single-cell RNA- sequencing (scRNA-seq) εισήχθηκαν για να μπορέσουν να ξεπεραστούν οι περιορισμοί που δημιουργούσε η προγενέστερη τεχνολογία bulk RNA-seq. Παρέχοντας μας ενα γονιδιακό προφίλ έκφρασης σε επίπεδο single-cell, το scRNA-seq μας δίνει τη δυνατότητα να ανιχνεύουμε σπάνιους κυτταρικούς υποπληθυσμούς, προσφέροντας σημαντικές γνώσεις για τους θεμελιώδεις μηχανισμούς αλληλεπίδρασης των κυττάρων στην αναπτυξιακή βιολογία και την έρευνα για τον καρκίνο. Πολλά εξειδικευμένα εργαλεία ανάλυσης δεδομένων έχουν αναπτυχθεί για την εξαγωγή πληροφοριών από μεγάλα και θορυβώδη δεδομένα scRNA-seq.Τα εν λόγω πακέτα στοχεύουν στην ανακατασκευή ενός «επιγενετικού τοπίου» διακρίνοντας καταστάσεις κυττάρων ενώ ενα μέρος αυτών εξάγει και τροχιές μεταξύ των καταστάσεων. Ωστόσο, πολύ λίγα πακέτα παρέχουν μια αμερόληπτη εξερεύνηση του μεγάλου χώρου των μοντέλων για την αποτύπωση αυτού του τοπίου με βάση την πιθανοτική μηχανική μάθηση.
Το MLscAN (Machine Learning for Single-Cell ANAlytics) είναι ένα σύνολο μεθόδων που αναπτύχθηκε από την ομάδα μας στην γλώσσα προγραμματισμού R για ανάλυση δεδομένων single-cell χρήσημοποιώντας μη εποπτευόμενη μηχανική μάθηση με βάση τα Gaussian Mixture Models. Χωρίς καμία προηγούμενη γνώση, χρησιμοποιώντας μόνο προεπεξεργασμένα δεδομένα γονιδιακής έκφρασης ενός συνόλου δεδομένων scRNA-seq, το MLscAN μπορεί να ανακαλύψει κυτταρικές καταστάσεις και να εξάγει μεταβάσεις μεταξύ των καταστάσεων χρησιμοποιώντας μια πιθανοτική προσέγγιση. Ένα ξεχωριστό χαρακτηριστικό του MLscAN είναι ότι διαχωρίζει τις μεταβάσεις καταστάσεων σε διαδοχικές φάσεις (μικρο-κατάσταση), προσδιορίζει τα «γονίδια-κλειδιά» που διέπουν τη μετάβαση και αναδομεί τα ρυθμιστικά δίκτυα γονιδίων για κάθε μικροκατάσταση. Το MLscAN κατασκευάστηκε αρχικά για τον «αρχάριο χρήστη» (με περιορισμένη τεχνογνωσία στην υπολογιστική βιολογία ή τον προγραμματισμό σε R) παρέχοντας μια αυτοματοποιημένη αναλυση και εκτενή οπτικοποίηση για την ερμηνεία των αποτελεσμάτων κάθε σταδίου. Ωστόσο, έχει εξελιχθεί σταδιακά για να επιτρέπει στους προχωρημένους χρήστες να προσαρμόζουν την ανάλυση τους και να εισάγουν αποτελέσματα από άλλα εργαλεία σε σχεδόν κάθε βήμα της ανάλυσης του.
Ο κύριος στόχος αυτής της διπλωματικής εργασίας ήταν να ενισχύσει το MLscAN βελτιστοποιώντας την ενσωμάτωση εξωτερικών αποτελεσμάτων. Ο δεύτερος στόχος ήταν η ανάπτυξη μεθόδων για την απομόνωση και την ανάλυση «μεικτών καταστάσεων» που μπορεί να προκύψουν από το GMM. Αυτές οι καταστάσεις έχουν μεγάλη διακύμανση και είναι πιθανό να περικλείουν πολλούς μικρούς αλλά δυνητικά σημαντικούς κυτταρικούς υποπληθυσμούς που μπορεί να συνεισφέρουν σε ενδιαφέρουσες υποθέσεις στο πώς δομείται το «επιγενετικό τοπίο» εάν αντιμετωπιστούν σωστά. Τέλος, δόθηκε ιδιαίτερη έμφαση στην επίδειξη των δυνατοτήτων και της ευελιξίας του MLscAN χρησιμοποιώντας κατάλληλα αντιπροσωπευτικά και επιμορφωτικά παραδείγματα που βασίζονται σε πραγματικά σύνολα δεδομένων.
Κύρια θεματική κατηγορία:
Θετικές Επιστήμες
Λέξεις-κλειδιά:
μεμονωμένα κύτταρα, αλληλούχιση RNA, μεταβάσεις κυτταρικής κατάστασης, επιγενετικό τοπίο κυτταρικών καταστάσεων, αναγνώριση κυτταρικών τροχιών, ρυθμιστικά δίκτυα γονιδίων, πακέτο R
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
4
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
52
Αριθμός σελίδων:
97
George_Koliopanos_master_thesis.pdf (3 MB) Άνοιγμα σε νέο παράθυρο