Advanced clustering methods for identifying bioactive molecular conformations

Διπλωματική Εργασία uoadl:2810741 115 Αναγνώσεις

Μονάδα:
Κατεύθυνση Βιοπληροφορική
Πληροφορική
Ημερομηνία κατάθεσης:
2018-10-17
Έτος εκπόνησης:
2018
Συγγραφέας:
Χριστοφόρου Εμμανουήλ
Στοιχεία επιβλεπόντων καθηγητών:
Oνοματεπώνυμο: Ιωάννης Εμίρης
Βαθμίδα: καθηγητής
Τμήμα: Πληροφορικής και Τηλεπικοινωνιών
Ίδρυμα: ΕΚΠΑ
Πρωτότυπος Τίτλος:
Advanced clustering methods for identifying bioactive molecular conformations
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Προηγμένες μέθοδοι συσταδοποίησης για την αναγνώριση βιοενεργών μοριακών διαμορφώσεων
Περίληψη:
Οι προσομοιώσεις μοριακών δυναμικών, ειδικά οι προσομοιώσεις αναδίπλωσης πρωτεϊνών, αποτελούν σημαντικές τεχνικές για τη δειγματοληψία των διαφόρων διαμορφώσεων πρωτεϊνών και άλλων βιομορίων. Λόγω της λεπτομέρειας ατομικού επιπέδου που παρέχουν, οι προσομοιώσεις μοριακών δυναμικών μπορούν να περιγράψουν τις δυναμικές των μορίων, με πολύ υψηλότερη ανάλυση ως προς τον χρόνο και το χώρο, σε σύγκριση με τις περισσότερες πειραματικές τεχνικές. Η ανάλυση αυτή μας επιτρέπει να λαμβάνουμε με πιο αποτελεσματικό τρόπο τις αλλαγές στις διαμορφώσεων των βιομορίων, οι οποίες είναι πολύ σημαντικές για διάφορες βιολογικές διεργασίες όπως η δίπλωση πρωτεϊνών και η πρόσδεση συνδέτη (ligand binding).
Λόγω της μεγάλης χρονικής διάρκειας και της πολύπλοκης φύσης των δεδομένων αυτών, γίνεται ιδιαίτερα δύσκολο να τα αναλύσουμε ή να αποκτήσουμε κάποια διαίσθηση από αυτά. Η συσταδοποήση και τα Markov μοντέλα καταστάσεων (Markov State Models) αποτελούν λύσεις για την αντιμετώπιση των περισσοτέρων προκλήσεων που προκύπτουν από τα δεδομένα αυτά, ώστε να γίνονται με πιο αποτελεσματικό τρόπο αντιληπτές οι αλλαγές των διαμορφώσεων των βιομορίων, καθώς και να παρέχουν αναπαραστάσεις, εύκολα κατανοητές από τον άνθρωπο.
Για τις μεγάλες, χρονικά, προσομοιώσεις, από τις οποίες προκύπτουν επίσης μεγάλα σύνολα δεδομένων, θα μπορούσαν να χρησιμοποιηθούν και προσεγγιστικές τεχνικές συσταδοποίησης για την αντικατάσταση κοινών μεθόδων όπως τον αλγόριθμο k-means. Στα πειράματά μας εδώ επικυρώνουμε την αποτελεσματικότητα, ως προς ποιότητα και χρόνο, ενός προσεγγιστικού αλγορίθμου συσταδοποίησης, του IQ-means (inverted-quantized k-mean), σε δεδομένα από προσομοιώσεις μοριακών δυναμικών. Ο αλγόριθμος αυτός (IQ-means) χρησιμοποιεί διάφορα συστατικά από υπάρχουσες προχωρημένες παραλλαγές του k-means και σε πειράματα που έχουν γίνει αναφέρεται να επιτυγχάνει την ομαδοποίηση 100 εκατομμυρίων εικόνων σε έναν μόνο υπολογιστή σε λιγότερο από μία ώρα. Οπότε, η χρήση του μπορεί να είναι ιδιαίτερα σημαντική όχι μόνο ως προς την αντικατάσταση του k-means, αλλά και ως βήμα για τον προσδιορισμό του αριθμού των ομάδων σε μεγάλα σύνολα δεδομένων.
Εκτός από την ανάγκη για τεχνικές γρήγορης συσταδοποίησης, μια άλλη σημαντική πτυχή είναι να μπορούμε να παρέχουμε απλές αναπαραστάσεις των διαμορφώσεων, οι οποίες μπορούν να συμβάλουν στην ταχύτερη επεξεργασία και μεταφορά των δεδομένων αυτών. Μια τέτοια αναπαράσταση επαληθεύεται στην εργασία αυτή, όπου κάθε διαμόρφωση του βιομορίου μετατρέπεται σε ένα μοναδικό τρισδιάστατο σημείο και φαίνεται να διατηρεί τις διαφορές στα σχήματα των διαμορφώσεων.
Επίσης, πειραματιζόμαστε με τα Markov State Models χρησιμοποιώντας διάφορες τεχνικές ομαδοποίησης, όπως τον IQ-means για το βήμα της γεωμετρικής ομαδοποίησης των διαμορφώσεων, καθώς και τους αλγόριθμους PCCA και BACE για την ομαδοποίηση ως προς την κινητική ομοιότητα των καταστάσεων. Ο αλγόριθμος BACE δίνει περισσότερη έμφαση σε καταστάσεις με επαρκή δειγματοληψία, έτσι ώστε να μην επικρατούν στα τελικά μοντέλα καταστάσεις με ανεπαρκές δείγμα. Η PCCA+, η οποία είναι μια βελτιωμένη έκδοση της PCCA, αποτελεί μία από τις πιο συχνά χρησιμοποιούμενες μεθόδους για τα MSM, όπου χρησιμοποιεί το φάσμα των ιδιοτιμών του πίνακα με τις μεταβατικές πιθανότητες.
Εφαρμόζουμε αυτές τις μεθόδους και διερευνάμε τη βιοενεργή διαμόρφωση του οκταπεπτιδίου Αγγειοτενσίνη ΙΙ, χρησιμοποιώντας πολλαπλές τροχιές από προσομοιώσεις σε μείγματα νερού και νερού-αιθανόλης, σε διάφορες θερμοκρασίες. Προηγούμενες μελέτες για τη βιοενεργή διαμόρφωση της Αγγειοτενσίνης II, όταν συνδέεται με τον υποδοχέα διαμεμβρανικής πρωτεΐνης AT1, φάνηκε να έχουν αποκλίνοντα αποτελέσματα μεταξύ τους, καθιστώντας σημαντικό να μελετηθούν, σε λεπτομέρεια ατομικού επιπέδου, οι ενδομοριακές αλληλεπιδράσεις της Αγγειοτενσίνης ΙΙ με το περιβάλλον της μεμβράνης.
Τα αποτελέσματα δείχνουν ότι στο περιβάλλον της μεμβράνης καθώς αυξάνεται η θερμοκρασία, η Αγγειοτενσίνη II τείνει να έχει πιο συμπαγείς (διπλωμένες) διαμορφώσεις (σχήματος U). Η αναπαράσταση των διαμορφώσεων σε ένα μοναδικό τρισδιάστατο σημείο φαίνεται να διακριτοποιούν τις διαμορφώσεις ως προς τις διαφορές τους στο σχήμα. Ο IQ-means παρέχει συσταδοποίση με λογική απώλεια ποιότητας ως προς την χρονική βελτίωση, καθώς και αποτελεί καλή προσέγγιση για τον προσδιορισμό των γεωμετρικών ομάδων στα MSM, συγκρίνοντας τα τελικά αποτελέσματα των μοντέλων. Τέλος, η χρήση των μεθόδων BACE και PCCA+ φαίνεται να παράγει παρόμοια τελικά αποτελέσματα με αυτά της τυπικής μεθόδου.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
συσταδοποίση, Markov μοντέλα καταστάσεων, προσομοιώσεις μοριακών δυναμικών, προσεγγιστική συσταδοποίηση
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
8
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
75
Αριθμός σελίδων:
96
christoforou_thesis.pdf (7 MB) Άνοιγμα σε νέο παράθυρο