Structure tensor analysis on proteins: efficient feature extraction for heteromultimeric assembly prediction

Διπλωματική Εργασία uoadl:2800192 388 Αναγνώσεις

Μονάδα:
Κατεύθυνση Βιοπληροφορική
Πληροφορική
Ημερομηνία κατάθεσης:
2018-10-02
Έτος εκπόνησης:
2018
Συγγραφέας:
Ράπτη Μελίβοια
Στοιχεία επιβλεπόντων καθηγητών:
Ι. Εμίρης, Καθηγητής, Τμήμα Πληροφορικής και Τηλεπικοινωνιών, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών
Πρωτότυπος Τίτλος:
Structure tensor analysis on proteins: efficient feature extraction for heteromultimeric assembly prediction
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Ανάλυση δομικών τανυστών σε πρωτεΐνες: αποτελεσματική εξαγωγή χαρακτηριστικών για πρόβλεψη ετεροπολυμερών συστοιχιών
Περίληψη:
Η γνώση του σχήματος, της δομής, και των αλληλεπιδράσεων των μακρομορίων, ορίζει τη βιολογία σε μοριακό επίπεδο σε λεπτομέρεια ατόμων. Παρόλο που η γνώση της αρ- χιτεκτονικής είναι ένα σημαντικό βήμα πριν την κατανόηση της λειτουργίας, εξακολουθεί να είναι μια δύσκολη διαδικασία. Οι τρέχουσες τεχνικές ανάλυσης δομής (X-ray Crystal- lography, cryo-EM, etc.), αν και αρκετά επιτυχείς, αδυνατούν να γενικεύσουν καλά σε διαφορετικούς τύπους δομών, καθώς κάθε μία από αυτές τις μεθόδους είναι σχεδιασμέ- νη για συγκεκριμένους τύπους δομικών στοιχείων. Ένας τρόπος για να συνδυάσουμε τα πειραματικά με τα υπολογιστικά δεδομένα, ανεξάρτητα από την ανάλυσή τους, είναι με- σω του Integrative Modeling (IM), καθώς παρέχει έναν περιεκτικό χαρακτηρισμό της δομής των βιομορίων. Απαιτεί ως είσοδο (α) τις υψηλής ανάλυσης δομές των επιμέρους μονάδων που συνθέτουν το υπερμοριακό σύμπλεγμα, και (β) τους χαμηλής ανάλυσης φακέλους αυτών των συμπλεγμάτων, και μας παρέχει βιολογικά συσχετιζόμενες υπερμοριακές συστοιχίες, συνεπείς με το διαθέσιμο σύνολο των πειραματικών δεδομέ- νων. Ωστόσο, το IM εμφανίζει κάποιες αδυναμίες όσον αφορά στα ετεροπολυμερικά σύμπλοκα, ειδικά στην περίπτωση των μη συμμετρικών, όπου η ετερογένεια αυξάνει την υπολογιστική πολυπλοκότητα. Το πιο σημαντικό είναι ότι οι επιμέρους μονάδες των συμπλόκων μπορεί να υιοθετούν διαφορετικές διαμορφώσεις ανάλογα με το αν είναι απομονωμένες ή μέσα στη συστοιχία τους. Συνεπώς, είναι αναγκαία η εύρεση ενός διαφορετικού τρόπου για τον χαρακτηρισμό και τον εντοπισμό αυτών των επιμέρους μονάδων εντός των συστοιχιών τους. Στην εργασία αυτή, εκμεταλλευόμαστε πτυχές του πεδίου της μηχανικής όρασης, και χειριζόμαστε το βιολογικό μας πρόβλημα σαν να ήταν πρόβλημα αναγνώρισης αντικειμένων. Συγκεκριμένα υιοθετούμε την έννοια του εντοπισμού αντικειμένων σε μια σκηνή, και χρησιμοποιούμε local descriptors και τα βασικά βήματα του αλγορίθμου SIFT για την εξαγωγή διακριτών χαρακτηριστικών (τοπικά ακρότατα) από εικόνες. Για το βιολογικό μας πρόβλημα, ανιχνεύουμε τα σημεία- κλειδιά (keypoints) των ατομικών δομών, ώστε να τις εντοπίσουμε μεσα στη μακρομορι- ακή τους συστοιχία. Στόχος μας είναι να μειώσουμε τον τεράστιο αριθμό αυτών των keypoints, αναζητώντας τις γωνίες, καθώς αυτά τα σημεία παραμένουν σταθερά ανεξάρτητα από οποιαδήποτε περιστροφή ή αλλαγή. Υιοθετούμε τις αρχές της μεθόδου ανίχνευσης γωνιών Harris, και τις επεκτείνουμε χρησιμοποιώντας μια 3-D ανάλυση δομικών τανυστών. Η σπουδαιότητά της έγκειται στο γεγονός ότι οι ιδιοτιμές και τα αντίστοιχα ιδιοδιανύσματα της δομής του τανυστή περιγράφουν τη βασική καμπυλότητα της δομής. Βασιζόμενοι στις στατιστικές των λόγων των ιδιοτιμών, εφαρμόζουμε πολλαπλούς τύπους κατωφλίωσης για διαφορετικές παραμέτρους, και δοκιμάζουμε αυτές τις παραμέτρους σε 54 διαφορετικές δομές. Για την αξιολόγηση των παραμέτρων, συγκρίνουμε τα υπολογισθέντα keypoints με ένα σύνολο για το οποίο γνωρίζουμε ότι επιτυγχάνει σωστή πρόβλεψη συστοιχιών. Τα πειραματικά αποτελέσματα δείχνουν την ύπαρξη παραμέτρων που αφαιρούν σχεδόν όλα τα ασταθή keypoints (false positives), παραμέτρων που διατηρούν σχεδόν όλα τα σταθερά (true positives), και παραμέτρων που δίνουν λύσεις εξισορροπώντας το trade-off μεταξύ των προηγούμενων δύο. Τέλος, επαληθεύουμε ότι υπάρχουν σύμπλοκα με αναξιόπιστο προφίλ πυκνότητας, καθώς δε βρίσκονται λύσεις για όλες τις αναλύσεις τους. Η μέθοδος που προτείνουμε είναι ένας γενικός, γρήγορος και ακριβής τρόπος για την εξαγωγή τοπικών χαρακτηριστικών για σωστή πρόβλεψη συστοιχίας, και μπορεί να χρησιμεύσει ως βασική γραμμή για τη μελέτη των δυναμικών αυτών των keypoints όταν υπόκεινται σε διαμορφωτικές αλλαγές.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
μακρομοριακή δομή, εντοπισμός πρωτεϊνικών υπομονάδων, ανίχνευση σημείων-κλειδιών, ανίχνευση γωνιών Harris, εξαγωγή ακρότατων
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
5
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
30
Αριθμός σελίδων:
48
Thesis_MSc_MRapti.pdf (12 MB) Άνοιγμα σε νέο παράθυρο