Using deep learning and natural language processing to predict protein-membrane interactions of peripheral membrane proteins

Διπλωματική Εργασία uoadl:3325240 91 Αναγνώσεις

Μονάδα:
Κατεύθυνση Βιοπληροφορική-Επιστήμη Βιοϊατρικών Δεδομένων
Πληροφορική
Ημερομηνία κατάθεσης:
2023-05-05
Έτος εκπόνησης:
2023
Συγγραφέας:
Παρανού Δήμητρα
Στοιχεία επιβλεπόντων καθηγητών:
Dr. Zoe Cournia, Senior Researcher, Center for Translational Research, Biomedical Research Foundation of the Academy of Athens (BRFAA)
Dr. Theodore Dalamagas, Research Director, Information Management Systems Institute, ATHENA Research Center
Dr. Harris Papageorgiou, Research Director, Institute for Language and Speech Processing, ATHENA Research Center
Πρωτότυπος Τίτλος:
Using deep learning and natural language processing to predict protein-membrane interactions of peripheral membrane proteins
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Χρήση βαθιάς μάθησης και επεξεργασίας φυσικής γλώσσας για την πρόβλεψη αλληλεπιδράσεων περιφερικών μεμβρανικών πρωτεϊνών με μεμβράνες
Περίληψη:
Ο χαρακτηρισμός των αλληλεπιδράσεων με τη μεμβράνη στη διεπιφάνεια πρωτεΐνης-μεμβράνης είναι ζωτικής σημασίας, καθώς η μη φυσιολογική σύνδεση πρωτεΐνης-μεμβράνης εμπλέκεται στην εμφάνιση πολλών ασθενειών. Ωστόσο, ένας περιοριστικός παράγοντας στη μελέτη και την κατανόηση των αλληλεπιδράσεων πρωτεΐνης-μεμβράνης είναι ότι οι περιοχές δέσμευσης μεμβράνης των περιφερικών μεμβρανικών πρωτεϊνών είναι τυπικά άγνωστες. Με την εφαρμογή τεχνικών Τεχνητής Νοημοσύνης (AI), και πιο συγκεκριμένα της Επεξεργασίας Φυσικής Γλώσσας, ο χρόνος πρόβλεψης για την ανάλυση διεπαφής πρωτεΐνης-μεμβράνης μπορεί να βελτιωθεί σημαντικά σε σύγκριση με τις υπάρχουσες μεθόδους. Σε αυτή τη διατριβή, περιγράφουμε μια μεθοδολογία μηχανικής μάθησης για την πρόβλεψη αμινοξέων που διεισδύουν στη μεμβράνη χρησιμοποιώντας μοντέλα Επεξεργασίας Φυσικής Γλώσσας και πιο συγκεκριμένα πρωτεϊνικά γλωσσικά μοντέλα. Χρησιμοποιώντας διαθέσιμα πειραματικά δεδομένα από πηγές, δημιουργούμε πρωτεϊνικά χαρακτηριστικά από δύο πρωτεϊνικά γλωσσικά μοντέλα για την εκπαίδευση μοντέλων ταξινομητών. Η αξιολόγηση του καλύτερου μοντέλου ταξινομητή νευρωνικών δικτύων μετά τη βελτιστοποίηση αποδίδει ένα F1 score = 0,691 με MCC = 0,652 και F1 score = 0,622 με MCC = 0,577 για τα δύο διαφορετικά χαρακτηριστικά από τα πρωτεϊνικά γλωσσικά μοντέλα αντίστοιχα. Τα παραγόμενα μοντέλα Multi-Layer Perceptron (MLP) παρέχουν πολλά υποσχόμενα αποτελέσματα, αλλά με ορισμένους περιορισμούς που αποκλείουν τη γενίκευση, δηλαδή την αδυναμία να γίνουν σωστές προβλέψεις για πρωτεΐνες εκτός των εκπαιδευμένων οικογενειών πρωτεϊνών. Συνολικά, τα αποτελέσματα αποδεικνύουν την πολλά υποσχόμενη δυνατότητα χρήσης βαθιάς μάθησης και πρωτεϊνικών γλωσσικών μοντέλων για την πρόβλεψη των αλληλεπιδράσεων πρωτεΐνης-μεμβράνης ταχύτερα και με παρόμοια ακρίβεια σε σύγκριση με τις υπάρχουσες μεθόδους.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
μηχανική μάθηση, βαθιά μάθηση, νευρωνικά δίκτυα, επεξεργασία φυσικής γλώσσας, πρωτεϊνικά γλωσσικά μοντέλα, embeddings, χάρτες προσοχής, περιφερικές μεμβρανικές πρωτεΐνες, αλληλεπιδράσεις πρωτεΐνης-μεμβράνης
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
5
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
111
Αριθμός σελίδων:
75
Master_Thesis_Dimitra_Paranou_up.pdf (6 MB) Άνοιγμα σε νέο παράθυρο