Metric Learning: A Deep Dive

Διπλωματική Εργασία uoadl:2925860 402 Αναγνώσεις

Μονάδα:
Κατεύθυνση Μεγάλα Δεδομένα και Τεχνητή Νοημοσύνη
Πληροφορική
Ημερομηνία κατάθεσης:
2020-10-26
Έτος εκπόνησης:
2020
Συγγραφέας:
Ψωμάς Βασίλειος
Στοιχεία επιβλεπόντων καθηγητών:
Yannis Avrithis, Research Scientist, INRIA Rennes-Bretagne Atlantique
Ioannis Emiris, Professor, National and Kapodistrian University of Athens
Vasileios Katsouros, Research Director, Athena Research and Innovation Center
Πρωτότυπος Τίτλος:
Metric Learning: A Deep Dive
Γλώσσες εργασίας:
Αγγλικά
Ελληνικά
Μεταφρασμένος τίτλος:
Μάθηση Μετρικής: Μια Εμβάθυνση
Περίληψη:
H Μάθηση Μετρικής είναι ένα σημαντικό πρόβλημα της Μηχανικής Μάθησης. Ο σκοπός
της είναι η εκμάθηση μιας μετρικής, η οποία έχει την ιδιότητα να μειώνει την απόσταση
μεταξύ όμοιων αντικειμένων και να αυξάνει την απόσταση μεταξύ ανόμοιων. Το τι είναι
όμοιο και τι ανόμοιο μπορεί να είναι κάπως υποκειμενικό και ως εκ τούτου κάποια μορφή
επίβλεψης είναι αναγκαία για να οριστούν. Η εκμάθηση μιας τέτοιας μετρικής μπορεί να
αποδειχθεί πραγματικά χρήσιμη και σε πολλά άλλα προβλήματα, όπως είναι η ταξινόμηση,
η ανάκτηση και η ομαδοποίηση. Τα πρώτα δύο προβλήματα μπορούν να αναχθούν
σε προβλήματα κοντινού γείτονα σε επίπεδο κλάσης και οντότητας αντίστοιχα, ενώ το
πρόβλημα της ομαδοποίησης μπορεί να γίνει ευκολότερο δοθέντος του πίνακα ομοιότητας.
Παλαιότερα, πριν τη Βαθιά Μάθηση, οι μέθοδοι στη Μάθηση Μετρικής βασίζονταν είτε σε
γραμμικούς μετασχηματισμούς που χρησιμοποιούσαν την Mahalanobis ή/και την Ευκλίδεια
απόσταση, είτε σε μη γραμμικούς μετασχηματισμούς που χρησιμοποιούσαν μεθόδους
πυρήνα. Και οι δύο, ωστόσο, είχαν μειονεκτήματα. Οι γραμμικοί μετασχηματισμοί είχαν
περιορισμένη ικανότητα σύλληψης μη γραμμικών δομών και έτσι δε μπορούσαν να πετύχουν
υψηλή απόδοση όσον αφορά τη νέα αναπαράσταση των δεδομένων, ενώ οι μη γραμμικοί
μετασχηματισμοί που μετέφεραν το πρόβλημα σε ένα μη γραμμικό χώρο μπορούσαν να
πετύχουν βέλτιση απόδοση, αλλά υπέφεραν από το πρόβλημα της υπερ-προσαρμογής.
Επιπρόσθετα, και οι δύο μέθοδοι είχαν περιορισμένη ικανότητα να επεξργαστούν πρωτογενή
δεδομένα και ως εκ τούτου συχνά χρειαζόταν ξεχωριστή εξαγωγή χαρακτηριστικών
Με την αξιοσημείωτη επιτυχία των Συνελικτικών Νευρωνικών Δικτύων, εμφανίστηκε η
Βαθιά Μάθηση Μετρικής. Στο πλαίσιο αυτής, τα Νευρωνικά Δίκτυα εκπαιδεύονται να
μάθουν τον μη γραμμικό μετασχηματισμό που συνδέει τα δεδομένα εκπαίδευσης με τις
τελικές εμβαπτίσεις, οι οποίες έχουν μικρότερη διαστησιμότητα και περισσότερη σημασιολογία.
Αυτό συνήθως συμβαίνει σε μια διαδικασία επιβλοπόμενης μάθησης, στην οποία οι κλάσεις
κάθε δείγματος είναι γνωστές, και έτσι οι εμβαπτίσεις βελτιστοποιούνται ώστε δείγματα
της ίδιας κλάσης να έρχονται κοντά και δείγματα διαφορετικής κλάσης να απωθούνται.
Η όλη διαδικασία γίνεται ελαχιστοποιώντας μια συνάρτηση κόστους που πρέπει να έχει
ακριβώς αυτές τις ιδιότητες. Το σημαντικό πλεονέκτημα της Βαθιάς Μετρικής Μάθησης
είναι ότι πραγματοποιεί από κοινού την εξαγωγή των χαρακτηριστικών και την εκμάθηση
των εμβαπτίσεων.
Η συνεισφορά αυτής της διπλωματικής εργασίας είναι τριπλή. Πρώτον, πραγματοποιούνται
εκτεταμμένα πειράματα χρησιμοποιώντας τις πιο διαδεδόμενες αρχιτεκτονικές (GoogLeNet,
BNInception, ResNet50) στα πιο διαδεδομένα σετ δεδομένων (CUB200-2011, CARS196,
Stanford Online Products) χρησιμοποιώντας δέκα διαφορετικές συναρτήσεις κόστους (Contrastive, Triplet, LiftedStructure, NPair, ProxyNCA, ArcFace, Margin, MultiSimilarity, SoftTriple, ProxyAnchor) και τέσσερα διαφορετικά μεγέθη για τις εμβαπτίσεις (64, 128, 512,
1024). Πραγματοποιείται εις βάθος μελέτη των αποτελεσμάτων και εξάγονται σημαντικά
συμπεράσματα. Δεύτερον, παρουσιάζεται και προτείνεται μια νέα διαδικασία εκπαίδευσης
που χρησιμοποιεί σταθερό σετ δεδομένων επικύρωσης. Πραγματοποιούνται πειράματα
χρησιμοποιώντας αυτή και μια δεκαπλή διασταυρωμένη επικύρωση. Διαπιστώνεται ότι η
πρώτη ισορροπεί εξαιρετικά ανάμεσα στην υπολογιστική πολυπλοκότητα και στην ποιότητα
ανάκτησης. Τέλος, σχεδιάζεται, υλοποιείται και δοκιμάζεται μια νέα συνάρτηση κόστους,
η οποία είναι ισότιμη με τις σύγχρονες μεθόδους.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
Νευρωνικά Δίκτυα, Βαθιά Μάθηση, Όραση Υπολογιστών, Μάθηση Μετρικής
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
3
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
57
Αριθμός σελίδων:
73
Metric_Learning_A_Deep_Dive_Psomas.pdf (7 MB) Άνοιγμα σε νέο παράθυρο