MVU­-GAN: Unfolding the Latent Space of GANs

Πτυχιακή Εργασία uoadl:2964681 203 Αναγνώσεις

Μονάδα:
Τμήμα Πληροφορικής & Τηλεπικοινωνιών
Πληροφορική
Ημερομηνία κατάθεσης:
2021-11-04
Έτος εκπόνησης:
2021
Συγγραφέας:
ΠΑΠΑΓΕΩΡΓΙΟΥ ΠΑΝΤΕΛΗΣ
Στοιχεία επιβλεπόντων καθηγητών:
Ιωάννης Παναγάκης, Αναπληρωτής Καθηγητής, Τμήμα Πληροφορικής Και Τηλεπικοινωνιών, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών
Πρωτότυπος Τίτλος:
MVU­-GAN: Unfolding the Latent Space of GANs
Γλώσσες εργασίας:
Αγγλικά
Ελληνικά
Μεταφρασμένος τίτλος:
MVU­-GAN: Ξεδιπλώνοντας τον Λανθάνων Χώρο των GANs
Περίληψη:
Τα Παραγωγικά Αντιπαλικά Δίκτυα (ΠΑΔ) είναι παραγωγικά μοντέλα που βασίζονται στην βαθιά μάθηση και μαθαίνουν να απεικονίζουν ένα θόρυβο λανθάνοντος διανύσματος σε εικόνες υψηλής αξιοπιστίας. Πρόσφατα έργα έχουν δείξει ότι ο λανθάνων χώρος εισόδου μπορεί να αποσυντεθεί σε κατευθύνσεις σημασιολογικά ουσιαστικές. Η μετακίνηση προς αυτές τις κατευθύνσεις αντιστοιχεί σε ερμηνεύσιμες, από τον άνθρωπο, μετατροπές εικό­ νας. Για παράδειγμα, από πτυχές υψηλού επιπέδου, όπως το σχήμα του προσώπου και το γενικό στυλ των μαλλιών, μέχρι τα μικρότερα χαρακτηριστικά του προσώπου έως τα χρώματα και τις μικροδομές, όλα μπορούν να ελεγχθούν μετακινώντας στην αντίστοιχη κατεύθυνση του λανθάνοντος χώρου ΠΑΔ.
Προκειμένου να επιτευχθεί η επεξεργασία εικόνας με τον εντοπισμό κατευθύνσεων του λανθάνοντος χώρου, οι σύγχρονες μέθοδοι είτε βασίζονται σε εποπτευόμενες προσεγγί­σεις είτε αξιοποιούν τον αλγόριθμο PCA. Οι πρώτες έχουν ένα τεράστιο μειονέκτημα σχε­τικά με το εύρος των κατευθύνσεων που μπορούν να διερευνηθούν, καθώς βασίζονται σε ένα σύνολο ανθρωπίνων σχολιασμένων βαθμολογιών για κάθε χαρακτηριστικό. Οι τελευ­ταίες τείνουν να χρησιμοποιούν την ίδια μέθοδο με μικρές τροποποιήσεις, με αποτέλεσμα παρόμοιες πειραματικές παρατηρήσεις.
Σε αυτήν την εργασία, προσεγγίζουμε το πρόβλημα της ανακάλυψης σημασιολογικών κα­ τευθύνσεων χωρίς εποπτεία, χρησιμοποιώντας ημιπεριορισμένο προγραμματισμό για την εκτέλεση μη γραμμικής μείωσης διαστάσεων της εσωτερικής αναπαράστασης των ΠΑΔ. Συγκεκριμένα, εξετάζουμε τον μηχανισμό παραγωγής των ΠΑΔ και χρησιμοποιούμε πε­ραιτέρω τον περίφημο αλγόριθμο Αναδίπλωσης Μέγιστης Διακύμανσης, επίσης γνωστό ως Ημιπεριορισμένη Ενσωμάτωση, για να εντοπίσουμε σημασιολογικά σημαντικές κατευθύνσεις αποσυνθέτοντας τα προεκπαιδευμένα βάρη. Επιπλέον, διεξάγονται εκτεταμένα πειράματα με τις πιο σύγχρονες αρχιτεκτονικές ΠΑΔ, StyleGAN και StyleGANv2, για 7 διαφορετικά σύνολα δεδομένων.
Από όσο γνωρίζουμε, αυτή είναι η πρώτη εργασία που προσεγγίζει αυτό το πρόβλημα από την οπτική του ημιπεριορισμένου προγραμματισμού. Ενώ το υπολογιστικό κόστος μπο­ρεί να είναι υψηλό, τα αποτελέσματα αποδεικνύουν σαφώς την υπεροχή του σε διάφορα πειράματα, ενώ σε άλλα μπορούν να συγκριθούν με τα αποτελέσματα των πιο πρόσφα­των εποπτευόμενων και μη εποπτευόμενων μεθόδων. Ο κώδικας είναι διαθέσιμος στο https://github.com/PanPapag/MVU­GAN.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
ΠΑΔ, Επεξεργασία Εικόνας, Σημασιολογικές Κατευθύνσεις, Λανθάνων Χώρος, Ημεπεριορισμένος Προγραμματισμός
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
3
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
34
Αριθμός σελίδων:
32