Στοιχεία επιβλεπόντων καθηγητών:
Ιωάννης Παναγάκης, Αναπληρωτής Καθηγητής, Τμήμα Πληροφορικής Και Τηλεπικοινωνιών, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών
Περίληψη:
Τα Παραγωγικά Αντιπαλικά Δίκτυα (ΠΑΔ) είναι παραγωγικά μοντέλα που βασίζονται στην βαθιά μάθηση και μαθαίνουν να απεικονίζουν ένα θόρυβο λανθάνοντος διανύσματος σε εικόνες υψηλής αξιοπιστίας. Πρόσφατα έργα έχουν δείξει ότι ο λανθάνων χώρος εισόδου μπορεί να αποσυντεθεί σε κατευθύνσεις σημασιολογικά ουσιαστικές. Η μετακίνηση προς αυτές τις κατευθύνσεις αντιστοιχεί σε ερμηνεύσιμες, από τον άνθρωπο, μετατροπές εικό νας. Για παράδειγμα, από πτυχές υψηλού επιπέδου, όπως το σχήμα του προσώπου και το γενικό στυλ των μαλλιών, μέχρι τα μικρότερα χαρακτηριστικά του προσώπου έως τα χρώματα και τις μικροδομές, όλα μπορούν να ελεγχθούν μετακινώντας στην αντίστοιχη κατεύθυνση του λανθάνοντος χώρου ΠΑΔ.
Προκειμένου να επιτευχθεί η επεξεργασία εικόνας με τον εντοπισμό κατευθύνσεων του λανθάνοντος χώρου, οι σύγχρονες μέθοδοι είτε βασίζονται σε εποπτευόμενες προσεγγίσεις είτε αξιοποιούν τον αλγόριθμο PCA. Οι πρώτες έχουν ένα τεράστιο μειονέκτημα σχετικά με το εύρος των κατευθύνσεων που μπορούν να διερευνηθούν, καθώς βασίζονται σε ένα σύνολο ανθρωπίνων σχολιασμένων βαθμολογιών για κάθε χαρακτηριστικό. Οι τελευταίες τείνουν να χρησιμοποιούν την ίδια μέθοδο με μικρές τροποποιήσεις, με αποτέλεσμα παρόμοιες πειραματικές παρατηρήσεις.
Σε αυτήν την εργασία, προσεγγίζουμε το πρόβλημα της ανακάλυψης σημασιολογικών κα τευθύνσεων χωρίς εποπτεία, χρησιμοποιώντας ημιπεριορισμένο προγραμματισμό για την εκτέλεση μη γραμμικής μείωσης διαστάσεων της εσωτερικής αναπαράστασης των ΠΑΔ. Συγκεκριμένα, εξετάζουμε τον μηχανισμό παραγωγής των ΠΑΔ και χρησιμοποιούμε περαιτέρω τον περίφημο αλγόριθμο Αναδίπλωσης Μέγιστης Διακύμανσης, επίσης γνωστό ως Ημιπεριορισμένη Ενσωμάτωση, για να εντοπίσουμε σημασιολογικά σημαντικές κατευθύνσεις αποσυνθέτοντας τα προεκπαιδευμένα βάρη. Επιπλέον, διεξάγονται εκτεταμένα πειράματα με τις πιο σύγχρονες αρχιτεκτονικές ΠΑΔ, StyleGAN και StyleGANv2, για 7 διαφορετικά σύνολα δεδομένων.
Από όσο γνωρίζουμε, αυτή είναι η πρώτη εργασία που προσεγγίζει αυτό το πρόβλημα από την οπτική του ημιπεριορισμένου προγραμματισμού. Ενώ το υπολογιστικό κόστος μπορεί να είναι υψηλό, τα αποτελέσματα αποδεικνύουν σαφώς την υπεροχή του σε διάφορα πειράματα, ενώ σε άλλα μπορούν να συγκριθούν με τα αποτελέσματα των πιο πρόσφατων εποπτευόμενων και μη εποπτευόμενων μεθόδων. Ο κώδικας είναι διαθέσιμος στο https://github.com/PanPapag/MVUGAN.
Λέξεις-κλειδιά:
ΠΑΔ, Επεξεργασία Εικόνας, Σημασιολογικές Κατευθύνσεις, Λανθάνων Χώρος, Ημεπεριορισμένος Προγραμματισμός