Πολυτροπική κατηγοριοποίηση βίντεο με βαθιά νευρωνικά δίκτυα

Διπλωματική Εργασία uoadl:2800089 43 Αναγνώσεις

Μονάδα:
Κατεύθυνση / ειδίκευση Επεξεργασία-Μάθηση Σήματος και Πληροφορίας (ΕΜΠ)
Πληροφορική
Ημερομηνία κατάθεσης:
2018-09-29
Έτος εκπόνησης:
2018
Συγγραφέας:
Πιτταράς Νικηφόρος
Στοιχεία επιβλεπόντων καθηγητών:
Σταύρος Περαντώνης, Διευθυντής Έρευνας, Ινστιτούτο Πληροφορικής και Τηλεπικοινωνιών, ΕΚΕΦΕ Δημόκριτος
Πρωτότυπος Τίτλος:
Πολυτροπική κατηγοριοποίηση βίντεο με βαθιά νευρωνικά δίκτυα
Γλώσσες εργασίας:
Αγγλικά
Ελληνικά
Μεταφρασμένος τίτλος:
Πολυτροπική κατηγοριοποίηση βίντεο με βαθιά νευρωνικά δίκτυα
Περίληψη:
Η πρόσφατη ραγδαία αύξηση και αφθονία των πολυμεσικών δεδομένων καθιστά αναγκαία τη χρήση αυτόματων εργαλείων κατηγοριοποίησης σε σχετικές εφαρμογές μηχανικής μάθησης. H πλούσια πολυτροπικότητα (multimodality) των τελευταίων παρέχει πλήθος πηγών πληροφορίας προς χρήση και υποβοήθηση της διαδικασίας κατηγοριοποίησης. Στην παρούσα μελέτη εξετάζουμε ερευνητικά ερωτήματα σχετικά με την επιρροή της οπτικής, ακουστικής και χρονικής πληροφορίας ενός βίντεο, στην κατηγοριοποίησή του. Εξάγουμε καρέ και φασματογράμματα, υιοθετώντας μία βαθιά αναπαράσταση βασισμένη στο συνελικτικό νευρωνικό δίκτυο Alexnet και αξιολογούμε πολυτροπικές προσεγγίσεις early fusion μεθόδων, που συγχωνεύουν το οπτικό και το ακουστικό κανάλι σε μία πολυτροπική αναπαράσταση. Επιπλέον, εξετάζονται μέθοδοι προδιάθεσης (bias) οπτικών δεδομένων με τη συγχωνευμένη ακουστική πληροφορία, εμπνευσμένες από τεχνικές περιγραφή εικόνας. Τέλος, εφαρμόζουμε συγχώνευση των σκορ κατηγοριοποίησης σε επίπεδο βίντεο, μέσω γραμμικού συνδυασμού και συγχώνευσης μεγίστου. Για τη χρονική πληροφορία, συγκρίνουμε τη συγχώνευση πληροφορίας (αρχιτεκτονική FC βασισμένη στο νεuρωνικό ταξινομητή πλήρους σύνδεσης και της συγχώνευσης softmax) από το επίπεδο των καρέ σε αυτό ολόκληρης της αλληλουχίας, και της αρχιτεκτονικής LSTM, που ενσωματώνει απευθείας χρονικές αλληλοεξαρτήσεις της εισόδου. Εφαρμόζουμε τα δύο μοντέλα σε οπτική και ακουστική πληροφορία, καθώς και στις τεχνικές πολυτροπικής κατηγοριοποίησης. Στη συνέχεια εκτελούμε πειραματική αξιολόγηση σε πολλαπλά σύνολα δεδομένων για να αξιολογήσουμε τις παραπάνω μεθόδους και τα ερευνητικά ερωτήματα. Τα αποτελέσματα δείχνουν πως η LSTM τεχνική υπερτερεί της FC σε οπτικά δεδομένα, ενώ το αντίθετο ισχύει σε δεδομένα φασματογραμμάτων ήχου. Η επιλογή χρήσης της οπτικής ή της ακουστικής πληροφορίας εξαρτάται από το σύνολο δεδομένων και τον τύπο των κλάσεων, όπως φαίνεται από την συγκριτικά καλύτερη απόδοση του ήχου στο Audioset, και την υποδεέστερη απόδοση στα υπόλοιπα σύνολα δεδομένων, στα πολυτροπικά πειράματα. Σχετικά με τις πολυτροπικές τεχνικές, η απλή συγχώνευση σε επίπεδο βίντεο μέσω γραμμικού συνδυασμού δίνει βέλτιστα αποτελέσματα παρά τα πρακτικά μειονεκτήματά της, ενώ η συγχώνευση μεγίστου δίνει έχει απόδοση πολύ κοντά στις μη πολυτροπικές προσεγγίσεις. Η απλή συγχώνευση μέσου όρου και επιθέματος των οπτικοακουστικών δεδομένων δίνει βέλτιστα αποτελέσματα στην FC και LSTM τεχνική αντίστοιχα. Αντίθετα, οι τεχνικές προδιάθεσης αλληλουχιών δεν φαίνεται να εφαρμόζονται με την ίδια επιτυχία που έχουν στην περιγραφή εικόνας. Επιβεβαιώνουμε τη συμπληρωματικότητα τού οπτικού και ακουστικού καναλιού, με τις πολυτροπικές τεχνικές να υπερτερούν των προσεγγίσεων με μία πηγή πληροφορίας, εξάγουμε βασικές κατευθύσεις για επίτευξή αυτής της βελτίωσης, και προσφέρουμε ένα baseline για την απόδοση πολυτροπική τεχνικών, ανά σύνολο δεδομένων που εξετάζουμε.
Κύρια θεματική κατηγορία:
Θετικές Επιστήμες
Λέξεις-κλειδιά:
Μηχανική Μάθηση, Νευρωνικά Δίκτυα, Πολυτροπικότητα, Κατηγοριοποίηση, Βαθιά Μάθηση
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
4
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
141
Αριθμός σελίδων:
100