Investigating Neural Networks and Transformer Models for Enhanced Comic Decoding

Διπλωματική Εργασία uoadl:3405329 13 Αναγνώσεις

Μονάδα:
Κατεύθυνση Μεγάλα Δεδομένα και Τεχνητή Νοημοσύνη
Πληροφορική
Ημερομηνία κατάθεσης:
2024-07-10
Έτος εκπόνησης:
2024
Συγγραφέας:
Κουλέτου Ελένη-Ιωάννα
Στοιχεία επιβλεπόντων καθηγητών:
Βασίλης Παπαβασιλείου, Συνεργαζόμενος Ερευνητής, ΙΕΛ/ΕΚ Αθηνά
Βασίλης Κατσούρος, Ερευνητής Α', ΙΕΛ/ΕΚ Αθηνά
Πρωτότυπος Τίτλος:
Investigating Neural Networks and Transformer Models for Enhanced Comic Decoding
Γλώσσες εργασίας:
Αγγλικά
Ελληνικά
Μεταφρασμένος τίτλος:
Διερεύνηση μοντέλων νευρωνικών δικτύων και transformers για βελτιωμένη αποκωδικοποίηση κόμικ
Περίληψη:
Τα κόμικς, που συνδυάζουν τέχνη με αφήγηση, συνεχίζουν να συναρπάζουν αναγνώστες, παραγωγούς κινηματογράφου και συλλέκτες, διατηρώντας τη γοητεία τους ως μια αγαπημένη μορφή οπτικής αφήγησης εδώ και δεκαετίες. Ο διαχωρισμός εικόνων στα κόμικς αποτελεί ένα κρίσιμο στοιχείο της ψηφιακής μεταμόρφωσης των κόμικς. Αξιοποιώντας ευριστικές μεθόδους, μοντέλα που βασίζονται σε νευρωνικά δίκτυα (YOLO) και καινοτόμες αρχιτεκτονικές transformer (GroundingDINO, SAM), η έρευνά μας στοχεύει στον αυτόνομο διαχωρισμό των σελίδων κόμικς στα βασικά τους συστατικά: καρέ, χαρακτήρες κόμικς και περιοχές κειμένου. Για το σκοπό αυτό, εκπαιδεύσαμε περαιτέρω τα μοντέλα YOLOv5 και YOLOv8 για να εντοπίσουν αυτά τα συστατικά, ενώ τα μοντέλα βασισμένα σε transformers χρησιμοποίησαν προτροπές για την ανάκτησή τους. Συγκρίνοντας την απόδοσή τους, με βάση καθιερωμένες μετρικές (Precision, Recall, Average Precision), σε τρία γνωστά σύνολα δεδομένων (eBDtheque, DCM772, Manga109) και χρησιμοποιώντας οπτικές επιθεωρήσεις, καταλήγουμε στο συμπέρασμα ότι τα προεκπαιδευμένα μοντέλα self-supervised transformers μπορούν να ξεπεράσουν επαρκώς τις σύγχρονες μεθόδους, που συχνά απαιτούν περαιτέρω προσαρμογή για να επιτύχουν συγκρίσιμα αποτελέσματα. Επιπλέον, το σύστημα αναγνώρισης χαρακτήρων έχει εξεταστεί χρησιμοποιώντας νευρωνικά δίκτυα και μη εποπτευόμενη μάθηση. Μετά από τη ποιοτική μελέτη, διαπιστώθηκε ότι αυτό το έργο δεν μπορεί να εφαρμοστεί καθολικά σε διάφορα κόμικς. Αντίθετα, θα πρέπει να επικεντρώνεται στους χαρακτήρες ενός μεμονωμένου κόμικ ή σε τόμους της ίδιας σειράς.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
Κόμικς, Ανίχνευση αντικειμένων, Τμηματοποίηση αντικειμένων, Ανίχνευση πλαισίων,Ανίχνευση χαρακτήρων,Ανίχνευση περιοχής κειμένου,Νευρωνικά δίκτυα,Transformers
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
2
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
44
Αριθμός σελίδων:
65
Αρχείο:
Δεν επιτρέπεται η πρόσβαση στο αρχείο έως 2025-01-10.

MScThesisKouletou.pdf
11 MB
Δεν επιτρέπεται η πρόσβαση στο αρχείο έως 2025-01-10.