Multilingual Text Detection on Scene Images using MASK RCNN Method

Διπλωματική Εργασία uoadl:2942661 5 Αναγνώσεις

Μονάδα:
Κατεύθυνση Μεγάλα Δεδομένα και Τεχνητή Νοημοσύνη
Πληροφορική
Ημερομηνία κατάθεσης:
2021-04-28
Έτος εκπόνησης:
2021
Συγγραφέας:
Ναούμ Νικόλαος
Στοιχεία επιβλεπόντων καθηγητών:
Κατσούρος Βασίλειος, Ερευνητής Α', Ερευνητικό Κέντρο Αθηνά
Πρωτότυπος Τίτλος:
Multilingual Text Detection on Scene Images using MASK RCNN Method
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Πολύγλωσση ανίχνευση κειμένου σε εικόνες σκηνής χρησιμοποιώντας τη μέθοδο MASK RCNN
Περίληψη:
Στη νέα εποχή της τεχνολογίας, όπου οι καινοτομίες αυξάνονται μέρα με τη μέρα, οι νέες ιδέες, μέθοδοι, διαδικασίες στον τομέα της επιστήμης υπολογιστών απαιτούνται όλο και περισσότερο. Ένα από τα πιο ενεργά θέματα αυτές τις μέρες είναι η «ανίχνευση και αναγνώριση κειμένου» σε εικόνες ή βίντεο. Οι ακριβείς πληροφορίες που υπάρχουν στην εικόνα είναι πολύ χρήσιμες για ένα ευρύ φάσμα εφαρμογών στην πραγματική ζωή. Ωστόσο, είναι μια πολύ περίπλοκη διαδικασία να εντοπιστεί και να αναγνωριστεί κείμενο σε εικόνες σκηνής. Η ανίχνευση και αναγνώριση κειμένου σε εικόνες σκηνής, λόγω της ποικιλίας των εφαρμογών που υπάρχουν στην αγορά, αναζητά την προσοχή της κοινότητας της τεχνολογίας των υπολογιστών όλο και περισσότερο. Υπάρχουν ορισμένα προβλήματα σε αυτόν τον τομέα που δεν έχουν επιλυθεί ακόμα όπως είναι πολυγλωσσία, χρώματα, προσανατολισμοί, γραμματοσειρές, στυλ. Οι πρόσφατες εξελίξεις στη βαθιά μάθηση έχουν αυξήσει την προσοχή δυνητικών ερευνητών στην ανίχνευση κειμένου. Η αποτελεσματικότητα των Convolutional Neural Networks βασίζεται σε μεγάλο βαθμό στην απόδοση του αλγορίθμου που υιοθετείται για την ανίχνευση αντικειμένου. Υπάρχουν πολλές δυσκολίες που πρέπει να αντιμετωπιστούν οι οποίες σχετίζονται με την ανίχνευση κειμένου σκηνής. Το μεγαλύτερο πρόβλημα είναι ότι οι περισσότερες από τις μεθόδους που χρησιμοποιούνται για την ανίχνευση κειμένου δείχνουν καλύτερη απόδοση όταν οι συνθήκες είναι υπό έλεγχο, όταν οι περιπτώσεις στις οποίες το κείμενο έχει κανονικό σχήμα και κανονική αναλογία. Λόγω περιορισμένων μορφών αναπαράστασης κειμένου και περιορισμένου δεκτικού μεγέθους CNN, οι μέθοδοι αυτοί δεν εντοπίζουν τις πολύπλοκες σκηνές, όπως κείμενα που έχουν αυθαίρετο σχήμα ή είναι μακρά κείμενα. Η προτεινόμενη μέθοδος που εφαρμόζεται και δοκιμάζεται είναι η Mask RCNN για να προσφέρει ένα πλαίσιο που έχει μια ισχυρή βάση και προσφέρει πολλά πλεονεκτήματα θεσμικής σαφήνειας στην έννοια, την ευελιξία, την ευρωστία και τον γρήγορο χρόνο εκμάθησης.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
Ανίχνευση κειμένου, βαθιά δίκτυα, Mask RCNN, υπολογιστική όραση, αλγόριθμος, αναγνώριση κειμένου
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
6
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
39
Αριθμός σελίδων:
84
MSc_Thesis_Nikolaos_Naoum.pdf (2 MB) Άνοιγμα σε νέο παράθυρο