Ανάλυση Δομής και Εντοπισμός Περιοχών Κειμένου σε Ιστορικά Χειρόγραφα

Διπλωματική Εργασία uoadl:1324833 347 Αναγνώσεις

Μονάδα:
Κατεύθυνση / ειδίκευση Επεξεργασία-Μάθηση Σήματος και Πληροφορίας (ΕΜΠ)
Πληροφορική
Ημερομηνία κατάθεσης:
2016-11-21
Έτος εκπόνησης:
2016
Συγγραφέας:
Καδδάς Παναγιώτης
Στοιχεία επιβλεπόντων καθηγητών:
Θεοδωρίδης Σέργιος, Καθηγητής, Τμήμα Πληροφορικής και Τηλεπικοινωνιών, ΕΚΠΑ
Γάτος Βασίλειος, Ερευνητής A, Ινστιτούτο Πληροφορικής και Τηλεπικοινωνιών, ΕΚΕΦΕ Δημόκριτος
Πρωτότυπος Τίτλος:
Ανάλυση Δομής και Εντοπισμός Περιοχών Κειμένου σε Ιστορικά Χειρόγραφα
Γλώσσες εργασίας:
Ελληνικά
Μεταφρασμένος τίτλος:
Ανάλυση Δομής και Εντοπισμός Περιοχών Κειμένου σε Ιστορικά Χειρόγραφα
Περίληψη:
Τα ιστορικά έγγραφα αποτελούν σημαντική πηγή πληροφορίας, τόσο για την απόκτηση εμπεριστατωμένης γνώσης της ιστορίας, όσο και για την γνώση της πολιτιστικής κληρονομιάς. Η είσοδος της τεχνολογίας στην καθημερινότητα δημιουργεί την ανάγκη προσαρμογής της έρευνας ιστορικών βιβλίων και χειρογράφων σε ένα νέο περιβάλλον. Για το λόγο αυτό, αναπτύσσονται συνεχώς νέες εφαρμογές οπτικής επεξεργασίας, που διευκολύνουν την πρόσβαση και αναγνώριση του περιεχομένου τέτοιων ιστορικών κειμένων, ώστε να γίνει δυνατή η μετατροπή τους σε ηλεκτρονική μορφή. Μεγάλος αριθμός συλλογών αποτελούνται από χειρόγραφα, που η επεξεργασία τους είναι πολυπλοκότερη σε σύγκριση με την επεξεργασία τυπωμένων εγγράφων (machine-printed documents), κυρίως λόγω της ακαθόριστης δομής και της χαμηλής ποιότητας τους. Η εργασία αυτή στοχεύει στην ανάπτυξη μεθόδου, που επικεντρώνεται στο στάδιο ανάλυσης δομής της σελίδας ιστορικών χειρογράφων και εντοπισμού περιοχών κειμένου, που υπάρχουν σε αυτά. Το αποτέλεσμα της ανάλυσης αυτής αποτελεί την είσοδο σε ένα σύστημα αναγνώρισης γραφής, επομένως είναι προφανής η ιδιαίτερη σημασία του. Για την εξαγωγή της δομής των εικόνων ιστορικών χειρογράφων, αναπτύχθηκε μία τεχνική που συνδυάζει την πιθανή ύπαρξη διαχωριστικών ευθειών (separator lines) και άλλων διαχωριστικών που προκύπτουν από την ανάλυση του υποβάθρου. Η τεχνική αυτή επιτρέπει τη δημιουργία ενός πλέγματος, που χωρίζει την εικόνα σε διακριτές ζώνες και προσεγγίζει στο μέγιστο δυνατό βαθμό τη γεωμετρική δομή της εικόνας. Εφαρμόζεται και σε ιστορικά χειρόγραφα που αποτελούνται από δύο σελίδες, σε αντίθεση με την πλειοψηφία των τεχνικών επεξεργασίας, που θεωρούν ότι επεξεργάζονται μία σελίδα. Στο στάδιο του εντοπισμού περιοχών κειμένου με βάση το πλέγμα αυτό, εξάγονται τα διάφορα στοιχεία πληροφορίας, όπως γράμματα, αριθμοί και λέξεις, χωρίς να απαιτείται πρώτα η διάκρισή τους με χρήση τεχνικών κατάτμησης εγγράφου. Ακολούθως, τα στοιχεία αυτά ενώνονται, χρησιμοποιώντας κριτήρια απόστασης, για να σχηματίσουν περιοχές κειμένου. Η αποτίμηση της μεθόδου βασίζεται σε υπάρχουσα τεχνική, όπου συγκρίνονται οι εντοπισμένες περιοχές κειμένου, με τις περιοχές απόλυτης αλήθειας (ground-truth regions), οι οποίες έχουν δημιουργηθεί χειροκίνητα. Η βάση δεδομένων, αποτελείται από 600 εικόνες ιστορικών χειρογράφων. Παράλληλα, γίνεται σύγκριση με άλλη τεχνική εξαγωγής περιοχών κειμένου, εφαρμοσμένη στην ίδια συλλογή και ελέγχεται η χρησιμότητα της διόρθωσης της κλίσης του εγγράφου ως στάδιο προ-επεξεργασίας. Τα πειραματικά αποτελέσματα είναι ενθαρρυντικά και επιβεβαιώνουν την αποτελεσματικότητα της μεθόδου που αναπτύχθηκε για μεγάλο αριθμό και διαφορετικά είδη ιστορικών χειρογράφων.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
ανάλυση δομής εγγράφου, κατάτμηση σελίδας, διαχωριστικές ευθείες, ανάλυση υποβάθρου, περιοχές κειμένου
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
2
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
32
Αριθμός σελίδων:
103

KaddasPanagiotis-M1324.pdf
7 MB
Δεν επιτρέπεται η πρόσβαση στο αρχείο. H πρόσβαση επιτρέπεται μόνο εντός του δικτύου του ΕΚΠΑ.