Στοιχεία επιβλεπόντων καθηγητών:
Θεοδωρίδης Σέργιος, Καθηγητής, Τμήμα Πληροφορικής και Τηλεπικοινωνιών, ΕΚΠΑ
Γάτος Βασίλειος, Ερευνητής A, Ινστιτούτο Πληροφορικής και Τηλεπικοινωνιών, ΕΚΕΦΕ Δημόκριτος
Περίληψη:
Τα ιστορικά έγγραφα αποτελούν σημαντική πηγή πληροφορίας, τόσο για την απόκτηση εμπεριστατωμένης γνώσης της ιστορίας, όσο και για την γνώση της πολιτιστικής κληρονομιάς. Η είσοδος της τεχνολογίας στην καθημερινότητα δημιουργεί την ανάγκη προσαρμογής της έρευνας ιστορικών βιβλίων και χειρογράφων σε ένα νέο περιβάλλον. Για το λόγο αυτό, αναπτύσσονται συνεχώς νέες εφαρμογές οπτικής επεξεργασίας, που διευκολύνουν την πρόσβαση και αναγνώριση του περιεχομένου τέτοιων ιστορικών κειμένων, ώστε να γίνει δυνατή η μετατροπή τους σε ηλεκτρονική μορφή. Μεγάλος αριθμός συλλογών αποτελούνται από χειρόγραφα, που η επεξεργασία τους είναι πολυπλοκότερη σε σύγκριση με την επεξεργασία τυπωμένων εγγράφων (machine-printed documents), κυρίως λόγω της ακαθόριστης δομής και της χαμηλής ποιότητας τους. Η εργασία αυτή στοχεύει στην ανάπτυξη μεθόδου, που επικεντρώνεται στο στάδιο ανάλυσης δομής της σελίδας ιστορικών χειρογράφων και εντοπισμού περιοχών κειμένου, που υπάρχουν σε αυτά. Το αποτέλεσμα της ανάλυσης αυτής αποτελεί την είσοδο σε ένα σύστημα αναγνώρισης γραφής, επομένως είναι προφανής η ιδιαίτερη σημασία του. Για την εξαγωγή της δομής των εικόνων ιστορικών χειρογράφων, αναπτύχθηκε μία τεχνική που συνδυάζει την πιθανή ύπαρξη διαχωριστικών ευθειών (separator lines) και άλλων διαχωριστικών που προκύπτουν από την ανάλυση του υποβάθρου. Η τεχνική αυτή επιτρέπει τη δημιουργία ενός πλέγματος, που χωρίζει την εικόνα σε διακριτές ζώνες και προσεγγίζει στο μέγιστο δυνατό βαθμό τη γεωμετρική δομή της εικόνας. Εφαρμόζεται και σε ιστορικά χειρόγραφα που αποτελούνται από δύο σελίδες, σε αντίθεση με την πλειοψηφία των τεχνικών επεξεργασίας, που θεωρούν ότι επεξεργάζονται μία σελίδα. Στο στάδιο του εντοπισμού περιοχών κειμένου με βάση το πλέγμα αυτό, εξάγονται τα διάφορα στοιχεία πληροφορίας, όπως γράμματα, αριθμοί και λέξεις, χωρίς να απαιτείται πρώτα η διάκρισή τους με χρήση τεχνικών κατάτμησης εγγράφου. Ακολούθως, τα στοιχεία αυτά ενώνονται, χρησιμοποιώντας κριτήρια απόστασης, για να σχηματίσουν περιοχές κειμένου. Η αποτίμηση της μεθόδου βασίζεται σε υπάρχουσα τεχνική, όπου συγκρίνονται οι εντοπισμένες περιοχές κειμένου, με τις περιοχές απόλυτης αλήθειας (ground-truth regions), οι οποίες έχουν δημιουργηθεί χειροκίνητα. Η βάση δεδομένων, αποτελείται από 600 εικόνες ιστορικών χειρογράφων. Παράλληλα, γίνεται σύγκριση με άλλη τεχνική εξαγωγής περιοχών κειμένου, εφαρμοσμένη στην ίδια συλλογή και ελέγχεται η χρησιμότητα της διόρθωσης της κλίσης του εγγράφου ως στάδιο προ-επεξεργασίας. Τα πειραματικά αποτελέσματα είναι ενθαρρυντικά και επιβεβαιώνουν την αποτελεσματικότητα της μεθόδου που αναπτύχθηκε για μεγάλο αριθμό και διαφορετικά είδη ιστορικών χειρογράφων.
Λέξεις-κλειδιά:
ανάλυση δομής εγγράφου, κατάτμηση σελίδας, διαχωριστικές ευθείες, ανάλυση υποβάθρου, περιοχές κειμένου