Περίληψη:
Η Ανάλυση Διάταξης Εγγράφων, δηλαδή η διαδικασία εντοπισμού και κατηγοριοποίησης των διαφόρων περιοχών που αποτελούν τη διάταξη ενός εγγράφου, είναι ένα θεμελιώδες βήμα σε κάθε διαδικασία που στοχεύει στην ανάλυση εγγράφων σε δομημένες, αναγνώσιμες από μηχανήματα μορφές που είναι προσβάσιμες από συστήματα κατανόησης εγγράφων. Λαμβάνοντας υπόψη την τεράστια συλλογή επιστημονικής βιβλιογραφίας, η οποία περιέχει καινοτόμες πληροφορίες από ποικίλους τομείς, που είναι σήμερα διαθέσιμη σε μη δομημένες μορφές, όπως εικόνες, γίνεται εμφανής η ανάγκη για αποτελεσματικές μεθόδους Ανάλυσης Διάταξης Εγγράφων, οι οποίες με τη σειρά τους επιτρέπουν την ευκολότερη εξαγωγή και ανάκτηση πληροφοριών από συστήματα κατανόησης εγγράφων.
Τα τελευταία χρόνια, για έγγραφα που είναι διαθέσιμα σε μορφή εικόνας, τα Βαθιά Νευρωνικά Δίκτυα και, ειδικότερα, τα Συνελικτικά Νευρωνικά Δίκτυα με βάση τις περιοχές, έχουν χρησιμοποιηθεί ευρέως για την αντιμετώπιση αυτού του προβλήματος με μεγάλη αποτελεσματικότητα. Ωστόσο, με την εμφάνιση αρχιτεκτονικών Μετασχηματιστών που παρουσιάζουν πολλά υποσχόμενα αποτελέσματα σε εργασίες όρασης υπολογιστή, υπάρχει σημαντικό κίνητρο για τη διερεύνηση της απόδοσής τους στην εργασία της ανάλυσης διάταξης εγγράφων.
Σε αυτή τη διπλωματική εργασία, θα χρησιμοποιήσουμε το PubLayNet, το οποίο είναι αυτή τη στιγμή το μεγαλύτερο σύνολο δεδομένων που έχει δημιουργηθεί ποτέ για την Ανάλυση Διάταξης Εγγράφων, προκειμένου να διερευνήσουμε και να αξιολογήσουμε διάφορες αρχιτεκτονικές που ενσωματώνουν ως δομικά στοιχεία τους Μετασχηματιστές και να τις συγκρίνουμε με τα Συνελικτικά Νευρωνικά Δίκτυα με βάση τις περιοχές, τα οποία επιτυγχάνουν κορυφαίες επιδόσεις στην προαναφερθείσα εργασία. Επιπλέον, θα παρουσιάσουμε διεξοδικά τα αποτελέσματα των πειραμάτων μας και θα συζητήσουμε διεξοδικά τις επιπτώσεις τους.
Λέξεις-κλειδιά:
Ανάλυση Εικόνων Κειμένου, Αναγνώριση Εικόνας, Βαθιά Μάθηση, Νευρωνικά Δίκτυα