Deep Learning Architectures for Layout Analysis of Scientific Documents

Διπλωματική Εργασία uoadl:3217656 69 Αναγνώσεις

Μονάδα:
Κατεύθυνση Μεγάλα Δεδομένα και Τεχνητή Νοημοσύνη
Πληροφορική
Ημερομηνία κατάθεσης:
2022-05-16
Έτος εκπόνησης:
2022
Συγγραφέας:
Καλημέρης Αλέξανδρος
Στοιχεία επιβλεπόντων καθηγητών:
Βασίλης Κατσούρος
Διευθυντής Ερευνών
Ερευνητικό Κέντρο "Αθηνά"
Πρωτότυπος Τίτλος:
Deep Learning Architectures for Layout Analysis of Scientific Documents
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Αρχιτεκτονικές Βαθιάς Μάθησης για την Ανάλυση Διάταξης Επιστημονικών Εγγράφων
Περίληψη:
Η Ανάλυση Διάταξης Εγγράφων, δηλαδή η διαδικασία εντοπισμού και κατηγοριοποίησης των διαφόρων περιοχών που αποτελούν τη διάταξη ενός εγγράφου, είναι ένα θεμελιώδες βήμα σε κάθε διαδικασία που στοχεύει στην ανάλυση εγγράφων σε δομημένες, αναγνώσιμες από μηχανήματα μορφές που είναι προσβάσιμες από συστήματα κατανόησης εγγράφων. Λαμβάνοντας υπόψη την τεράστια συλλογή επιστημονικής βιβλιογραφίας, η οποία περιέχει καινοτόμες πληροφορίες από ποικίλους τομείς, που είναι σήμερα διαθέσιμη σε μη δομημένες μορφές, όπως εικόνες, γίνεται εμφανής η ανάγκη για αποτελεσματικές μεθόδους Ανάλυσης Διάταξης Εγγράφων, οι οποίες με τη σειρά τους επιτρέπουν την ευκολότερη εξαγωγή και ανάκτηση πληροφοριών από συστήματα κατανόησης εγγράφων.

Τα τελευταία χρόνια, για έγγραφα που είναι διαθέσιμα σε μορφή εικόνας, τα Βαθιά Νευρωνικά Δίκτυα και, ειδικότερα, τα Συνελικτικά Νευρωνικά Δίκτυα με βάση τις περιοχές, έχουν χρησιμοποιηθεί ευρέως για την αντιμετώπιση αυτού του προβλήματος με μεγάλη αποτελεσματικότητα. Ωστόσο, με την εμφάνιση αρχιτεκτονικών Μετασχηματιστών που παρουσιάζουν πολλά υποσχόμενα αποτελέσματα σε εργασίες όρασης υπολογιστή, υπάρχει σημαντικό κίνητρο για τη διερεύνηση της απόδοσής τους στην εργασία της ανάλυσης διάταξης εγγράφων.

Σε αυτή τη διπλωματική εργασία, θα χρησιμοποιήσουμε το PubLayNet, το οποίο είναι αυτή τη στιγμή το μεγαλύτερο σύνολο δεδομένων που έχει δημιουργηθεί ποτέ για την Ανάλυση Διάταξης Εγγράφων, προκειμένου να διερευνήσουμε και να αξιολογήσουμε διάφορες αρχιτεκτονικές που ενσωματώνουν ως δομικά στοιχεία τους Μετασχηματιστές και να τις συγκρίνουμε με τα Συνελικτικά Νευρωνικά Δίκτυα με βάση τις περιοχές, τα οποία επιτυγχάνουν κορυφαίες επιδόσεις στην προαναφερθείσα εργασία. Επιπλέον, θα παρουσιάσουμε διεξοδικά τα αποτελέσματα των πειραμάτων μας και θα συζητήσουμε διεξοδικά τις επιπτώσεις τους.
Κύρια θεματική κατηγορία:
Θετικές Επιστήμες
Λέξεις-κλειδιά:
Ανάλυση Εικόνων Κειμένου, Αναγνώριση Εικόνας, Βαθιά Μάθηση, Νευρωνικά Δίκτυα
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
5
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
30
Αριθμός σελίδων:
59
MSC_Thesis_Alexandros_Kalimeris.pdf (3 MB) Άνοιγμα σε νέο παράθυρο