Techniques for sentence-boundary detection in Greek legal text

Πτυχιακή Εργασία uoadl:3309213 57 Αναγνώσεις

Μονάδα:
Τμήμα Πληροφορικής & Τηλεπικοινωνιών
Πληροφορική
Ημερομηνία κατάθεσης:
2023-03-22
Έτος εκπόνησης:
2023
Συγγραφέας:
ΠΑΠΑΣΤΑΜΟΥ ΙΩΑΝΝΗΣ
Στοιχεία επιβλεπόντων καθηγητών:
Κουμπαράκης Μανόλης, Καθηγητής, Πληροφορικής και Τηλεπικοινωνιών, Ε.Κ.Π.Α
Πρωτότυπος Τίτλος:
Techniques for sentence-boundary detection in Greek legal text
Γλώσσες εργασίας:
Αγγλικά
Ελληνικά
Μεταφρασμένος τίτλος:
Τεχνικές για Διαχωρισμό Ελληνικών Νομικών Κειμένων σε Προτάσεις
Περίληψη:
Η ανίχνευση ορίων προτάσεων (SBD) γνωστή και ως αποσαφήνιση ορίων προτάσεων, ή και πιο απλά Διαχωρισμός Προτάσεων, είναι μια βασική υποκείμενη εργασία για τον κλάδο της Επεξεργασία Φυσικής Γλώσσας (NLP). Αν και ο Διαχωρισμός Προτάσεων θεωρείται απλό πρόβλημα, γίνεται πιο περίπλοκο σε άλλους τομείς λόγω της ανορθόδοξης χρήσης των συμβόλων στίξης. Για παράδειγμα, τα ονόματα φαρμάκων σε ιατρικά έγγραφα, οι τίτλοι σε νομικά κείμενα και οι παραπομπές σε ακαδημαϊκά άρθρα χρησιμοποιούν τα σημεία στίξης με τρόπους που δεν είναι συνηθισμένοι όσο είναι οι τρόποι που χρησιμοποιούνται σε κοινά έγγραφα όπως στα έγγραφα ειδήσεων. Ο διαχωρισμός προτάσεων είναι επίσης μια εργασία που εξαρτάται από τη γλώσσα. Κάθε γλώσσα φέρνει τα δικά της μοναδικά προβλήματα όταν πρόκειται για το διαχωρισμό προτάσεων. Ο διαχωρισμός προτάσεων γενικά δεν έχει λάβει τόση μεγάλη προσοχή στον τομέα της έρευνας NLP. Η πτυχιακή αυτή εξετάζει διαφορετικούς τρόπους με τους οποίους ο διαχωρισμός προτάσεων μπορεί να εφαρμοστεί στο σύνολο δεδομένων Raptarchis. Αναπτύσσουμε δύο συστήματα Διαχωρισμού Προτάσεων, το καθένα με βάση διαφορετική προσέγγιση, αναλύοντας τα πλεονεκτήματα και τα μειονεκτήματά τους. Ολοκληρώνουμε, χρησιμοποιώντας το σύστημα που απέδωσε καλύτερα, και παρέχουμε μια νέα έκδοση του συνόλου δεδομένων Raptarchis με τις προτάσεις να έχουν χωριστεί .
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
Επεξεργασία Φυσικής Γλώσσας, Νομικά Έγγραφαφα
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
3
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
15
Αριθμός σελίδων:
45

 


resources.zip
51 MB
Δεν επιτρέπεται η πρόσβαση στο αρχείο.