Μονάδα:
Κατεύθυνση Γλωσσική ΤεχνολογίαΠληροφορική
Ημερομηνία κατάθεσης:
2024-11-18
Συγγραφέας:
Στραβοράβδης Σπυρίδων
Στοιχεία επιβλεπόντων καθηγητών:
Γεώργιος Ταμπουρατζής, Ερευνητής, Ινστιτούτο Επεξεργασίας του Λόγου / Ερευνητικό Κέντρο "Αθηνά"
Πρωτότυπος Τίτλος:
Tradutorium: An offline cross-platform Machine Translation application
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Tradutorium: Μία τοπική εφαρμογή για Μηχανική Μετάφραση
Περίληψη:
Η μηχανική μετάφραση έχει εξελιχθεί σημαντικά από τη δημιουργία του κλάδου. Τα τελευταία 30 χρόνια η ποιότητα του παραγόμενου κειμένου έχει βελτιωθεί, αρχικά με την εκμετάλλευση στατιστικών τεχνικών και αργότερα με χρήση νευρωνικών δικτύων. Χρειαζόταν μεγάλος όγκος δεδομένων για να εξαχθούν αποδεκτά αποτελέσματα, πρακτικά καθιστώντας υποχρεωτική την εξάρτηση από μείζονες διαδικτυακές υπηρεσίες, με το απόρρητο των δεδομένων να είναι δευτερεύουσα προτεραιότητα. Πλέον αυτή η υπόθεση καταρρίπτεται, καθώς τα νεότερα μοντέλα μπορούν να εκπαιδευτούν και στη συνέχεια να μειωθεί το μέγεθος τους μέσω μίας διαδικασίας quantization. Αυτά τα μοντέλα μπορούν στη συνέχεια να εκτελεστούν σε καθημερινό και εύκολα προσβάσιμο hardware, ανοίγοντας νέα μονοπάτια για αυτόματη μετάφραση σε offline περιβάλλοντα και χρήσεις που προηγουμένως δεν ήταν εφικτές.
Η δημιουργία μιας offline εφαρμογής αυτόματης μετάφρασης που ονομάζεται Tradutorium περιγράφεται αναλυτικά. Χρησιμοποιεί πόρους από το project Bergamot, το οποίο βρίσκεται στην πρώτη γραμμή της έρευνας και ανάπτυξης offline μηχανικής μετάφρασης. Προσφέρονται επίσης περαιτέρω λειτουργίες, όπως μεταγραφή ήχου και εικόνας (χρησιμοποιώντας μοντέλα από τα projects Whisper και Tesseract αντίστοιχα), καθώς και ενσωμάτωση με το API της αγγλικής έκδοσης του Wiktionary (το οποίο φιλοξενείται από το Ίδρυμα Wikimedia), για ορισμούς λέξεων. Το Tradutorium δε θα υπήρχε χωρίς τα παραπάνω έργα στα οποία βασίστηκε και τις ομάδες που δημιούργησαν ή συνεισέφεραν σε αυτά.
Το Tradutorium είναι διαθέσιμο υπό την Mozilla Public License (άδεια ανοιχτού κώδικα) και η πρώτη του έκδοση στοχεύει λειτουργικά συστήματα για προσωπικούς υπολογιστές. Επειδή έχει κατασκευαστεί με χρήση τεχνολογιών που υποστηρίζουν πολλαπλές πλατφόρμες, το Tradutorium μπορεί θεωρητικά να επεκταθεί για να εκτελείται σε περισσότερες πλατφόρμες, συμπεριλαμβανομένων κινητών συσκευών ή προγραμμάτων περιήγησης ιστού. Αυτό θα απαιτούσε κάποιες επεκτάσεις στον υπάρχοντα κώδικα, όπως τη δημιουργία κατάλληλων διεπαφών χρήστη (UI) για κάθε πλατφόρμα και χρήση σε αυτές των διαφόρων βιβλιοθηκών από τις οποίες εξαρτάται. Θα μπορούσαν επίσης να ενσωματωθούν πρόσθετες βιβλιοθήκες, προσθέτοντας νέες δυνατότητες ή συμπληρώνοντας τις υπάρχουσες.
Ένα μεταφραστικό μοντέλο αγγλικής - ελληνικής γλώσσας εκπαιδεύτηκε επίσης με Marian NMT, σύμφωνα με τις προδιαγραφές του project Bergamot για δημιουργία συμβατών μοντέλων. Η διαδικασία που ακολουθήθηκε τεκμηριώνεται διεξοδικά.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
Μηχανική μετάφραση, νευρωνική μηχανική μετάφραση, νευρωνικά δίκτυα, μηχανική μάθηση, οπτική αναγνώριση χαρακτήρων, OCR, αναγνώριση γλώσσας, ανίχνευση γλώσσας
Αρ. σελίδων ευρετηρίου:
4
Αρ. βιβλιογραφικών αναφορών:
72