Πέργαμος - Βιβλιοθήκη και Κέντρο Πληροφόρησης Εθνικού και Καποδιστριακού Πανεπιστημίου Αθηνών

Μονάδα:

Τμήμα Πληροφορικής & Τηλεπικοινωνιών
Πληροφορική

Ημερομηνία κατάθεσης:

2023-05-17

Έτος εκπόνησης:

2023

Συγγραφέας:

ΨΑΡΑ ΣΤΥΛΙΑΝΟΣ

Στοιχεία επιβλεπόντων καθηγητών:

Παναγιώτης Σταματόπουλος ,Επίκουρος Καθηγητής, Τμήμα πληροφορικής και τηλεπικοινωνιών, Εθνικόν και Καποδιστριακόν Πανεπιστήμιον Αθηνών

Πρωτότυπος Τίτλος:

Dynamic sign language recognition using deep learning

Γλώσσες εργασίας:

Αγγλικά

Μεταφρασμένος τίτλος:

Αναγνώριση δυναμικής νοηματικής γλώσσας με χρήση βαθιάς μάθησης

Περίληψη:

Η βελτίωση της επικοινωνίας για άτομα με προβλήματα ακοής αποτελεί ένα εξαιρετικά δύσκολο έργο για τους επιστήμονες στις μέρες μας. Οι κωφοί αναγκάζονται να χρησιμοποιήσουν εναλλακτικούς τρόπους επικοινωνίας, όπως η νοηματική γλώσσα, προκειμένου να αλληλοεπιδράσουν με τους ανθρώπους γύρω τους. Εντούτοις, το γεγονός ότι υπάρχουν πάνω από 200 γλώσσες νοηματικής σε όλο τον κόσμο, κάνει την επικοινωνία για άτομα με απώλεια ακοής πολύ πιο δύσκολη. Συνεπώς, αυξάνεται η ανάγκη για ανάπτυξη ενός αυτόματου μεταφραστή νοηματικής γλώσσας μέσω της τεχνητής νοημοσύνης.
Η αναγνώριση νοηματικής γλώσσας μέσω της μηχανικής μάθησης στοχεύει στη βελτίωση της ποιότητας ζωής των ανθρώπων με ακουστική δυσλειτουργία. Ωστόσο, η αναγνώριση περίπλοκων νοημάτων τα όποια ερμηνεύονται μέσω του συνδυασμού της έκφρασης του προσώπου, της κίνησης των χεριών και της στάσης του σώματος, σε συνδυασμό με ένα περιβάλλον το οποίο μπορεί να μπερδέψει τον μεταφραστή αποτελεί μεγάλη πρόκληση για τους ερευνητές.
Σε αυτή την εργασία είχαμε την δυνατότητα να πειραματιστούμε με ποικίλες μεθόδους μηχανικής μάθησης χρησιμοποιώντας τη δημόσια βάση δεδομένων DSL10_Dataset. Συγκεκριμένα, εφαρμόσαμε το προ-εκπαιδευμένο μοντέλο VGG-16 για εξαγωγή χαρακτηριστικών προερχόμενων από την αναγνώριση των μοτίβων και το MediaPipe για εξαγωγή χαρακτηριστικών προερχόμενων από τα key-points των χεριών και του σώματος. Τέλος, αξιολογούμε και τις δύο προσεγγίσεις χρησιμοποιώντας τα προτεινόμενα μοντέλα LSTM και GRU για ταξινόμηση.
Τα αποτελέσματά μας δείχνουν ότι ο συνδυασμός του προ-εκπαιδευμένου μοντέλου VGG_16 για εξαγωγή χαρακτηριστικών και του προτεινόμενου μοντέλου LSTM για ταξινόμηση πέτυχε ακρίβεια 96,44% η οποία ξεπέρασε τους άλλους συνδυασμούς που εφαρμοστήκαν σε αυτή την εργασία.

Κύρια θεματική κατηγορία:

Τεχνολογία – Πληροφορική

Λέξεις-κλειδιά:

Τεχνητή νοημοσύνη, Αμερικάνικη νοηματική γλώσσα, VGG-16, MediaPipe, LSTM, GRU

Ευρετήριο:

Ναι

Αρ. σελίδων ευρετηρίου:

Εικονογραφημένη:

Ναι

Αρ. βιβλιογραφικών αναφορών:

Αριθμός σελίδων:

Αρχείο: