American Sign Language Recognition via Sensor glove data analysis with deep learning - An ARM Implementation

Διπλωματική Εργασία uoadl:3239312 58 Αναγνώσεις

Μονάδα:
Κατεύθυνση Τεχνολογίας Ολοκληρωμένων Κυκλωμάτων
Πληροφορική
Ημερομηνία κατάθεσης:
2022-10-25
Έτος εκπόνησης:
2022
Συγγραφέας:
Μπαρμπάκος Θεόδωρος
Στοιχεία επιβλεπόντων καθηγητών:
Μανωλάκος Ηλίας, Καθηγητής, Πληροφορικής και Τηλεπικοινωνιών, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών
Πρωτότυπος Τίτλος:
American Sign Language Recognition via Sensor glove data analysis with deep learning - An ARM Implementation
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Αναγνώριση της Αμερικανικής Νοηματικής Γλώσσας μέσω ανάλυσης δεδομένων από γάντι αισθητήρων με δίκτυο βαθιάς μάθησης - Υλοποίηση σε επεξεργαστή ARM
Περίληψη:
Η Βαθιά Μάθηση (DL), και ειδικότερα τα Νευρωνικά Δίκτυα Συνέλιξης (CNN), έχουν χρησιμοποιηθεί ευρέως για την επίλυση πλήθους προβλημάτων στη Μηχανική Όραση, περιλαμβανομένης και αυτού της Αναγνώρισης της Νοηματικής Γλώσσας (ΑΝΓ). Μέχρι σήμερα, έχουν γίνει πολλές προσπάθειες για τη σχεδίαση συστημάτων με χρήση κάμερας που μπορούν να μεταφράσουν τις χειρονομίες ενός ατόμου που μιλάει τη νοηματική γλώσσα σε κείμενο ή ακόμα και ομιλία. Ωστόσο, αυτά τα συστήματα είναι πολύ ευαίσθητα σε παράγοντες όπως η ένταση του φωτός, το χρώμα φόντου και η απόφραξη κίνησης κ.λπ.

Η παρούσα διπλωματική εργασία εστιάζει στην υλοποίηση ενός πλήρους συστήματος, το οποίο μεταφράζει σε συνεχή ροή λέξεις από την Αμερικανική Νοηματική Γλώσσα, σε κείμενο, με τη χρήση ενός γαντιού δεδομένων που κατασκευάστηκε με χαμηλό κόστος για τον ως άνω σκοπό και βασίζεται στη χρήση αισθητήρων κάμψης και μιας αδρανειακής μετρητικής συσκευής. Για την επίτευξη του στόχου, δημιουργήσαμε αρχικά ένα σύνολο δεδομένων από την καταγραφή χειρονομιών 20 τυχαίων παραγόμενων προτάσεων χρησιμοποιώντας ένα λεξιλόγιο 20 λέξεων. Κατά την καταγραφή και με τη χρήση ενός εξωτερικού κουμπιού αποδόθηκαν στα δεδομένα προ ετικέτες κατηγοριοποιώντας τα σε 21 κλάσεις και διαχωρίζοντας παράλληλα τις χρονικές περιόδους των χειρονομιών και μη χειρονομιών (κλάση μετάβασης). Στη συνέχεια, για την αντιμετώπιση της συνεχούς αναγνώρισης, εφαρμόζουμε τη μέθοδο ολισθαίνοντος παραθύρου και εξάγουμε τα αντίστοιχα αλληλεπικαλυπτόμενα δείγματα (χρονικά παράθυρα), τα οποία αφού κανονικοποιηθούν τροφοδοτούν ένα απλό Νευρωνικό Δίκτυο Συνέλιξης με τρία επίπεδα (conv1d ­ conv1d ­ fully connected).

Τα συνελικτικά επίπεδα συμβάλουν στην αυτόματη εξαγωγή ”χρήσιμων” χαρακτηριστικών ενώ το πλήρως συνδεδεμένο επίπεδο είναι υπεύθυνο για την κατηγοριοποίηση των δειγμάτων. Το προτεινόμενο νευρωνικό δίκτυο δοκιμάστηκε σε σύνολο δεδομένων που δεν είχε δεί ξανά, επιτυγχάνοντας ακρίβεια αναγνώρισης στις προκαθορισμένες χειρονομίες ίση με 93,40%. Στην πράξη, η ακρίβεια αναγνώρισης είναι 100%, καθώς δεν γίνονται λανθασμένες προβλέψεις μεταξύ χειρονομιών, αλλά μεταξύ μιας χειρονομίας και της μεταβατικής κλάσης τη στιγμή που το χρονικό παράθυρο εισέρχεται στα όρια της χειρονομίας ή εξέρχεται από αυτήν και για μόνο μερικά χρονικά βήματα. Η εκπαίδευση του νευρωνικού δικτύου και η ρύθμιση των υπερπαραμέτρων του, πραγματοποιήθηκε με τη χρήση του εργαλείου ATOM, που βασίζεται στη γλώσσα python. Επιπλέον, διεξήχθησαν δοκιμές και σε άλλα μοντέλα μηχανικής μάθησης όπως τα Random Forests, Support Vector Machines, και Extreme Gradient Boosted Trees (XGBoost), με αποτελέσματα που δείχνουν ότι το προτεινόμενο CNN πετυχαίνει ελαφρώς καλύτερο ποσοστό ακρίβειας αναγνώρισης.

Τέλος, αναπτύξαμε υλοποίηση του απλού Νευρωνικού Δικτύου Συνέλιξης τριών επιπέδων (για πρόβλεψη) στον επεξεργαστή ARM Cortex A9 που διαθέτει η πλακέτα ανάπτυξης Zybo. Χρησιμοποιώντας το περιβάλλον Xilinx SDK και την βιβλιοθήκη Eigen, καταφέραμε να σχεδιάσουμε ένα πραγματικού χρόνου ενσωματωμένο σύστημα, το οποίο λειτουργεί σε πολύ μεγαλύτερη συχνότητας από αυτή της δειγματοληψίας. Η εκπαίδευση και η δοκιμή του Νευρωνικού Δικτύου Συνέλιξης πραγματοποιήθηκε σε προσωπικό υπολογιστή χρησιμοποιώντας το εργαλείο ATOM και τη βιβλιοθήκη Keras βασισμένη στο Tensorflow­GPU.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
ΑΝΓ, Γάντι Δεδομένων, ARM, CNN, Μηχανική Μάθηση
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
5
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
73
Αριθμός σελίδων:
111
thesis_2022_10_pergamos.pdf (3 MB) Άνοιγμα σε νέο παράθυρο