Πέργαμος - Βιβλιοθήκη και Κέντρο Πληροφόρησης Εθνικού και Καποδιστριακού Πανεπιστημίου Αθηνών

Μονάδα:

Κατεύθυνση Μεγάλα Δεδομένα και Τεχνητή Νοημοσύνη
Πληροφορική

Ημερομηνία κατάθεσης:

2024-04-16

Έτος εκπόνησης:

2024

Συγγραφέας:

Καραμανίδης Δημήτριος

Στοιχεία επιβλεπόντων καθηγητών:

Χαρίλαος Παπαγεωργίου, Διευθυντής Έρευνας, Ε.Κ. ΑΘΗΝΑ

Πρωτότυπος Τίτλος:

Mapping of skeleton keypoints to avatar motions in signing space

Γλώσσες εργασίας:

Αγγλικά

Μεταφρασμένος τίτλος:

Αντιστοίχιση των αρθρώσεων του σκελετού σε κινήσεις του Avatar στον χώρο νοηματισμού

Περίληψη:

Η Νοηματική γλώσσα αποτελεί τον κύριο τρόπο επικοινωνίας για άτομα που είναι κωφά
ή αντιμετωπίζουν προβλήματα στην ακοή. Η αναπαράσταση της Νοηματικής γλώσσας
αποτελεί μια πολύπλοκη διαδικασία, η οποία εμπλέκει ανθρώπινες δραστηριότητες που
απαιτούν πολύ χρόνο. Για να αντιμετωπίσουμε αυτήν την πρόκληση, προτείνουμε μια
αυτοματοποιημένη μέθοδο που να αντιστοιχεί τις αρθρώσεις του σκελετού σε κινήσεις του
Avatar στον χώρο νοηματισμού, χρησιμοποιώντας προηγμένες τεχνικές βαθιάς μάθησης.
Αυτή η αντιστοίχιση επιτυγχάνεται με την ακριβή εξαγωγή συντεταγμένων 3Δ αρθρώσεων
του σώματος από βίντεο, χρησιμοποιώντας τελευταίας τεχνολογίας αλγόριθμους για την
εκτίμηση της ανθρώπινης πόζας. Στη μελέτη μας, εξετάζουμε συγκεκριμένες προσεγγίσεις
που εντοπίζουν τα 2Δ σημεία του σκελετού από βίντεο και στην συνέχεια τα μετατρέπουν
στο 3Δ χώρο, τις οποίες αξιολογούμε σε ένα μικρό συνθετικό σύνολο δεδομένων που
περιλαμβάνει πέντε βίντεο με το avatar Paula. Η έρευνα μας επικεντρώνεται στις κινήσεις
των χεριών, δίνοντας έμφαση στους ώμους, τους αγκώνες και τους καρπούς,
αναγνωρίζοντας τη σημασία τους στην κατανόηση της νοηματικής γλώσσας. Λόγω της
εκπαίδευσης των αξιολογημένων μεθόδων σε γενικά σύνολα δεδομένων και όχι σε
συγκεκριμένα για τη νοηματική γλώσσα, κάναμε ορισμένες προσαρμογές προκειμένου
να επιτύχουμε την αντιστοίχιση των σημείων του σκελετού. Επίσης, παρέχουμε μια
ολοκληρωμένη ανάλυση των πλεονεκτημάτων και των αδυναμιών για κάθε μέθοδο και
αναφέρουμε συγκεκριμένα μοτίβα της απόδοση τους που παρατηρήθηκαν σε κάθε άξονα.
Σημαντικό είναι ότι η προσέγγιση που χρησιμοποιεί το μοντέλο BlazePose του Mediapipe
για την εκτίμηση της 2Δ πόζας και το VideoPose3D για την 3Δ ανακατασκευή, υπερτερεί
των υπολοίπων, επιτυγχάνοντας ένα μέσο σφάλμα αρθρώσεων (MPJPE) ίσο με 72.2
χιλιοστά.

Κύρια θεματική κατηγορία:

Τεχνολογία – Πληροφορική

Λέξεις-κλειδιά:

Εκτίμηση ανθρώπινης πόζας, 3Δ ανακατασκευή, αναπαράσταση νοηματικής γλώσσας, κίνηση Avatar

Ευρετήριο:

Ναι

Αρ. σελίδων ευρετηρίου:

Εικονογραφημένη:

Ναι

Αρ. βιβλιογραφικών αναφορών:

Αριθμός σελίδων:

Αρχείο: