Incorporating Trainable Filterbanks in Deep Neural Networks for Music Transcription

Πτυχιακή Εργασία uoadl:3395209 33 Αναγνώσεις

Μονάδα:
Τμήμα Πληροφορικής & Τηλεπικοινωνιών
Πληροφορική
Ημερομηνία κατάθεσης:
2024-04-02
Έτος εκπόνησης:
2024
Συγγραφέας:
ΠΡΙΜΕΝΤΑ ΑΙΚΑΤΕΡΙΝΗ-ΜΑΡΙΑ
Στοιχεία επιβλεπόντων καθηγητών:
Ιωάννης Παναγάκης, Αναπληρωτής Καθηγητής, Τμήμα Πληροφορικής και Τηλεπικοινωνιών, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών
Πρωτότυπος Τίτλος:
Incorporating Trainable Filterbanks in Deep Neural Networks for Music Transcription
Γλώσσες εργασίας:
Αγγλικά
Μεταφρασμένος τίτλος:
Ενσωμάτωση Εκπαιδεύσιμης Συστοιχίας Φίλτρων σε Βαθιά Νευρωνικά Δίκτυα για Μουσική Μεταγραφή
Περίληψη:
Τα τελευταία χρόνια, η Αυτόματη Μεταγραφή Μουσικής, η διαδικασία δηλαδή
μετατροπής ηχογραφήσεων σε συμβολικές αναπαραστάσεις χωρίς ανθρώπινη
παρέμβαση, έχει βιώσει σημαντικές προόδους και έχει εφαρμοστεί σε διάφορους τομείς
της μουσικής. Πολλές υπάρχουσες προσεγγίσεις χρησιμοποιούν Βαθιά Νευρωνικά
Δίκτυα και βασίζονται στην εκμάθηση των χαρακτηριστικών εισόδου απευθείας από
αναπαραστάσεις όπως τα φασματογράμματα λογαριθμικής κλίμακας Mel. Αυτό οδηγεί
σε προκλήσεις, όπως έναν υψηλό αριθμό εκπαιδεύσιμων παραμέτρων, περιορισμένη
προσαρμοστικότητα και αργή σύγκλιση. Σε αυτήν τη διατριβή, αντιμετωπίζουμε αυτές τις
προκλήσεις προτείνοντας μια νέα μέθοδο για τη βελτίωση των συστημάτων μεταγραφής
πιάνου μέσω της ενσωμάτωσης εκπαιδεύσιμων φίλτρων για την εξαγωγή
χαρακτηριστικών. Εμπνευσμένοι από το SincNet, μια αρχιτεκτονική με Συνελικτικά
Νευρωνικά Δίκτυα που υλοποιεί παραμετρικά φίλτρα βασισμένα σε sinc συναρτήσεις,
στοχεύουμε στην βελτίωση της ακρίβειας και της αποδοτικότητας ενός υπάρχοντος,
υψηλής ανάλυσης, συστήματος μεταγραφής πιάνου. Το προτεινόμενο πλαίσιο
επιτυγχάνει ένα Μέσο Ποσοστό Ακρίβειας 89%, το οποίο είναι συγκρίσιμο αλλά
χαμηλότερο από αυτό της πρωτότυπης μεθόδου. Ωστόσο, συγκριτικά με την πρωτότυπη
μέθοδο, αποδίδει καλύτερα στην ακρίβεια ανίχνευσης των ενάρξεων και απολήξεων των
μουσικών νοτών. Η υλοποίηση της προτεινόμενης μας μεθόδου είναι διαθέσιμη στη
διεύθυνση https://github.com/marikaitiprim/MusicTranscription-BScThesis.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
Αυτόματη Μεταγραφή πιάνου, Επεξεργασία Ηχητικού Σήματος, Βαθιά Νευρωνικά Δίκτυα, Φίλτρα, Φασματόγραμμα λογαριθμικής κλιμακας Mel
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
4
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
44
Αριθμός σελίδων:
36
bsc-thesis_PRIMENTA.pdf (1 MB) Άνοιγμα σε νέο παράθυρο