Ακολουθεί μια ανάλυση του τρόπου με τον οποίο χρησιμοποιούνται τα βιβλία κωδικών σε διαφορετικά πλαίσια:
* Vector Quantization (VQ): Αυτή είναι η πιο συνηθισμένη εφαρμογή. Στο VQ, ένα βιβλίο κωδικών περιέχει ένα σύνολο διανυσμάτων (συχνά αντιπροσωπεύουν φασματικά χαρακτηριστικά όπως συντελεστές CEPSTRAL MEL-FREECRACTIONS-MFCCs). Αυτοί οι φορείς αντιπροσωπεύουν διαφορετικά "πρωτότυπα" ήχων ομιλίας. Κατά τη διάρκεια της κωδικοποίησης, ένα εισερχόμενο διάνυσμα χαρακτηριστικών ομιλίας συγκρίνεται με τους φορείς στο βιβλίο κωδικών και ο πιο κοντινός δείκτης διανυσματικής αντιστοίχισης χρησιμοποιείται ως συμπιεσμένη αναπαράσταση της αρχικής ομιλίας. Κατά τη διάρκεια της αποκωδικοποίησης, αυτός ο δείκτης χρησιμοποιείται για την ανάκτηση του αντίστοιχου φορέα από το βιβλίο κωδικών, ανακατασκευάζοντας μια προσέγγιση της αρχικής ομιλίας. Ο στόχος είναι να επιτευχθεί αποτελεσματική συμπίεση διατηρώντας παράλληλα αποδεκτή ποιότητα ομιλίας.
* Κρυμμένα μοντέλα Markov (HMMS): Τα βιβλία κωδικών χρησιμοποιούνται μερικές φορές στο HMMS για αναγνώριση ομιλίας. Κάθε κατάσταση σε ένα HMM μπορεί να έχει ένα σχετικό βιβλίο κωδικών που αντιπροσωπεύει τα ακουστικά χαρακτηριστικά που ενδέχεται να παρατηρηθούν σε αυτή την κατάσταση. Οι πιθανότητες παρακολούθησης συγκεκριμένων διανυσμάτων κωδικών χρησιμοποιούνται στη συνέχεια κατά τη διάρκεια της διαδικασίας αποκωδικοποίησης για τον προσδιορισμό της πιο πιθανής ακολουθίας των καταστάσεων HMM (και επομένως των αναγνωρισμένων λέξεων).
* Αναγνώριση ηχείων/επαλήθευση: Τα βιβλία κωδικών μπορούν να αποθηκεύουν χαρακτηριστικά ειδικά για ηχεία. Για παράδειγμα, ένα βιβλίο κωδικών μπορεί να αντιπροσωπεύει τα τυπικά φασματικά χαρακτηριστικά της φωνής ενός συγκεκριμένου ομιλητή. Αυτό το βιβλίο κωδικών μπορεί στη συνέχεια να χρησιμοποιηθεί για να συγκρίνει με τη φωνή ενός άγνωστου ομιλητή για να διαπιστώσει εάν είναι ένας αγώνας.
Στην ουσία, ένα βιβλίο κωδικών παρέχει μια κβαντισμένη, συμπαγής αναπαράσταση του δυνητικά τεράστιου χώρου πιθανών ήχων ομιλίας ή χαρακτηριστικών ομιλητών, επιτρέποντας την αποτελεσματική αποθήκευση, τη μετάδοση και την επεξεργασία των δεδομένων ομιλίας. Η ποιότητα της επεξεργασίας του λόγου εξαρτάται σε μεγάλο βαθμό από την ποιότητα και το σχεδιασμό του βιβλίου κωδικών, το οποίο συχνά περιλαμβάνει αλγόριθμους κατάρτισης για τη δημιουργία αποτελεσματικών αναπαραστάσεων.
Πνευματικά δικαιώματα © Γνώση Υπολογιστών Όλα τα δικαιώματα κατοχυρωμένα