Tôi đã đọc hướng dẫn này trên speech recognition và đề cập rằng tôi cần ba mục để nhận dạng giọng nói: Mô hình âm thanh, Mô hình ngôn ngữ, Từ điển ngữ âm.python PocketSphinx và thiết lập mô hình âm thanh?
Tôi muốn bắt đầu phát với điều này python demo, sử dụng Gstreamer để chụp từ micrô và đổi mẫu thành 8kHz, âm thanh PCM 16 bit.
tôi thấy rằng tôi có thể xác định mô hình ngôn ngữ và từ điển ngữ âm, và tôi sử dụng một trong những [được cung cấp bởi CMU]:
http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Language%20Model/
Nhưng tôi bối rối nơi tôi nên xác định mô hình âm thanh? Liệu gstreamer có mô hình âm thanh riêng của mình tôi đang sử dụng ngầm? Tôi đã hy vọng để sử dụng mô hình acoustic cung cấp ở đây cho kết quả tốt hơn một chút:
http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Acoustic%20Model/
(. Xin lỗi về sự siêu liên kết Tôi không thể gửi hơn 2 liên kết với đại diện ít hơn 10)