2012-11-30 33 views
5

Tôi đã đọc hướng dẫn này trên speech recognition và đề cập rằng tôi cần ba mục để nhận dạng giọng nói: Mô hình âm thanh, Mô hình ngôn ngữ, Từ điển ngữ âm.python PocketSphinx và thiết lập mô hình âm thanh?

Tôi muốn bắt đầu phát với điều này python demo, sử dụng Gstreamer để chụp từ micrô và đổi mẫu thành 8kHz, âm thanh PCM 16 bit.

tôi thấy rằng tôi có thể xác định mô hình ngôn ngữ và từ điển ngữ âm, và tôi sử dụng một trong những [được cung cấp bởi CMU]:

http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Language%20Model/ 

Nhưng tôi bối rối nơi tôi nên xác định mô hình âm thanh? Liệu gstreamer có mô hình âm thanh riêng của mình tôi đang sử dụng ngầm? Tôi đã hy vọng để sử dụng mô hình acoustic cung cấp ở đây cho kết quả tốt hơn một chút:

http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Acoustic%20Model/ 

(. Xin lỗi về sự siêu liên kết Tôi không thể gửi hơn 2 liên kết với đại diện ít hơn 10)

Trả lời

3

Nhưng Tôi bối rối nơi tôi nên chỉ định mô hình âm thanh?

Bạn có thể chỉ định mô hình với thuộc tính hmm của phần tử gstreamer. Cũng giống như nó được bao phủ trong hướng dẫn

asr.set_property('lm', '/home/user/mylanguagemodel.lm') 

Bạn có thể sử dụng

asr.set_property('hmm', '/home/user/acoustic_model_folder') 

Liệu GStreamer có mô hình âm thanh riêng của mình Tôi đang ngầm sử dụng?

Có, theo mặc định nó sử dụng mô hình tiếng Anh Mỹ hub4wsj_sc_8k từ bản phân phối

Các vấn đề liên quan