2011-08-01 42 views

Trả lời

6

Tôi là nhà phát triển OpenEars. OpenEars chỉ thực hiện nhận dạng giọng nói bằng tiếng Anh ngoài hộp. Có một mô hình âm thanh Mandarin trong bản phân phối Pocketsphinx mà OpenEars sử dụng, vì vậy, có thể có thể thay thế cho mô hình âm thanh tiếng Anh trong hướng dẫn, nếu bạn có phương pháp riêng của mình để tạo mô hình ngôn ngữ tương thích và từ điển ngữ âm và bạn chuẩn bị thực hiện một số nghiên cứu và thử nghiệm tự định hướng. Mô hình âm thanh được gọi là tdt_sc_8k. Bạn sẽ sử dụng nó thay vì thư mục trong các hướng dẫn được gọi là hub4wsj_sc_8k, nhưng có nhiều thứ bạn cần làm để làm cho nó hoạt động.

Nếu bạn muốn thử điều này, bạn muốn đọc Sphinx project documentation tại trang web bài phát biểu CMU để hiểu rõ mối quan hệ giữa mô hình âm thanh, mô hình ngôn ngữ và từ điển ngữ âm và tìm ra cách tạo mô hình ngôn ngữ tương thích của bạn. Bạn có thể bắt đầu với từ điển ngữ âm trên this page làm từ điển chính mà bạn có thể tạo từ điển ngữ âm có kích thước iPhone nhỏ hơn và các kiểu ngôn ngữ sau đó, vì có thể tương thích với mô hình âm thanh. Mô hình ngôn ngữ trên trang đó quá lớn đối với OpenEars. Để thử nghiệm tôi có lẽ sẽ tạo ra một mô hình lệnh và kiểm soát khoảng 100 từ. Bạn sẽ có thể sử dụng Sphinx Knowledge Base Tool để tạo mô hình ngôn ngữ từ tập hợp các từ mà bạn đã tạo từ điển ngữ âm từ đó.

Bước tiếp theo là xác minh mô hình âm thanh, kiểu ngôn ngữ và từ điển ngữ âm của bạn như đã biết trong cài đặt Pocketsphinx thông thường, ví dụ trên Linux. Nếu bạn có kết quả tốt với điều đó, bạn có thể đến diễn đàn OpenEars và tôi sẽ cố gắng giúp bạn làm việc trong OpenEars (không có gì đảm bảo vì mô hình âm thanh đó chưa bao giờ là một phần của thử nghiệm, nhưng tôi cũng có thể ' t nghĩ về một lý do cụ thể mà nó sẽ không hoạt động). Lớp LanguageModelGenerator của OpenEars chắc chắn sẽ chỉ hoạt động với tiếng Anh. Bạn chịu trách nhiệm đảm bảo rằng mô hình âm thanh được cấp phép theo cách không ngăn nó được sử dụng trong ứng dụng App Store nếu đó là cách bạn dự định phân phối dự án của mình.

Chúc may mắn!

EDIT: tôi muốn cập nhật này để cho bạn biết rằng mô hình acoustic Mandarin hiện là một phần của OpenEarsExtras, và để nói rằng LanguageModelGenerator hiện đã được cập nhật để bạn có thể cung cấp cho nó một bậc thầy từ điển âm tùy ý của bạn lựa chọn nếu bạn có một định dạng chính xác (nghĩa là từ được theo sau bởi một tab theo sau là âm vị, sau đó là ngắt dòng, được sắp xếp theo thứ tự bảng chữ cái), giúp bạn sử dụng trình mô hình hóa ngôn ngữ động với ngôn ngữ khác ngoài tiếng Anh dễ dàng hơn nhiều đã có một mô hình âm thanh. Cách hoạt động của nó là bạn có một từ điển tra cứu bằng ngôn ngữ bạn muốn tương tự với cmu07a.dic là từ điển tra cứu tiếng Anh mặc định, và LanguageModelGenerator xử lý phần còn lại, do đó, câu lệnh của tôi về nó đòi hỏi nhiều bước và nghiên cứu không nhất thiết phải là trường hợp nữa nếu bạn có một từ điển ngữ âm mà phát âm có thể được tra cứu từ đó. Phản hồi về cách thức này hoạt động cho bạn trong thực tế sẽ được đánh giá rất nhiều tại OpenEars forum (vui lòng không cung cấp phản hồi hoặc báo cáo lỗi tại đây trên Stack Overflow).

+0

cảm ơn bạn đã cập nhật. Trong OpenEarsExtras, tôi đã thấy một mandarin_notone.dic, do đó, nó có nghĩa là nó không thể phát hiện các âm khác nhau của phát âm tiếng Trung? – CodePlumber

Các vấn đề liên quan