2009-03-04 77 views
11

Có ai có kinh nghiệm với bất kỳ API nhận dạng giọng nói nguồn mở hoặc tương đối rẻ nào cho java không? Tôi đang tìm kiếm một cái gì đó mà sẽ biến lời nói thành văn bản.Nhận dạng giọng nói Java

Từ trang nhận dạng giọng nói java trên mặt trời, có vẻ như nó là cái gì đó là khá chết. Yêu cầu của tôi là cái gì đó ít nhất chạy trên Linux.

Có ai có thể đề xuất điều gì đó không? Pure java sẽ là một phần thưởng, một giải pháp dựa trên Linux khác có thể được xem xét. Và vì đây là một dự án nhà ... rẻ hơn thì càng tốt.

  • Sửa

CMU Sphinx Như Amit chỉ ra CMU Sphinx http://cmusphinx.sourceforge.net/html/cmusphinx.php Vấn đề của tôi là một tỷ lệ lỗi từ khổng lồ. Đào tạo có vẻ như một dự án tất cả trong chính nó, tôi hy vọng sẽ thu thập một số sức mạnh để thử nó cuối tuần này.

IBM ViaVoice
Có thông báo tin tức nổi xung quanh năm 2004 về Via Voice being made open source. Có vẻ như việc phát hành tin tức là quá sớm và nó chưa bao giờ xảy ra. VIA Voice là released for linux tại một số điểm, nhưng Dường như họ dừng lại. Tất cả những gì dường như còn lại trên trang web của IBM là ViaVoice embedded.

IBM Websphere Voice
Tôi tưởng tượng đây là lý do tại sao ViaVoice (máy tính để bàn) có vẻ như bị ngưng. IBM đã tạo ra giải pháp thương mại này, chi phí sẽ cao hơn một cánh tay và một chân. Và chỉ cần sử dụng nó sẽ đưa những người bạn đã để lại, ít nhất là sau khi kinh nghiệm của tôi với websphere và IDE của họ.

Nuance
Dường như họ vẫn có thể tạo sản phẩm cho Linux. Nhưng tôi nghĩ rằng họ đã mất và theo IBM vào thị trường máy chủ. Tôi không chắc chắn về điều này, trang web của họ không thân thiện trong việc tìm kiếm thông tin hữu ích.

Open Mind/Free Speech
Những người này tiếp tục thay đổi tên dự án của họ. Có lẽ một số công ty đói tiền cứ đe dọa họ, nhưng tôi không biết. Dự án trông hơi chết.

Tôi có thể thử đào tạo Nhân sư cuối tuần này để xem liệu bạn có muốn trở thành bạn bè hay không. Trường hợp khác tệ hơn, tôi sẽ xem xét sử dụng giải pháp lời nói của Microsoft. Nó đã làm việc tốt cho tôi trong quá khứ, nhưng nó không phải là một giải pháp Linux tuyệt vời. Tôi có thể sử dụng nó qua rượu, nhưng sau đó tôi sẽ có hai máy chủ riêng biệt ... lộn xộn lộn xộn.

Ồ và những gì có vẻ là một nơi tốt để truy cập cho giọng nói/lời nói SpeechTechMag. Họ có một "Tham khảo Anual" có một danh sách các công ty mà bằng cách nào đó liên quan đến giọng nói/lời nói.

Trả lời

9
+0

Sau khi làm việc với nó, nó thực sự khá khủng khiếp. Không nhận ra bất cứ điều gì, và nó không giống như tôi có một giọng nói kinh khủng hay bất cứ điều gì. Đào tạo có vẻ như thậm chí còn nhiều vấn đề hơn và trừ khi bạn sẵn sàng bỏ túi cho một số cơ sở dữ liệu bên thứ ba mà bạn đang ngồi với đáy của đống. – guyumu

+0

Tôi chưa từng có kinh nghiệm thực tế nào với nó./ –

+2

Câu hỏi này khá cũ nhưng tôi muốn nói với hiệu suất hiện tại của Nhân sư. Tôi đã sử dụng Sphinx 4 và mô hình WSJ thích nghi và nó đã cho tôi độ chính xác 86%. – Shekhar

1

tôi đã được tìm kiếm điều tương tự cho một vài ngày nay. Cho đến nay tôi đã tìm thấy Sphinx4 và FreeTTS. Cả hai đều là triển khai java và Sphinx có vẻ như nó được cập nhật thay vì thường xuyên không giống như FreeTTS. Vấn đề duy nhất tôi gặp phải là Sphinx đang gặp vấn đề trong việc hiểu tôi trong môi trường văn phòng, và tôi cần một giải pháp cho môi trường nhà kho.

3

Nhân sư là tùy chọn tốt nhất hiện có nếu bạn đang sử dụng ngân sách. tuy nhiên nó cũng làm cho một sự khác biệt lớn những gì bạn sử dụng, cách bạn điều chỉnh chúng cách bạn điều chỉnh nguồn âm thanh của mình. hoàn toàn mọi thứ phải phù hợp nếu không nó sẽ không hoạt động. đưa ra vấn đề bạn mô tả id sẵn sàng đặt cược một khoản tiền đáng kể mà bạn đã có bạn có mô hình của bạn trộn lẫn và mic của bạn không được hiệu chỉnh chính xác. Ngoài ra, nếu bạn có giọng, nó có thể sẽ không hoạt động - đây không phải là vấn đề với bộ giải mã nhưng với các mô hình âm thanh - nếu không có ai có giọng/giọng tương tự như bạn đã được đưa vào dữ liệu đào tạo, bạn sẽ nhận được kết quả kém .

cho biết, bạn đã xem trang mô hình nguồn mở của họ chưa?

http://www.speech.cs.cmu.edu/sphinx/models/

tùy thuộc vào những gì bạn đang cố gắng làm bạn sẽ có thể để có được khoảng 90% độ chính xác về tự do ngôn luận với các mô hình 16kHz WSJ và gigaword LMS NVP. Tuy nhiên, tôi thận trọng rằng ASR là một công việc lớn và chưa đạt được trạng thái hàng hóa.

+0

Tôi nghĩ rằng tôi đã nhận ra rằng nó vẫn còn một con đường dài để đi. Thông thường tôi có giọng hay không chủ quan: D nhưng có khả năng. Ive gần đây đã ngừng sử dụng ubuntu và nhảy lên các cửa sổ bandwagon. Khi tôi tiếp tục với điều này, tôi nghĩ rằng tôi sẽ có khả năng để sử dụng động cơ của microsoft, mà đã làm việc reasonbly trong quá khứ. Nhưng cuối cùng ... Tôi nghĩ rằng công nghệ này đã đi xa, và tôi nghĩ rằng tôi sẽ bỏ phần đó hoàn toàn trong 10 năm :) – guyumu

+0

động cơ của microsoft cũng được sử dụng để dựa trên nhân sư. bây giờ tôi nghĩ rằng họ có lẽ dựa nhiều hơn vào HTK, một hệ thống nhận dạng giọng nói nguồn mở khác. giọng của bạn không phải là vấn đề chủ quan từ quan điểm của một hệ thống ASR. kết quả sẽ phụ thuộc rất nhiều vào các đặc tính của giọng nói của bạn phù hợp với những đặc điểm của giọng nói trong dữ liệu đào tạo như thế nào. sự khác biệt có thể có vẻ tầm thường đối với bạn, ví dụ như giọng Canada so với giọng Mỹ, có thể có tác động rất lớn đến chất lượng ASR. những ngày này hầu hết các hệ thống dựa trên cùng một thuật toán, sự khác biệt là dữ liệu. – si28719e

0

Nhóm của tôi đã hoàn thành một chương trình nhỏ trong Java để nhận dạng các chữ số được sử dụng bằng cách sử dụng Sphinx.

2

bạn có thể tải xuống vPass (mật khẩu thoại) từ http://www.basic-signalprocessing.com.

Cho (vText) thoại thành văn bản, tôi có thể gửi tệp vText.jar tới email của bạn. Xin vui lòng thông báo cho [email protected]

Các thành phần được thiết kế cho ngôn ngữ Java và .Net. Thời gian nhận dạng là 5 giây. VPass được kiểm tra tốt vText thì không, vẫn còn mới, đó là lý do tại sao chưa được đóng gói.

liên quan, Andreas

Các vấn đề liên quan