Cách giải mã nhập bằng giọng nói

Điều tôi muốn làm là tạo một API dịch chuyển ngôn ngữ của con người sang định dạng IPA (Ngữ âm quốc tế). Câu hỏi của tôi là, nguồn tài nguyên về cách giải mã giọng nói ở cấp độ của dạng sóng âm thanh gốc. Tôi đã tìm một API, nhưng hầu hết những gì tôi tìm thấy chỉ dịch thẳng đến bảng chữ cái La Mã. Tôi đang tìm cách tạo ra một cái gì đó chính xác hơn một chút trong khả năng phân biệt ngữ âm thanh nhạc.Cách giải mã nhập bằng giọng nói

Nguồn

2012-07-19 josiah

Tôi chỉ muốn bắt đầu bằng cách nói rằng dự án này khó hơn và phức tạp hơn bạn nghĩ. Lời nói để xử lý văn bản là một lĩnh vực rất lớn và phức tạp với một số lượng lớn các nghiên cứu đã được thực hiện vào nó. Lý do hầu hết các trình phân tích cú pháp gửi mọi thứ thẳng đến các ký tự La Mã là bởi vì hầu hết quá trình xử lý của chúng là một kết hợp xác suất của âm thanh mơ hồ với ngữ cảnh của các âm thanh mơ hồ khác để đoán từ nào hợp lý. Bạn có nhiều khả năng tìm thấy cái gì đó sẽ cung cấp cho bạn Soundex hơn là IPA. Điều đó nói rằng, đây là một vấn đề đã được tiếp cận trên một số mặt trận. Đặt cược tốt nhất của bạn có lẽ là dự án Sphinx từ CMU.

http://cmusphinx.sourceforge.net/wiki/start

Điều đó sẽ cung cấp cho bạn một khởi đầu tốt, nhưng bạn thực hiện một giả định rằng bài phát biểu vào văn bản xử lý là rất nhiều phát triển hơn nó thực sự là, và không có cách nào đơn giản của dịch bài phát biểu trước IPA thông qua các dạng sóng với bất kỳ loại độ chính xác nào. Nhân sư rất mô-đun và nguồn mở hoàn toàn và vì vậy nó sẽ cung cấp cho bạn một lượng lớn năng lượng trong tầm tay bạn, và vào thời điểm đó bạn có thể tìm ra cách để làm công việc này tùy thuộc vào bạn hay không. Đây không phải là một vấn đề được giải quyết theo bất kỳ cách nào.

Nguồn

2012-07-19 18:02:01

Âm thanh như điều gì đó đáng làm, sau đó. Có ai đã ghi lại những gì được biết về các phương pháp hiện tại được sử dụng cho bài phát biểu <--> văn bản không? – josiah

Khá nhiều nhân vật trong cmu, họ có một nhật ký khá rộng rãi về các thử nghiệm và sửa đổi để bạn không chỉ thấy những gì hiện đang được triển khai như mới nhất và tuyệt vời nhất, mà bạn còn có thể xem các thử nghiệm mà họ chạy để tìm các tính năng hiệu suất tối ưu. http://sourceforge.net/projects/cmusphinx/forums/forum/5470 –

Khá bóng bẩy. Tôi đang mong chờ dự án này. Cảm ơn! – josiah

Cách giải mã nhập bằng giọng nói

Trả lời

Các vấn đề liên quan