Điều tôi muốn làm là tạo một API dịch chuyển ngôn ngữ của con người sang định dạng IPA (Ngữ âm quốc tế). Câu hỏi của tôi là, nguồn tài nguyên về cách giải mã giọng nói ở cấp độ của dạng sóng âm thanh gốc. Tôi đã tìm một API, nhưng hầu hết những gì tôi tìm thấy chỉ dịch thẳng đến bảng chữ cái La Mã. Tôi đang tìm cách tạo ra một cái gì đó chính xác hơn một chút trong khả năng phân biệt ngữ âm thanh nhạc.Cách giải mã nhập bằng giọng nói
Trả lời
Tôi chỉ muốn bắt đầu bằng cách nói rằng dự án này khó hơn và phức tạp hơn bạn nghĩ. Lời nói để xử lý văn bản là một lĩnh vực rất lớn và phức tạp với một số lượng lớn các nghiên cứu đã được thực hiện vào nó. Lý do hầu hết các trình phân tích cú pháp gửi mọi thứ thẳng đến các ký tự La Mã là bởi vì hầu hết quá trình xử lý của chúng là một kết hợp xác suất của âm thanh mơ hồ với ngữ cảnh của các âm thanh mơ hồ khác để đoán từ nào hợp lý. Bạn có nhiều khả năng tìm thấy cái gì đó sẽ cung cấp cho bạn Soundex hơn là IPA. Điều đó nói rằng, đây là một vấn đề đã được tiếp cận trên một số mặt trận. Đặt cược tốt nhất của bạn có lẽ là dự án Sphinx từ CMU.
http://cmusphinx.sourceforge.net/wiki/start
Điều đó sẽ cung cấp cho bạn một khởi đầu tốt, nhưng bạn thực hiện một giả định rằng bài phát biểu vào văn bản xử lý là rất nhiều phát triển hơn nó thực sự là, và không có cách nào đơn giản của dịch bài phát biểu trước IPA thông qua các dạng sóng với bất kỳ loại độ chính xác nào. Nhân sư rất mô-đun và nguồn mở hoàn toàn và vì vậy nó sẽ cung cấp cho bạn một lượng lớn năng lượng trong tầm tay bạn, và vào thời điểm đó bạn có thể tìm ra cách để làm công việc này tùy thuộc vào bạn hay không. Đây không phải là một vấn đề được giải quyết theo bất kỳ cách nào.
- 1. Nhập bằng giọng nói jQuery HTML5
- 2. Nhập bằng giọng nói/giọng nói trực tiếp trên trình duyệt di động
- 3. Tổng hợp giọng nói của bài phát biểu bằng lời nói trên web - nhận danh sách bằng giọng nói
- 4. Dịch vụ nhận dạng giọng nói tìm kiếm bằng giọng nói của Google
- 5. Cách triển khai tìm kiếm bằng giọng nói đến SearchView
- 6. Ghi âm giọng nói bằng Java
- 7. Phát hiện bằng giọng nói trong C#
- 8. Mã hóa giọng nói trong Emacs trên Mac OS X
- 9. Nhận dạng giọng nói Java
- 10. C# Nhận dạng giọng nói
- 11. Android: Nhận dạng giọng nói
- 12. Nhập bằng giọng nói để điền văn bản chỉnh sửa trong Android?
- 13. C# Nhận dạng giọng nói
- 14. Tìm kiếm bằng giọng nói không nhạy cảm với SQLite
- 15. Có thư viện xác thực bằng giọng nói không?
- 16. Tìm quảng cáo chiêu hàng bằng giọng nói trên Android
- 17. Nhận dạng giọng nói qua cổng USB
- 18. Thuật toán để so sánh bằng giọng nói
- 19. Nhận dạng giọng nói cho android
- 20. Giọng nói của công cụ chuyển văn bản thành giọng nói của Google?
- 21. Viết công cụ nhận dạng giọng nói
- 22. API nhận dạng giọng nói của iPhone?
- 23. Hiển thị âm thanh/giọng nói
- 24. Cách nhận giọng nói ở định dạng thô bằng cách sử dụng micrô trong linux
- 25. Nhận dạng giọng nói trên Kinect
- 26. Cách ghi âm giọng nói trong trình duyệt?
- 27. Nhận dạng giọng nói liên tục Android
- 28. Nhận dạng giọng nói trên iPhone
- 29. Làm cách nào để ghi lại giọng nói của người dùng bằng Javascript/PHP?
- 30. Nhận dạng giọng nói Java API
Âm thanh như điều gì đó đáng làm, sau đó. Có ai đã ghi lại những gì được biết về các phương pháp hiện tại được sử dụng cho bài phát biểu <--> văn bản không? – josiah
Khá nhiều nhân vật trong cmu, họ có một nhật ký khá rộng rãi về các thử nghiệm và sửa đổi để bạn không chỉ thấy những gì hiện đang được triển khai như mới nhất và tuyệt vời nhất, mà bạn còn có thể xem các thử nghiệm mà họ chạy để tìm các tính năng hiệu suất tối ưu. http://sourceforge.net/projects/cmusphinx/forums/forum/5470 –
Khá bóng bẩy. Tôi đang mong chờ dự án này. Cảm ơn! – josiah