Vì vậy, giống như nhiều người khác, tôi quyết định tạo công cụ nhận dạng giọng nói của riêng mình. Khi nó bật ra, nó không phải dễ dàng chút nào, thay vào đó, nó khá khó khăn để hoàn thành cho tiếng Anh đặc biệt, bởi vì có, tôi muốn nói, sự khác biệt kịch tính giữa cách một từ được viết, và cách nó được phát âm. Đến từ Georgia, tôi quyết định viết nhận dạng giọng nói cho ngôn ngữ Gruzia. Trong tiếng Georgia, bạn phát âm các từ CHÍNH XÁC theo cách bạn viết chúng. Nó giống như một phiên mã. Liệu thực tế này có làm giảm đáng kể nhiệm vụ của tôi không? Hoặc thậm chí còn khó khăn hơn ... khó khăn: D?Viết công cụ nhận dạng giọng nói
Trả lời
Nhận dạng giọng nói là một miền phức tạp với nhiều thuật toán, công cụ và phương pháp cụ thể. Để tạo động cơ của riêng của bạn, bạn có thể bắt đầu với CMUSphinx toolkit nhận dạng giọng nói mã nguồn mở mà sẽ cho phép bạn:
- Thu thập và yêu cầu xử lý dữ liệu để hỗ trợ ngôn ngữ Gruzia
- Tạo các mô hình cho Gruzia
- Thực hiện một bài phát biểu công cụ nhận dạng bằng tiếng Georgia.
- Sử dụng động cơ để tạo ra một ứng dụng nhận dạng giọng nói đang chạy trên máy tính để bàn, trên máy chủ hoặc trên IPhone (thông qua OpenEars)
CMUSphinx đã hỗ trợ tiếng Anh, Đức, Tây Ban Nha, Pháp, Hà Lan, Nga, tiếng Quan Thoại, tiếng Iceland, Ý và nhiều ngôn ngữ khác. Nó rất đơn giản để thêm một cái mới.Đối với những người mới, thường mất một hoặc hai tháng tập trung để thực hiện quy trình được yêu cầu.
Để bắt đầu truy cập trang chủ:
http://cmusphinx.sourceforge.net
và đọc hướng dẫn
http://cmusphinx.sourceforge.net/wiki/tutorial
Nếu bạn có bất kỳ câu hỏi, xin vui lòng yêu cầu họ trên các diễn đàn hay ở đây!
Và, đó là một quan niệm sai lầm rất phổ biến mà bạn chỉ đánh vần các âm thanh khi bạn nói tiếng Gruzia. Điều đó không đúng cho hầu hết các ngôn ngữ trên thế giới. Để kiểm tra giả thuyết, hãy thử ghi lại một số âm thanh trong trình chỉnh sửa âm thanh và kiểm tra xem âm thanh nào thực sự được phát âm hay không. Bạn sẽ bất ngờ. Hướng dẫn ở trên bao gồm chi tiết câu hỏi này.
để bạn có nghĩa là tôi có thể thêm ngôn ngữ hoàn toàn chưa được khám phá, chẳng hạn như tiếng Georgia và "làm cho nó hoạt động" trong vài tháng?!?! – nicks
Có, tại sao không. Trên thực tế CMUSphinx đã có nhiều tiến bộ để hỗ trợ các ngôn ngữ có nguồn lực hạn chế. –
Mọi người ở Georgia có hoàn toàn giống nhau không? Tôi nghĩ rằng không ... rất nhiều vấn đề lớn trong nhận dạng giọng nói không liên quan trực tiếp đến ngôn ngữ riêng của mình: người
- khác nhau (phụ nữ, nam giới, trẻ em, người già, vv) có giọng nói khác nhau
- đôi khi giống nhau người âm thanh khác nhau ví dụ như khi người đó có bị cảm lạnh
- nền khác nhau tiếng ồn
- bài phát biểu hàng ngày đôi khi chứa các từ trong các ngôn ngữ khác (như bạn có từ Đức mẫu giáo ở Mỹ/tiếng Anh)
- một số người không phải từ bản thân đất nước đã học được sự yếu đuối tuổi (họ thường âm thanh khác nhau)
- một số người nói nhanh hơn, người khác nói chậm
- chất lượng của microphone
, vv
Giải quyết những điều này luôn là khá khó khăn ... trên đầu trang của bạn mà có ngôn ngữ/phát âm để chăm sóc ... Tôi không biết Georgian nhưng những gì bạn mô tả có thể làm cho nhiệm vụ dễ dàng hơn một chút nhưng nó vẫn sẽ là một nhiệm vụ khó khăn.
EDIT - theo nhận xét:
Sử dụng thư viện tốt có thể giảm khung thời gian và thậm chí giúp về chất lượng ... nhưng không phải mọi thư viện là tốt cho nhận dạng giọng nói mặc dù có lẽ là rực rỡ trên một số audio- khác các vấn đề liên quan ...
để tham khảo xem bài viết Wikipedia http://en.wikipedia.org/wiki/Speech_recognition - nó có một cái nhìn tổng quan tốt bao gồm một số liên kết và tài liệu tham khảo cuốn sách đó là một điểm khởi đầu tốt ...
đối với làm thế nào để thiết kế một API như thấy ví dụ: http://java.sun.com/products/java-media/speech/forDevelopers/jsapi-guide/Recognition.html
về cách âm thanh của những người khác nhau: thực sự, thậm chí nghĩ rằng họ không âm thanh hoàn toàn giống nhau, có một sự giống nhau tuyệt vời bởi vì nói georgian giống như đọc phiên mã; và ở đó, bạn không có nhiều lựa chọn, tôi nghĩ vậy. – nicks
@NikaGamkrelidze Tôi nghi ngờ nếu bạn nghe cùng một từ của 2 người khác nhau, bạn có thể phân biệt giữa những người (như mẹ của bạn so với cha của bạn so với một số người bạn, vv)? – Yahia
tất nhiên: DDD tôi hiểu. nó vẫn còn khó: SS nhưng, làm thế nào để bạn nghĩ, có thể cho một noob hoàn chỉnh trong lĩnh vực này hay không. nói một năm? – nicks
- 1. Công cụ nhận dạng giọng nói nguồn mở
- 2. C# Nhận dạng giọng nói
- 3. Nhận dạng giọng nói Java
- 4. C# Nhận dạng giọng nói
- 5. Android: Nhận dạng giọng nói
- 6. API nhận dạng giọng nói của iPhone?
- 7. Nhận dạng giọng nói cho android
- 8. Nhận dạng giọng nói qua cổng USB
- 9. Nhận dạng giọng nói trên Kinect
- 10. Nhận dạng giọng nói trên iPhone
- 11. Nhận dạng giọng nói Java API
- 12. Nhận dạng giọng nói liên tục Android
- 13. Lưu đầu vào âm thanh của công cụ nhận dạng giọng nói Android Stock
- 14. Công cụ nhận dạng giọng nói tốt cho Mac chứ không phải iOS?
- 15. Dịch vụ nhận dạng giọng nói tìm kiếm bằng giọng nói của Google
- 16. Ngôn ngữ nào để sử dụng để viết phần mềm Nhận dạng giọng nói?
- 17. Ứng dụng iPhone ›Thêm nhận dạng giọng nói?
- 18. Giọng nói của công cụ chuyển văn bản thành giọng nói của Google?
- 19. Tại sao nhận dạng giọng nói lại khó?
- 20. Nhận dạng phát âm - API giọng nói hoặc thuật toán
- 21. Phần mềm nhận dạng giọng nói nguồn mở trong Java
- 22. Nhận dạng giọng nói của Vista tại Delphi
- 23. lập trình nhận dạng giọng nói qua java sphinx4
- 24. Vi phạm dịch vụ nhận dạng giọng nói của Google
- 25. Thư viện nhận dạng giọng nói nhanh nhất C++
- 26. Dịch vụ nhận dạng giọng nói Android có bận không?
- 27. Tắt các lệnh nhận dạng giọng nói tích hợp?
- 28. Nhận dạng giọng nói trong Windows Phone 8
- 29. Nhận dạng giọng nói liên tục khi đang hát?
- 30. Ngữ pháp đơn giản cho nhận dạng giọng nói
Btw, một người bạn của tôi gần đây đã tạo ASR của Georgia. Nếu bạn quan tâm hãy để tôi biết. –
Nika, bạn đã tạo phần mềm chưa? hãy chia sẻ những gì bạn đã làm, chúng tôi cũng quan tâm nếu phần mềm đó tồn tại. –
Tôi nghĩ cách dễ nhất để làm điều đó là sử dụng AI sử dụng các Perceprtrons Multilevel hoặc một cái gì đó tương tự (tôi có nghĩa là mạng nơ-ron) và đào tạo nó ... tôi nghĩ với giải pháp này bạn có thể dễ dàng giải quyết vấn đề đã đề cập đến Yahia trong câu trả lời của mình , GL;) – Simon