Tại sao nhận dạng giọng nói lại khó khăn như vậy? Thách thức cụ thể là gì? Tôi đã đọc qua một số question on speech recognition, một phần đã trả lời một số câu hỏi của tôi, nhưng câu trả lời phần lớn là giai thoại hơn là kỹ thuật. Nó cũng vẫn không thực sự trả lời tại sao chúng ta vẫn không thể ném thêm phần cứng vào vấn đề.Tại sao nhận dạng giọng nói lại khó?
Tôi đã thấy các công cụ thực hiện giảm nhiễu tự động bằng lưới thần kinh và phân tích FFT xung quanh với kết quả xuất sắc, vì vậy tôi không thể thấy lý do tại sao chúng tôi vẫn đang vật lộn với tiếng ồn ngoại trừ các trường hợp khó khăn như tiếng ồn nền ồn ào hoặc nhiều nguồn giọng nói.
Ngoài việc này, không phải chỉ là trường hợp sử dụng lưới thần kinh rất lớn, phức tạp, được đào tạo tốt để xử lý, sau đó ném phần cứng vào nó để làm cho nó hoạt động đủ nhanh?
Tôi hiểu rằng dấu trọng âm là một vấn đề và tất cả chúng ta đều có các từ thông tục, nhưng các công cụ nhận dạng này vẫn nhận được những điều cơ bản sai khi người đó nói bằng giọng Mỹ hoặc Anh chậm và rõ ràng.
Vì vậy, thỏa thuận là gì? Những vấn đề kỹ thuật nào khiến cho máy tính của tôi vẫn khó hiểu?
Đối với người đánh dấu để đóng này là tắt chủ đề/không xây dựng: Tôi không thấy lý do của bạn. Tôi yêu cầu một câu trả lời cụ thể, không phải là một danh sách hoặc phản ứng chủ quan. Nó cũng là một thách thức được gắn kết chặt chẽ trong lĩnh vực lập trình, vì nó là một thách thức lập trình cụ thể đã tồn tại trong một thời gian dài, tức là "làm cho một số mã lắng nghe lời tôi và hiểu chúng". Bạn có thể giải thích lý do tại sao bạn đã bỏ phiếu để đóng? – Polynomial
Nó không phải là. Bạn có cần gặp chuyên gia trị liệu ngôn ngữ không? (Họ thậm chí có nhận dạng giọng nói không?) –
Tôi chưa đánh dấu để đóng, nhưng tôi có thể thấy lý do tại sao những người khác có. Nó có thể phù hợp với: * câu hỏi này sẽ có khả năng thu hút ý kiến, tranh luận, tranh luận, bỏ phiếu, hoặc thảo luận mở rộng. * –