2017-01-03 12 views
5

Tôi đang học mạng thần kinh và cố gắng tạo ra hệ thống nhận dạng loa với lưu lượng tensorflow. Tôi muốn biết độ dài lời nói ảnh hưởng đến mạng thần kinh như thế nào. Ví dụ tôi có 1000 bản ghi âm khác nhau với cùng độ dài và 1000 bản ghi âm khác nhau với các độ dài khác nhau. Vậy làm thế nào về mặt lý thuyết sẽ làm việc mạng thần kinh với các loại dữ liệu? Mạng nơron với cơ sở dữ liệu có cùng bản ghi âm sẽ làm tốt hơn hay tệ hơn? Tại sao?Độ dài lời nói ảnh hưởng đến mạng thần kinh như thế nào trong nhận dạng loa?

Trả lời

1

Tùy thuộc vào loại mạng thần kinh. Khi thiết kế như vậy, bạn thường chỉ định số lượng các nơron đầu vào, sou không thể nạp dữ liệu đó với dữ liệu có độ dài tùy ý. Trong trường hợp chuỗi dài hơn, bạn phải cắt dữ liệu hoặc sử dụng cửa sổ trượt.

Tuy nhiên, một số mạng nơron cho phép bạn xử lý chuỗi đầu vào tùy ý, ví dụ: Recurrent Neural Network. Sau này dường như là một ứng cử viên rất tốt cho vấn đề của bạn. Here là một bài viết hay mô tả việc triển khai loại RNN cụ thể, được gọi là Long Short-Term Memory hoạt động tốt với nhận dạng giọng nói.

1

Tôi cho rằng câu hỏi của bạn có thể được cải cách thành Mạng neural có thể xử lý âm thanh có độ dài khác nhau như thế nào?

Bí quyết là tín hiệu của một kích thước tùy ý được chuyển đổi thành một chuỗi các vectơ tính năng có kích thước cố định. Xem câu trả lời của tôi herehere.

Các vấn đề liên quan