Tôi đang thực hiện một số nghiên cứu về cách so sánh các tệp âm thanh (wave). Về cơ bản tôi muốn so sánh các tập tin âm thanh được lưu trữ (wav) với âm thanh từ micrô. Vì vậy, cuối cùng tôi muốn lưu trữ trước một số lệnh bằng giọng nói của riêng tôi và sau đó khi Im chạy ứng dụng của tôi, tôi muốn so sánh các tệp được lưu trữ trước với đầu vào từ micrô.Khung âm thanh có chứa gì?
Suy nghĩ của tôi đã được đặt trong một số lợi nhuận khi so sánh vì nói điều gì đó hai lần liên tiếp theo cách tương tự sẽ khó mà tôi đoán.
Vì vậy, sau khi một số googling tôi thấy rằng python có mô-đun này có tên là Wave và đối tượng Wave_read. Đối tượng đó có hàm có tên là readframes (n):
Đọc và trả về nhiều nhất n khung âm thanh, dưới dạng một chuỗi byte.
Các byte này chứa những gì? Im nghĩ đến việc lặp lại thông qua các tập tin sóng một khung hình tại thời điểm so sánh chúng khung theo khung.
Các byte chứa dữ liệu PCM. Bạn đang cố gắng nhận dạng giọng nói? Nghe có vẻ như bạn đang ở trên đầu của bạn. Bạn nên nghiên cứu chủ đề này. – JoshD
Ah, chết tiệt rồi :) Cảm ơn bạn đã trả lời. Bạn có thể gọi nó là nhận dạng giọng nói, nhưng cách tôi nghĩ về nó là so sánh tập tin đơn giản mà sẽ đơn giản hơn nhiều. Trong trường hợp của tôi, nó chỉ là vấn đề tạo ra âm thanh giống nhau, không phân tích và cố gắng diễn giải các từ – Jason94
Đó vẫn là nhận dạng giọng nói. Ngay cả một sự khác biệt nhỏ hoặc tốc độ trong giọng nói của bạn sẽ cung cấp cho dữ liệu âm thanh cực kỳ khác nhau, do đó bạn không thể chỉ so sánh nó theo từng khung hình. – Soviut