Đối với dự án năm cuối cùng của tôi, tôi đang cố gắng xác định âm thanh của con chó/vỏ cây/chim thời gian thực (bằng cách ghi các clip âm thanh). Tôi đang sử dụng MFCC làm các tính năng âm thanh. Ban đầu tôi đã trích xuất hoàn toàn 12 vectơ MFCC từ một clip âm thanh bằng cách sử dụng thư viện jAudio. Bây giờ tôi đang cố gắng đào tạo một thuật toán học máy (tại thời điểm này tôi đã không quyết định thuật toán nhưng nó có lẽ là SVM). Kích thước clip âm thanh giống như khoảng 3 giây. Tôi cần làm rõ một số thông tin về quy trình này. Họ đang có,Làm thế nào để đào tạo một thuật toán học máy sử dụng vectơ hệ số MFCC?
Do tôi phải đào tạo thuật toán này sử dụng khung dựa MFCCs (12 mỗi khung hình) hoặc hoặc clip tổng thể dựa MFCCs (12 cho mỗi clip âm thanh)?
Để đào tạo thuật toán, tôi có phải xem xét tất cả 12 MFCCs như 12 thuộc tính khác nhau hoặc tôi có phải xem xét 12 MFCC đó là một thuộc tính không?
Những MFCCs là MFCCS tổng thể cho clip,
-9.598802712290967 -21.644963856237265 -7.405551798816725 -11.638107212413201 -19.441831623156144 -2.780967392843105 -0.5792847321137902 -13.14237288849559 -4.920408873192934 -2.7111507999281925 -7.336670942457227 2.4687330348335212
Bất kỳ trợ giúp sẽ được đánh giá cao thực sự để vượt qua những vấn đề này. Tôi không thể tìm ra trợ giúp tốt trên Google. :)
bạn có thể vui lòng chia sẻ mã của mình nếu có thể được không, tôi đang làm việc tương tự. –