Tôi có ~ 100 tệp âm thanh wav với tỷ lệ mẫu là 48000 loài chim cùng loài mà tôi muốn đo sự giống nhau giữa. Tôi bắt đầu với các tập tin sóng, nhưng tôi biết (rất ít) nhiều hơn về làm việc với hình ảnh, vì vậy tôi giả định phân tích của tôi sẽ được trên các hình ảnh spectrogram. Tôi có một số mẫu của một số loài chim từ những ngày khác nhau.Phân tích âm thanh Birdsong - tìm thấy hai clip phù hợp với nhau như thế nào
Dưới đây là một số ví dụ về các dữ liệu, cùng với (xin lỗi cho trục không có nhãn; x là mẫu, y là lần tần số tuyến tính cái gì đó như 10.000 Hz): Những birdsongs dường như xảy ra trong "chữ", các phân đoạn riêng biệt của bài hát có lẽ là cấp độ mà tôi nên so sánh; cả hai sự khác biệt giữa các từ tương tự và tần suất và thứ tự của các từ khác nhau.
Tôi muốn cố gắng loại bỏ tiếng ồn cicada - cicadas chirp với tần suất khá phù hợp và có xu hướng khớp pha, vì vậy điều này không quá khó.
Có vẻ như một số bản vẽ có thể hữu ích.
Tôi được thông báo rằng hầu hết các tài liệu hiện có đều sử dụng phân loại thủ công dựa trên đặc điểm bài hát, như Dự án bộ gen âm nhạc Pandora. Tôi muốn được như Echo Nest; sử dụng phân loại tự động. Cập nhật: Rất nhiều người làm nghiên cứu này.
Câu hỏi của tôi là những công cụ nào tôi nên sử dụng cho phân tích này? Tôi cần phải:
- Lọc/ngưỡng ra tiếng ồn nói chung và giữ cho âm nhạc
- Lọc ra tiếng động cụ thể như của ve sầu
- Split và phân loại cụm từ, âm tiết, và/hoặc ghi chú trong birdsongs
- Tạo các biện pháp khác biệt/tương tự giữa các bộ phận; một cái gì đó sẽ nhận được sự khác biệt giữa các loài chim, giảm thiểu sự khác biệt giữa các cuộc gọi khác nhau của cùng một con chim
Vũ khí của tôi là sự lựa chọn gọn gàng/scipy, nhưng một cái gì đó như openCV có thể hữu ích ở đây?
Chỉnh sửa: đã cập nhật thuật ngữ của tôi và cách tiếp cận được viết lại sau một số nghiên cứu và câu trả lời hữu ích của Steve.
Thực sự thú vị :) Tôi không có thời gian để đưa ra câu trả lời hoàn chỉnh tại thời điểm này nhưng tôi sẽ xem xét * tương quan chéo * - chỉ nhân trong miền tần số iirc. Các cơ chế đơn giản để lọc nhiễu bao gồm các bộ lọc thông cao và thấp, nếu bạn biết tần số của mình nằm trong một phạm vi nhất định. Ngoài ra kiểm tra deconvolution, và xem xét kỹ thuật loạt thời gian xử lý địa chấn cho một số cảm hứng tiếp tuyến. Bực bội, sẽ cố gắng và trả lại càng sớm càng tốt :) –
@Tim Cảm ơn, tôi sẽ bắt đầu vào danh sách đọc! – Thomas
Tôi biết rằng các kỹ thuật "Lập trình động" và "Mô hình Markov ẩn" đã được sử dụng (một thời gian trở lại) để phân tích các bài hát của chim và thu được khoảng cách của chúng với nhau. – telesphore4