Tôi đã phát triển một bằng chứng về hệ thống khái niệm cho nhận dạng âm thanh bằng cách sử dụng mô hình mfcc và ẩn markov. Nó cho kết quả đầy hứa hẹn khi tôi kiểm tra hệ thống trên các âm thanh đã biết. Mặc dù hệ thống, khi một âm thanh không xác định được nhập vào sẽ trả về kết quả có kết quả gần nhất và điểm số không khác biệt với âm thanh không rõ, ví dụ:hidden markov mô hình thresholding
Tôi đã đào tạo 3 mô hình markov ẩn cho bài phát biểu, một cho nước chảy ra từ vòi nước và một cái gõ trên bàn. Sau đó, tôi kiểm tra chúng trên dữ liệu vô hình và nhận được kết quả như sau:
input: speech
HMM\knocking: -1213.8911146444477
HMM\speech: -617.8735676792728
HMM\watertap: -1504.4735097322673
So highest score speech which is correct
input: watertap
HMM\knocking: -3715.7246152783955
HMM\speech: -4302.67960438553
HMM\watertap: -1965.6149147201534
So highest score watertap which is correct
input: knocking
HMM\filler -806.7248912250212
HMM\knocking: -756.4428782636676
HMM\speech: -1201.686687761133
HMM\watertap: -3025.181144273698
So highest score knocking which is correct
input: unknown
HMM\knocking: -4369.1702184688975
HMM\speech: -5090.37122832872
HMM\watertap: -7717.501505674925
Ở đây, đầu vào là một âm thanh lạ nhưng nó vẫn trả về trận đấu gần như không có hệ thống lọc ngưỡng/rác.
Tôi biết rằng trong từ khóa phát hiện âm thanh OOV (ngoài vốn từ vựng) có thể được lọc bằng cách sử dụng mô hình rác hoặc phụ trang nhưng nó được đào tạo bằng cách sử dụng một tập hợp các từ không xác định. hệ thống như tôi không biết tất cả các âm thanh mà hệ thống có thể ghi lại.
Sự cố tương tự được giải quyết như thế nào trong hệ thống nhận dạng giọng nói? Và làm thế nào tôi có thể giải quyết vấn đề của mình để tránh những kết quả dương tính giả?
Tôi nghĩ rằng điều này nên được chuyển sang Cross Validated. – ziggystar
Tôi đồng ý rằng điều này sẽ nhận được sự chú ý nhiều hơn (và có trình độ tốt hơn) của Cross Validated. Đáng buồn thay, tín hiệu dơi (hay còn gọi là "đủ nhãn cầu với đủ quyền hạn") dường như bị tắt, vì vậy Radek sẽ phải đặt nó ở đó. ("Thuộc về" không có tùy chọn cho CV hoặc chỉ định vị trí của nó theo cách thủ công. Meh.) – Godeke