11

Tôi đã phát triển một bằng chứng về hệ thống khái niệm cho nhận dạng âm thanh bằng cách sử dụng mô hình mfcc và ẩn markov. Nó cho kết quả đầy hứa hẹn khi tôi kiểm tra hệ thống trên các âm thanh đã biết. Mặc dù hệ thống, khi một âm thanh không xác định được nhập vào sẽ trả về kết quả có kết quả gần nhất và điểm số không khác biệt với âm thanh không rõ, ví dụ:hidden markov mô hình thresholding

Tôi đã đào tạo 3 mô hình markov ẩn cho bài phát biểu, một cho nước chảy ra từ vòi nước và một cái gõ trên bàn. Sau đó, tôi kiểm tra chúng trên dữ liệu vô hình và nhận được kết quả như sau:

input: speech 
HMM\knocking: -1213.8911146444477 
HMM\speech: -617.8735676792728 
HMM\watertap: -1504.4735097322673 

So highest score speech which is correct 

input: watertap 
HMM\knocking: -3715.7246152783955 
HMM\speech: -4302.67960438553 
HMM\watertap: -1965.6149147201534 

So highest score watertap which is correct 

input: knocking 
HMM\filler -806.7248912250212 
HMM\knocking: -756.4428782636676 
HMM\speech: -1201.686687761133 
HMM\watertap: -3025.181144273698 

So highest score knocking which is correct 

input: unknown 
HMM\knocking: -4369.1702184688975 
HMM\speech: -5090.37122832872 
HMM\watertap: -7717.501505674925 

Ở đây, đầu vào là một âm thanh lạ nhưng nó vẫn trả về trận đấu gần như không có hệ thống lọc ngưỡng/rác.

Tôi biết rằng trong từ khóa phát hiện âm thanh OOV (ngoài vốn từ vựng) có thể được lọc bằng cách sử dụng mô hình rác hoặc phụ trang nhưng nó được đào tạo bằng cách sử dụng một tập hợp các từ không xác định. hệ thống như tôi không biết tất cả các âm thanh mà hệ thống có thể ghi lại.

Sự cố tương tự được giải quyết như thế nào trong hệ thống nhận dạng giọng nói? Và làm thế nào tôi có thể giải quyết vấn đề của mình để tránh những kết quả dương tính giả?

+2

Tôi nghĩ rằng điều này nên được chuyển sang Cross Validated. – ziggystar

+3

Tôi đồng ý rằng điều này sẽ nhận được sự chú ý nhiều hơn (và có trình độ tốt hơn) của Cross Validated. Đáng buồn thay, tín hiệu dơi (hay còn gọi là "đủ nhãn cầu với đủ quyền hạn") dường như bị tắt, vì vậy Radek sẽ phải đặt nó ở đó. ("Thuộc về" không có tùy chọn cho CV hoặc chỉ định vị trí của nó theo cách thủ công. Meh.) – Godeke

Trả lời

3

Để từ chối các từ khác, bạn cần mô hình phụ.

Đây là một thử nghiệm giả thuyết thống kê. Bạn có hai giả thuyết (từ được biết và từ chưa được biết). Để đưa ra quyết định, bạn cần ước tính xác suất của từng giả thuyết.

Mô hình phụ được đào tạo từ bài phát biểu bạn có, theo một cách khác, ví dụ: có thể là một gaussian duy nhất cho bất kỳ âm thanh lời nói nào. Bạn so sánh điểm số từ mô hình trình điền chung và điểm từ từ HMM và đưa ra quyết định. Để biết thêm thông tin chuyên sâu và các thuật toán nâng cao, bạn có thể kiểm tra bất kỳ bài báo nào về từ khoá đốm. Luận án này có một đánh giá tốt:

ACOUSTIC TỪ KHÓA đốm trong bài phát biểu với các ứng dụng khai thác dữ liệu AJ Kishan Thambiratnam

http://eprints.qut.edu.au/37254/1/Albert_Thambiratnam_Thesis.pdf

1

Vì vậy, những gì tôi đã làm là: Tôi tạo ra phiên bản đơn giản của tôi về một mô hình phụ . Mỗi hmm đại diện cho âm thanh watertap, gõ âm thanh và âm thanh lời nói là một 6 trạng thái riêng biệt hmm được đào tạo bởi âm thanh từ tập luyện 30, 50, 90 âm thanh tương ứng với độ dài khác nhau 0,3 giây đến 10 giây. Sau đó, tôi tạo ra một mô hình phụ mà là một bang 1 hmm bao gồm od tất cả các tập huấn luyện âm thanh cho gõ, watertap và lời nói. Vì vậy, nếu điểm số mô hình hmm lớn hơn đối với âm thanh nhất định so với điểm của máy nạp - âm thanh được nhận ra nếu không đó là âm thanh không xác định. Tôi không thực sự có dữ liệu lớn nhưng tôi đã hoàn thành một bài kiểm tra sau đây cho việc từ chối dương tính giả và từ chối thực sự về âm thanh không nhìn thấy được.

true positives rejection 
knocking 1/11 = 90% accuracy 
watertap 1/9 = 89% accuracy 
speech 0/14 = 100% accuracy 


false positives rejection 
Tested 7 unknown sounds 
6/7 = 86% accuracy 

Vì vậy, từ bài kiểm tra nhanh này tôi có thể kết luận rằng phương pháp này mang lại kết quả hợp lý mặc dù tôi có cảm giác lạ có thể không đủ.

0

Mô hình phân biệt đối xử có xu hướng hoạt động tốt hơn trên các nhiệm vụ phân loại so với các mô hình sinh sản.

Bạn chắc chắn có thể có được hiệu suất tốt hơn về tác vụ này bằng cách sử dụng CRF được thiết kế đặc biệt hoặc phân loại max-margin (cấu trúc svm).

Bài báo này (http://ttic.uchicago.edu/~jkeshet/papers/KeshetGrBe07.pdf) thảo luận về một vấn đề phân loại tương tự như của bạn và cho thấy rằng một công thức tối đa lợi nhuận tốt hơn so với phương pháp tiếp cận mang tính tổng quát với mô hình phụ.

Có lẽ không có gì ngoài hộp có thể làm những gì tôi đã mô tả, nhưng, với một số nỗ lực bạn có thể mở rộng svm-struct. (Việc triển khai hmm-svm sẽ không hoạt động cho vấn đề của bạn vì bạn cần xác định trước cấu trúc trạng thái ẩn thay vì tìm hiểu cấu trúc trạng thái ẩn được kết nối tùy ý.)

Các vấn đề liên quan