Sử dụng trường hợp:Cách tính xác suất (độ tin cậy) của phân loại SVM cho tập dữ liệu nhỏ?
Tôi có một tập dữ liệu nhỏ với khoảng 3-10 mẫu trong mỗi lớp. Tôi đang sử dụng sklearn SVC để phân loại những người có hạt nhân rbf. I cần sự tự tin của dự đoán cùng với lớp được dự đoán. Tôi đã sử dụng phương pháp predict_proba của SVC. Tôi đã nhận được kết quả lạ với điều đó. Tôi đã tìm kiếm một chút và phát hiện ra rằng nó chỉ có ý nghĩa đối với các tập dữ liệu lớn hơn.
Tìm thấy câu hỏi này trên ngăn xếp Scikit-learn predict_proba gives wrong answers.
Tác giả của câu hỏi đã xác minh điều này bằng cách nhân bộ dữ liệu, do đó sao chép tập dữ liệu.
Câu hỏi của tôi:
1) Nếu tôi nhân bộ dữ liệu của mình bằng cách cho phép nói 100, có mỗi mẫu 100 lần, nó làm tăng "đúng đắn" của "predict_proba". Nó sẽ có tác dụng phụ nào? Overfitting?
2) Có cách nào khác để tôi có thể tính toán độ tin cậy của trình phân loại không? Giống như khoảng cách từ các hyperplanes?
3) Đối với kích thước mẫu nhỏ này, SVM có phải là thuật toán được đề xuất hay tôi nên chọn thứ gì khác không?
Ý bạn là gì?"Dù sao, chỉ với 3 mẫu, không có nhiều hy vọng cho bất cứ điều gì bạn chọn. –
@ juanpa.arrivillaga Tự tin là phân loại mà mẫu này thuộc về lớp này. Platt mở rộng hoặc khoảng cách từ siêu phẳng? –
Như @juanpa nói với 3 mẫu không có gì hợp lý để làm, thực sự.Trong SVM cụ thể không có ý nghĩa (và 99% các phương pháp thống kê khác) Bạn có thể sử dụng 1-NN, mà chỉ đơn giản là một quy tắc "đính kèm một nhãn gần nhất điểm ", nhưng một lần nữa - 3 mẫu cho mỗi lớp là quá nhỏ cho bất kỳ phân tích phong nha. Trừ khi bạn có hàng chục ngàn lớp học, và có một cấu trúc ở giữa chúng. – lejlot